Ollama ist ein quelloffenes Tool, mit dem Sie große Sprachmodelle (LLMs) lokal auf dem eigenen Rechner oder Server betreiben — ganz ohne Cloud. Statt Anfragen an einen externen Anbieter zu schicken, läuft das KI-Modell bei Ihnen. Das ist vor allem dann interessant, wenn Datenschutz, Kosten oder Offline-Fähigkeit eine Rolle spielen. Dieser Leitfaden erklärt, was Ollama ist, wie es funktioniert, welche Hardware Sie brauchen und wann sich der lokale Betrieb lohnt.
Was ist Ollama genau?
Ollama ist eine kostenlose, quelloffene Software für macOS, Linux und Windows. Sie kümmert sich um das Herunterladen, Verwalten und Ausführen von Sprachmodellen und stellt diese sowohl über die Kommandozeile als auch über eine lokale Programmierschnittstelle (API) bereit. Damit wird aus Ihrem Rechner ein eigener KI-Server, den nur Sie ansprechen.
Wie funktioniert Ollama?
Im Kern sind es wenige Schritte vom Start bis zur ersten Antwort:
- Ollama installieren (macOS, Linux oder Windows).
- Ein Modell laden, z. B. mit dem Befehl „ollama pull <modell>“.
- Das Modell starten und chatten, z. B. mit „ollama run <modell>“.
- Optional: die lokale API (standardmäßig unter localhost:11434) aus eigenen Anwendungen, Skripten oder Automatisierungen ansprechen.
Damit große Modelle auch auf normaler Hardware laufen, nutzt Ollama quantisierte Modellvarianten — vereinfacht gesagt komprimierte Versionen, die weniger Speicher brauchen, bei meist nur geringem Qualitätsverlust.
Welche Modelle laufen mit Ollama?
Ollama bietet eine Bibliothek bekannter offener Modelle, darunter:
- Llama (Meta)
- Mistral und Mixtral
- Gemma (Google)
- Phi (Microsoft)
- Qwen sowie DeepSeek
- spezialisierte Modelle, etwa für Code oder Embeddings
Welche Modelle und Versionen verfügbar sind, ändert sich laufend — und die Lizenzbedingungen unterscheiden sich je Modell. Für den kommerziellen Einsatz sollten Sie die jeweilige Modelllizenz prüfen.
Lokal vs. Cloud-API: der Unterschied
| Kriterium | Ollama (lokal) | Cloud-API (z. B. OpenAI) |
|---|---|---|
| Datenschutz | Daten bleiben auf Ihrer Hardware | Daten gehen an den Anbieter |
| Kosten | Hardware/Strom, keine Pro-Token-Gebühr | Abrechnung pro Nutzung (Token) |
| Offline-Betrieb | Möglich | Internetverbindung nötig |
| Modellqualität | Gut, aber meist unter Top-Cloud-Modellen | Zugriff auf stärkste Modelle |
| Hardware | Eigene Ressourcen nötig | Keine eigene Hardware nötig |
| Skalierung | Durch eigene Hardware begrenzt | Praktisch unbegrenzt |
Wann sich Ollama lohnt — und wann nicht
Ollama lohnt sich, wenn …
- sensible Daten das Haus nicht verlassen dürfen (DSGVO)
- Sie viele Anfragen haben und API-Kosten sparen wollen
- Sie offline oder in abgeschotteten Umgebungen arbeiten
- Sie experimentieren, prototypen oder lokal entwickeln
Eher eine Cloud-API, wenn …
- Sie maximale Modellqualität für komplexe Aufgaben brauchen
- keine geeignete Hardware vorhanden ist
- Sie stark und unvorhersehbar skalieren müssen
- Sie ohne Betriebsaufwand sofort starten wollen
Welche Hardware brauche ich?
Als Faustregel gilt: Je größer das Modell (gemessen in Milliarden Parametern), desto mehr Arbeits- bzw. Grafikspeicher wird benötigt.
- Kleinere Modelle (wenige Milliarden Parameter) laufen auf aktuellen Rechnern mit genügend RAM, teils sogar ohne dedizierte Grafikkarte.
- Mittlere und große Modelle profitieren stark von einer leistungsfähigen GPU mit ausreichend VRAM.
- Quantisierte Modellvarianten senken den Speicherbedarf und machen mehr auf Standard-Hardware möglich.
- Für den Mehrbenutzer- oder Dauerbetrieb empfiehlt sich ein dedizierter Server statt eines Arbeitslaptops.
Ollama im Unternehmenskontext
Für Unternehmen ist Ollama vor allem aus einem Grund spannend: Datenhoheit. Sensible Inhalte — Verträge, Kundendaten, interne Dokumente — verlassen die eigene Infrastruktur nicht. In Kombination mit einer self-hosted Automatisierung wie n8n lassen sich so datensparsame KI-Workflows bauen: Dokumente auslesen, Texte zusammenfassen oder Anfragen vorsortieren, ohne dass Daten an externe Anbieter gehen. Entscheidend ist die saubere, kontrollierte Einbindung in Ihre Prozesse — genau das ist unser Thema bei der KI-Automatisierung.
Häufige Fragen
Ist Ollama kostenlos?
Ja. Ollama selbst ist quelloffen und kostenlos. Kosten entstehen nur für die Hardware bzw. den Strom — es gibt keine Gebühr pro Anfrage wie bei Cloud-APIs. Bei einzelnen Modellen sind jedoch die jeweiligen Lizenzbedingungen zu beachten.
Brauche ich eine GPU für Ollama?
Nicht zwingend. Kleinere Modelle laufen auch auf der CPU, wenn genügend RAM vorhanden ist. Für größere Modelle und schnellere Antworten ist eine leistungsfähige GPU mit ausreichend VRAM aber klar im Vorteil.
Ist Ollama DSGVO-freundlich?
Der lokale Betrieb ist ein großer Vorteil: Da die Verarbeitung auf Ihrer eigenen Hardware stattfindet, verlassen die Daten Ihre Infrastruktur nicht. Übliche Schutzmaßnahmen (Zugriffsrechte, Verschlüsselung) sollten Sie dennoch umsetzen.
Kann ich Ollama mit anderen Anwendungen verbinden?
Ja. Ollama stellt eine lokale API bereit, über die Sie Modelle aus eigenen Programmen, Skripten oder Automatisierungstools wie n8n ansprechen können — ideal für datensparsame KI-Workflows.
Sind lokale Modelle so gut wie ChatGPT & Co.?
Offene, lokal laufende Modelle sind sehr leistungsfähig, erreichen aber bei besonders komplexen Aufgaben meist nicht ganz das Niveau der größten Cloud-Modelle. Für viele praktische Aufgaben sind sie jedoch völlig ausreichend.
