Erstgespräch vereinbaren

Was ist Ollama? KI-Modelle lokal betreiben — der Leitfaden

Ollama ist ein quelloffenes Tool, mit dem Sie große Sprachmodelle (LLMs) lokal auf dem eigenen Rechner oder Server betreiben — ganz ohne Cloud. Statt Anfragen an einen externen Anbieter zu schicken, läuft das KI-Modell bei Ihnen. Das ist vor allem dann interessant, wenn Datenschutz, Kosten oder Offline-Fähigkeit eine Rolle spielen. Dieser Leitfaden erklärt, was Ollama ist, wie es funktioniert, welche Hardware Sie brauchen und wann sich der lokale Betrieb lohnt.

Was ist Ollama genau?

Ollama ist eine kostenlose, quelloffene Software für macOS, Linux und Windows. Sie kümmert sich um das Herunterladen, Verwalten und Ausführen von Sprachmodellen und stellt diese sowohl über die Kommandozeile als auch über eine lokale Programmierschnittstelle (API) bereit. Damit wird aus Ihrem Rechner ein eigener KI-Server, den nur Sie ansprechen.

Wie funktioniert Ollama?

Im Kern sind es wenige Schritte vom Start bis zur ersten Antwort:

  1. Ollama installieren (macOS, Linux oder Windows).
  2. Ein Modell laden, z. B. mit dem Befehl „ollama pull <modell>“.
  3. Das Modell starten und chatten, z. B. mit „ollama run <modell>“.
  4. Optional: die lokale API (standardmäßig unter localhost:11434) aus eigenen Anwendungen, Skripten oder Automatisierungen ansprechen.

Damit große Modelle auch auf normaler Hardware laufen, nutzt Ollama quantisierte Modellvarianten — vereinfacht gesagt komprimierte Versionen, die weniger Speicher brauchen, bei meist nur geringem Qualitätsverlust.

Welche Modelle laufen mit Ollama?

Ollama bietet eine Bibliothek bekannter offener Modelle, darunter:

  • Llama (Meta)
  • Mistral und Mixtral
  • Gemma (Google)
  • Phi (Microsoft)
  • Qwen sowie DeepSeek
  • spezialisierte Modelle, etwa für Code oder Embeddings

Welche Modelle und Versionen verfügbar sind, ändert sich laufend — und die Lizenzbedingungen unterscheiden sich je Modell. Für den kommerziellen Einsatz sollten Sie die jeweilige Modelllizenz prüfen.

Lokal vs. Cloud-API: der Unterschied

KriteriumOllama (lokal)Cloud-API (z. B. OpenAI)
DatenschutzDaten bleiben auf Ihrer HardwareDaten gehen an den Anbieter
KostenHardware/Strom, keine Pro-Token-GebührAbrechnung pro Nutzung (Token)
Offline-BetriebMöglichInternetverbindung nötig
ModellqualitätGut, aber meist unter Top-Cloud-ModellenZugriff auf stärkste Modelle
HardwareEigene Ressourcen nötigKeine eigene Hardware nötig
SkalierungDurch eigene Hardware begrenztPraktisch unbegrenzt

Wann sich Ollama lohnt — und wann nicht

Ollama lohnt sich, wenn …

  • sensible Daten das Haus nicht verlassen dürfen (DSGVO)
  • Sie viele Anfragen haben und API-Kosten sparen wollen
  • Sie offline oder in abgeschotteten Umgebungen arbeiten
  • Sie experimentieren, prototypen oder lokal entwickeln

Eher eine Cloud-API, wenn …

  • Sie maximale Modellqualität für komplexe Aufgaben brauchen
  • keine geeignete Hardware vorhanden ist
  • Sie stark und unvorhersehbar skalieren müssen
  • Sie ohne Betriebsaufwand sofort starten wollen

Welche Hardware brauche ich?

Als Faustregel gilt: Je größer das Modell (gemessen in Milliarden Parametern), desto mehr Arbeits- bzw. Grafikspeicher wird benötigt.

  • Kleinere Modelle (wenige Milliarden Parameter) laufen auf aktuellen Rechnern mit genügend RAM, teils sogar ohne dedizierte Grafikkarte.
  • Mittlere und große Modelle profitieren stark von einer leistungsfähigen GPU mit ausreichend VRAM.
  • Quantisierte Modellvarianten senken den Speicherbedarf und machen mehr auf Standard-Hardware möglich.
  • Für den Mehrbenutzer- oder Dauerbetrieb empfiehlt sich ein dedizierter Server statt eines Arbeitslaptops.

Ollama im Unternehmenskontext

Für Unternehmen ist Ollama vor allem aus einem Grund spannend: Datenhoheit. Sensible Inhalte — Verträge, Kundendaten, interne Dokumente — verlassen die eigene Infrastruktur nicht. In Kombination mit einer self-hosted Automatisierung wie n8n lassen sich so datensparsame KI-Workflows bauen: Dokumente auslesen, Texte zusammenfassen oder Anfragen vorsortieren, ohne dass Daten an externe Anbieter gehen. Entscheidend ist die saubere, kontrollierte Einbindung in Ihre Prozesse — genau das ist unser Thema bei der KI-Automatisierung.

Häufige Fragen

Ist Ollama kostenlos?

Ja. Ollama selbst ist quelloffen und kostenlos. Kosten entstehen nur für die Hardware bzw. den Strom — es gibt keine Gebühr pro Anfrage wie bei Cloud-APIs. Bei einzelnen Modellen sind jedoch die jeweiligen Lizenzbedingungen zu beachten.

Brauche ich eine GPU für Ollama?

Nicht zwingend. Kleinere Modelle laufen auch auf der CPU, wenn genügend RAM vorhanden ist. Für größere Modelle und schnellere Antworten ist eine leistungsfähige GPU mit ausreichend VRAM aber klar im Vorteil.

Ist Ollama DSGVO-freundlich?

Der lokale Betrieb ist ein großer Vorteil: Da die Verarbeitung auf Ihrer eigenen Hardware stattfindet, verlassen die Daten Ihre Infrastruktur nicht. Übliche Schutzmaßnahmen (Zugriffsrechte, Verschlüsselung) sollten Sie dennoch umsetzen.

Kann ich Ollama mit anderen Anwendungen verbinden?

Ja. Ollama stellt eine lokale API bereit, über die Sie Modelle aus eigenen Programmen, Skripten oder Automatisierungstools wie n8n ansprechen können — ideal für datensparsame KI-Workflows.

Sind lokale Modelle so gut wie ChatGPT & Co.?

Offene, lokal laufende Modelle sind sehr leistungsfähig, erreichen aber bei besonders komplexen Aufgaben meist nicht ganz das Niveau der größten Cloud-Modelle. Für viele praktische Aufgaben sind sie jedoch völlig ausreichend.

Passend dazu

Klingt nach Ihrem Thema?

Im kostenlosen Erstgespräch klären wir, ob und wie sich das bei Ihnen umsetzen lässt — ehrlich und unverbindlich.

Kostenloses Erstgespräch

oder direkt anrufen: +49 5341 288 4730