„Hol dir die KI auf den eigenen Rechner — kostenlos, privat, unabhängig.“ So klingt es derzeit überall in den sozialen Medien. LLMs lokal laufen lassen ist tatsächlich möglich und in vielen Fällen sinnvoll. Aber die populäre Erzählung verschweigt das Entscheidende: Es hängt massiv davon ab, welches Modell — und die großen, gehypten Modelle kann sich kaum jemand zu Hause leisten. Dieser Beitrag macht den ehrlichen Realitäts-Check.
Das Versprechen — und der Haken
Lokale Sprachmodelle haben echte Vorteile: Die Daten bleiben bei Ihnen, es fallen keine Gebühren pro Anfrage an, und Sie sind unabhängig von einem Anbieter. Der Haken: Die Leistungsfähigkeit eines Modells hängt grob an seiner Größe (Anzahl der Parameter) — und je größer das Modell, desto mehr Arbeits- und Grafikspeicher braucht es. Die Social-Media-Posts zeigen gern das beeindruckende Ergebnis eines riesigen Modells und verschweigen, auf welcher Hardware das lief.
Wie viel Speicher braucht ein Modell wirklich?
Die Faustformel: Speicherbedarf ≈ Anzahl der Parameter × Bytes pro Parameter. In voller Präzision (FP16) sind das rund 2 Byte je Parameter, mit Quantisierung (Komprimierung) entsprechend weniger. Am Beispiel von GLM-5.2 — einem aktuellen, quelloffenen Spitzenmodell mit rund 744 Milliarden Parametern — sieht das so aus (Werte je nach Quantisierung und Kontext, gerundet):
| GLM-5.2 · 744 Mrd. Parameter | Speicher (RAM + VRAM) | Realistische Hardware |
|---|---|---|
| 2-bit (stark komprimiert) | ~245 GB | Rechner mit 256 GB Speicher / Multi-GPU |
| 4-bit | ~476 GB | Mehrere Profi-GPUs (Server) |
| 8-bit | ~810 GB | GPU-Server |
| FP16 (volle Präzision) | ~1.642 GB | Rechenzentrum (viele Enterprise-GPUs) |
Zum Einordnen: Eine sehr gute Gaming-Grafikkarte hat 16–24 GB VRAM, ein gut ausgestatteter Rechner vielleicht 32–64 GB RAM. Selbst die schlankste, stark beschnittene 2-bit-Variante von GLM-5.2 sprengt das um ein Vielfaches.
Das Kosten- und Qualitäts-Dilemma
Der günstigste realistisch machbare Weg für ein Modell dieser Größe ist ein Rechner mit rund 256 GB Speicher (etwa ein hochausgestatteter Mac oder eine Multi-GPU-Workstation) — Anschaffung mehrere Tausend Euro. Und selbst dann läuft nur die stark komprimierte 2-bit-Version, die spürbar an Qualität verliert. Es gilt eine Art Dreieck, von dem man nur zwei Ecken bekommt:
- Spitzen-Modellqualität
- günstige Hardware
- hohe Geschwindigkeit
Wer ein Frontier-Modell lokal in guter Qualität und schnell betreiben will, zahlt dafür mit teurer Server-Hardware. Wer spart, muss bei Qualität (starke Quantisierung) oder Tempo (Auslagern auf langsamen RAM) Abstriche machen. Genau das blendet die Hype-Erzählung aus.
Was sich für den Mittelstand wirklich rechnet
Lokal ist realistisch, wenn …
- Sie kleine bis mittlere Modelle nutzen (ca. 7–32 Mrd. Parameter)
- es um klar umrissene Aufgaben geht (Auslesen, Zusammenfassen, Klassifizieren)
- Daten das Haus nicht verlassen dürfen
- eine ordentliche Workstation oder GPU vorhanden ist
Eine Cloud-API ist ehrlicher, wenn …
- Sie Spitzenqualität für komplexe Aufgaben brauchen
- die Hardware für Frontier-Modelle fehlt (Server, fünfstellig)
- die Last stark schwankt
- Sie ohne Betriebsaufwand schnell starten wollen
Der pragmatische Mittelweg
In der Praxis ist selten „alles lokal“ oder „alles Cloud“ die Antwort, sondern eine Kombination: ein kleines, lokal laufendes Modell für datensensible Routineaufgaben — und eine Cloud-API (gern mit EU-Datenhaltung) für die wenigen, wirklich anspruchsvollen Fälle. So bleiben sensible Daten im Haus, ohne dass Sie einen teuren Server für ein Frontier-Modell anschaffen müssen. Tools wie Ollama machen den lokalen Teil zugänglich; entscheidend ist die saubere Einbindung in Ihre Prozesse.
Häufige Fragen
Kann ich ein Modell auf ChatGPT- oder Claude-Niveau lokal kostenlos betreiben?
In der Regel nicht. Modelle dieser Klasse sind sehr groß und benötigen hunderte Gigabyte Speicher und Hardware im vier- bis fünfstelligen Bereich. „Kostenlos lokal in Spitzenqualität“ ist für die meisten Privat- und KMU-Setups unrealistisch.
Wie viel RAM braucht GLM-5.2?
GLM-5.2 hat rund 744 Milliarden Parameter. Je nach Komprimierung braucht es ungefähr 245 GB (2-bit), 476 GB (4-bit), 810 GB (8-bit) oder rund 1.642 GB in voller Präzision — kombinierter Arbeits- und Grafikspeicher. Schon die kleinste Variante übersteigt normale PCs deutlich.
Reicht ein guter Gaming-PC für lokale LLMs?
Für kleine bis mittlere Modelle (etwa 7–32 Mrd. Parameter) ja — die laufen auf einer 16–24-GB-Grafikkarte oder mit genügend RAM ordentlich. Für die ganz großen Frontier-Modelle reicht er nicht.
Ist lokal automatisch DSGVO-sicherer?
Lokaler Betrieb hat den Vorteil, dass Daten Ihre Infrastruktur nicht verlassen. Das ist ein echter Pluspunkt — ersetzt aber nicht übliche Maßnahmen wie Zugriffsrechte, Verschlüsselung und ein Berechtigungskonzept.
Was empfehlt ihr kleinen und mittleren Unternehmen?
Aufgabenbezogen entscheiden: ein kleines lokales Modell für datensensible Routine, eine Cloud-API für die wenigen wirklich schweren Aufgaben. Diese Kombination ist meist günstiger und sicherer als der Versuch, ein Spitzenmodell selbst zu hosten.
