Erstgespräch vereinbaren

LLMs lokal laufen lassen: der ehrliche Realitäts-Check

„Hol dir die KI auf den eigenen Rechner — kostenlos, privat, unabhängig.“ So klingt es derzeit überall in den sozialen Medien. LLMs lokal laufen lassen ist tatsächlich möglich und in vielen Fällen sinnvoll. Aber die populäre Erzählung verschweigt das Entscheidende: Es hängt massiv davon ab, welches Modell — und die großen, gehypten Modelle kann sich kaum jemand zu Hause leisten. Dieser Beitrag macht den ehrlichen Realitäts-Check.

Das Versprechen — und der Haken

Lokale Sprachmodelle haben echte Vorteile: Die Daten bleiben bei Ihnen, es fallen keine Gebühren pro Anfrage an, und Sie sind unabhängig von einem Anbieter. Der Haken: Die Leistungsfähigkeit eines Modells hängt grob an seiner Größe (Anzahl der Parameter) — und je größer das Modell, desto mehr Arbeits- und Grafikspeicher braucht es. Die Social-Media-Posts zeigen gern das beeindruckende Ergebnis eines riesigen Modells und verschweigen, auf welcher Hardware das lief.

Wie viel Speicher braucht ein Modell wirklich?

Die Faustformel: Speicherbedarf ≈ Anzahl der Parameter × Bytes pro Parameter. In voller Präzision (FP16) sind das rund 2 Byte je Parameter, mit Quantisierung (Komprimierung) entsprechend weniger. Am Beispiel von GLM-5.2 — einem aktuellen, quelloffenen Spitzenmodell mit rund 744 Milliarden Parametern — sieht das so aus (Werte je nach Quantisierung und Kontext, gerundet):

GLM-5.2 · 744 Mrd. ParameterSpeicher (RAM + VRAM)Realistische Hardware
2-bit (stark komprimiert)~245 GBRechner mit 256 GB Speicher / Multi-GPU
4-bit~476 GBMehrere Profi-GPUs (Server)
8-bit~810 GBGPU-Server
FP16 (volle Präzision)~1.642 GBRechenzentrum (viele Enterprise-GPUs)

Zum Einordnen: Eine sehr gute Gaming-Grafikkarte hat 16–24 GB VRAM, ein gut ausgestatteter Rechner vielleicht 32–64 GB RAM. Selbst die schlankste, stark beschnittene 2-bit-Variante von GLM-5.2 sprengt das um ein Vielfaches.

Das Kosten- und Qualitäts-Dilemma

Der günstigste realistisch machbare Weg für ein Modell dieser Größe ist ein Rechner mit rund 256 GB Speicher (etwa ein hochausgestatteter Mac oder eine Multi-GPU-Workstation) — Anschaffung mehrere Tausend Euro. Und selbst dann läuft nur die stark komprimierte 2-bit-Version, die spürbar an Qualität verliert. Es gilt eine Art Dreieck, von dem man nur zwei Ecken bekommt:

  • Spitzen-Modellqualität
  • günstige Hardware
  • hohe Geschwindigkeit

Wer ein Frontier-Modell lokal in guter Qualität und schnell betreiben will, zahlt dafür mit teurer Server-Hardware. Wer spart, muss bei Qualität (starke Quantisierung) oder Tempo (Auslagern auf langsamen RAM) Abstriche machen. Genau das blendet die Hype-Erzählung aus.

Was sich für den Mittelstand wirklich rechnet

Lokal ist realistisch, wenn …

  • Sie kleine bis mittlere Modelle nutzen (ca. 7–32 Mrd. Parameter)
  • es um klar umrissene Aufgaben geht (Auslesen, Zusammenfassen, Klassifizieren)
  • Daten das Haus nicht verlassen dürfen
  • eine ordentliche Workstation oder GPU vorhanden ist

Eine Cloud-API ist ehrlicher, wenn …

  • Sie Spitzenqualität für komplexe Aufgaben brauchen
  • die Hardware für Frontier-Modelle fehlt (Server, fünfstellig)
  • die Last stark schwankt
  • Sie ohne Betriebsaufwand schnell starten wollen

Der pragmatische Mittelweg

In der Praxis ist selten „alles lokal“ oder „alles Cloud“ die Antwort, sondern eine Kombination: ein kleines, lokal laufendes Modell für datensensible Routineaufgaben — und eine Cloud-API (gern mit EU-Datenhaltung) für die wenigen, wirklich anspruchsvollen Fälle. So bleiben sensible Daten im Haus, ohne dass Sie einen teuren Server für ein Frontier-Modell anschaffen müssen. Tools wie Ollama machen den lokalen Teil zugänglich; entscheidend ist die saubere Einbindung in Ihre Prozesse.

Häufige Fragen

Kann ich ein Modell auf ChatGPT- oder Claude-Niveau lokal kostenlos betreiben?

In der Regel nicht. Modelle dieser Klasse sind sehr groß und benötigen hunderte Gigabyte Speicher und Hardware im vier- bis fünfstelligen Bereich. „Kostenlos lokal in Spitzenqualität“ ist für die meisten Privat- und KMU-Setups unrealistisch.

Wie viel RAM braucht GLM-5.2?

GLM-5.2 hat rund 744 Milliarden Parameter. Je nach Komprimierung braucht es ungefähr 245 GB (2-bit), 476 GB (4-bit), 810 GB (8-bit) oder rund 1.642 GB in voller Präzision — kombinierter Arbeits- und Grafikspeicher. Schon die kleinste Variante übersteigt normale PCs deutlich.

Reicht ein guter Gaming-PC für lokale LLMs?

Für kleine bis mittlere Modelle (etwa 7–32 Mrd. Parameter) ja — die laufen auf einer 16–24-GB-Grafikkarte oder mit genügend RAM ordentlich. Für die ganz großen Frontier-Modelle reicht er nicht.

Ist lokal automatisch DSGVO-sicherer?

Lokaler Betrieb hat den Vorteil, dass Daten Ihre Infrastruktur nicht verlassen. Das ist ein echter Pluspunkt — ersetzt aber nicht übliche Maßnahmen wie Zugriffsrechte, Verschlüsselung und ein Berechtigungskonzept.

Was empfehlt ihr kleinen und mittleren Unternehmen?

Aufgabenbezogen entscheiden: ein kleines lokales Modell für datensensible Routine, eine Cloud-API für die wenigen wirklich schweren Aufgaben. Diese Kombination ist meist günstiger und sicherer als der Versuch, ein Spitzenmodell selbst zu hosten.

Passend dazu

Klingt nach Ihrem Thema?

Im kostenlosen Erstgespräch klären wir, ob und wie sich das bei Ihnen umsetzen lässt — ehrlich und unverbindlich.

Kostenloses Erstgespräch

oder direkt anrufen: +49 5341 288 4730