KI 6 Min Lesezeit

Lokale LLMs im Unternehmen — wann Ollama und LM Studio die Cloud schlagen

Lokale LLMs mit Ollama und LM Studio 2025: Hardware-Anforderungen, Modelle wie Llama 3.x und Qwen, Datenschutz-Vorteile und ehrliche Use Cases für den Mittelstand.

Bild: Taylor Vick · Unsplash License

Thorsten Heß
Thorsten Heß MOLOTOW Web Development

„Wir würden ja gerne mit KI arbeiten, aber unsere Daten dürfen unser Haus nicht verlassen.” Diesen Satz hören wir in der Beratung mindestens einmal pro Woche. Die gute Nachricht: Seit Mitte 2024 ist lokale KI so weit, dass sie für viele Anwendungsfälle im Mittelstand eine ernsthafte Alternative zur Cloud ist. In diesem Beitrag ordnen wir ein, wann sich Ollama und LM Studio lohnen, welche Hardware Du brauchst und wo die Grenzen liegen.

Wir sind MOLOTOW Web Development aus Lahr, zertifizierte KI-Manager, und betreuen seit 2023 lokale und hybride KI-Installationen bei KMU im Schwarzwald und darüber hinaus.

Was sind Ollama und LM Studio?

Ollama ist ein schlankes Open-Source-Werkzeug, mit dem Du LLMs auf einem einzigen Befehl hin herunterlädst, startest und über eine lokale API ansprichst. Ein ollama run llama3.3 und Du hast in wenigen Minuten ein großes Sprachmodell auf Deinem eigenen Rechner laufen. Keine Cloud, kein Login, keine Token-Rechnung.

LM Studio ist der grafische Bruder: Eine Desktop-App (Mac, Windows, Linux), die einen Modell-Katalog, eine Chat-Oberfläche und einen lokalen API-Server in einem Paket liefert. Nutzer ohne Terminal-Erfahrung sind mit LM Studio in der Regel schneller produktiv.

Beide Werkzeuge nutzen unter der Haube Llama.cpp und unterstützen GGUF-Modelle. Das heißt: Alles, was in diesem Format vorliegt, läuft auf beiden Systemen.

Welche Modelle sind 2025 praxistauglich?

Die Qualitätslücke zwischen Cloud und lokal hat sich in den letzten zwölf Monaten dramatisch verkleinert. Ende 2023 war lokale KI noch „Spielzeug”. Mitte 2025 sieht es so aus:

  • Llama 3.3 70B — Metas aktuelles Open-Weight-Flaggschiff. Qualitativ auf Augenhöhe mit GPT-4 von Anfang 2024. Braucht ordentlich Hardware (mindestens 48 GB VRAM oder ein gut ausgestatteter M-Mac).
  • Qwen 2.5 72B — das Modell von Alibaba, das in vielen Benchmarks überrascht. Besonders stark bei Code und mehrsprachigen Aufgaben (auch Deutsch).
  • Mistral Small 3.1 — europäisches Modell, 24 Milliarden Parameter, läuft auf einem gut ausgestatteten Business-Laptop. Ideal für den Einstieg.
  • Llama 3.1 8B — der Alltagsläufer. Für Zusammenfassungen, Umformulierungen und strukturierte Extraktion reichen 8B-Modelle überraschend weit. Laufen auf jedem modernen Notebook.

Für komplexe Reasoning-Aufgaben, tiefe Analysen oder Agenten-Workflows bleibt die Cloud vorerst überlegen. Für das, was die meisten KMU tatsächlich brauchen — Zusammenfassungen, E-Mail-Entwürfe, interne Suche, Klassifikation — reichen lokale Modelle 2025 aus.

Hardware — was Du wirklich brauchst

Die ehrliche Antwort hängt stark davon ab, welches Modell Du fahren willst. Drei realistische Klassen:

  1. Einstieg (8B-Modelle): Ein MacBook Pro mit M-Chip ab 16 GB Speicher oder ein Windows-Laptop mit RTX 4060 und 16 GB RAM. Anschaffungskosten: ab 1.800 Euro. Passt für Textaufgaben im Arbeitsalltag eines Mitarbeiters.
  2. Mittelklasse (24–32B): Mac Studio M4 Max mit 64 GB Unified Memory oder ein Desktop mit RTX 4090. Anschaffungskosten: 3.500 bis 5.500 Euro. Damit bedienst Du ein kleines Team über den lokalen API-Server.
  3. Oberklasse (70B+): Mac Studio M4 Ultra mit 128 GB oder Server mit zwei RTX A6000. Ab 8.000 Euro. Für mehrere Nutzer parallel und anspruchsvolle Aufgaben.

Wichtig: Der M-Mac ist 2025 für lokale LLMs ungewöhnlich stark, weil der Unified Memory dem Modell als VRAM dient. Ein M4 Max mit 64 GB lädt locker ein 70B-Modell in guter Quantisierung, was auf einer vergleichbar teuren Windows-Maschine nur mit einer RTX A6000 geht.

Die ehrlichen Performance-Tradeoffs

Lokal ist nicht „gratis”. Was Du gewinnst: volle Datenkontrolle, keine laufenden Token-Kosten, keine Abhängigkeit von externen Anbietern. Was Du bezahlst:

  • Geschwindigkeit. Ein 70B-Modell auf einem Mac Studio erzeugt 8 bis 15 Tokens pro Sekunde. GPT-4o in der Cloud liefert 60 bis 100. Für interaktive Chats merkst Du das deutlich.
  • Qualität bei komplexen Aufgaben. Bei einfachem Arbeitsalltag macht es kaum Unterschied. Bei verschachtelter Argumentation, langen Code-Refactorings oder Mehrschritt-Analysen gewinnt die Cloud noch.
  • Wartung. Die Cloud aktualisiert sich selbst. Lokal bist Du für Updates, Modell-Wechsel, Backup und Betrieb verantwortlich.
  • Anschaffungskosten. Einmal richtig investieren statt monatlich zahlen.

Use Cases, die sich lohnen

Aus unserer Praxis bei mittelständischen Kunden kristallisieren sich vier Szenarien heraus, in denen lokale LLMs die Cloud klar schlagen:

  1. Vertragsanalyse intern — Verträge, Angebote und NDAs zusammenfassen, Risiken markieren, Klauseln vergleichen. Das sind Daten, die Du nicht in die Cloud schicken willst. Ein Mistral Small 3.1 auf einem Mac mini M4 löst das zuverlässig.
  2. Dokumenten-RAG auf Firmenwissen — Deine Produktdatenblätter, Handbücher, Wiki-Einträge als durchsuchbare Wissensbasis. Lokal mit Ollama plus einem Vektor-Store wie Qdrant läuft das ohne externe API-Kosten. Mehr dazu in unserem Beitrag zu RAG-Systemen als Firmenwissen-Chatbot.
  3. E-Mail-Klassifikation und Erstantworten — eingehende Service-Mails kategorisieren, Prioritäten setzen, Entwurfsantworten bereitstellen. Sensibel, weil Kundendaten, und lokal in wenigen Tagen gebaut.
  4. Technische Textübersetzung und Umformulierung — Marketing-Texte, interne Dokus, SOPs. Llama 3.3 70B liefert solide deutsche Qualität.

Nicht lokal empfehlen wir 2025: anspruchsvolles Coding (da ist Claude oder GPT-4 noch führend), komplexe Multi-Step-Agenten, Bildanalyse auf hohem Niveau.

Der Datenschutz-Vorteil — mehr als nur ein Gefühl

Für Branchen mit echter Sensibilität — Kanzleien, Arztpraxen, Steuerberater, Personaldienstleister, Entwicklungsabteilungen — ist der lokale Betrieb nicht nur „ein bisschen sicherer”, sondern oft der einzige Weg, um DSGVO-konform zu bleiben. Keine Auftragsverarbeitung mit US-Anbietern, keine Drittlandsübermittlung, keine Unklarheiten beim EU-US Data Privacy Framework. Die Daten verlassen Dein Netzwerk nicht, Punkt.

Häufige Fragen

Ist Ollama kostenlos?

Ja. Ollama ist Open Source (MIT-Lizenz) und die Modelle, die es lädt, sind in der Regel unter Open-Weight-Lizenzen wie Llama Community License oder Apache 2.0 verfügbar. Die einzigen Kosten sind Hardware und Betriebsaufwand.

Was ist besser — Ollama oder LM Studio?

Ollama ist schlanker, per Kommandozeile und API gut für Entwickler und Server-Einsatz. LM Studio ist grafisch, einsteigerfreundlich und besser für Einzelarbeitsplätze. In der Praxis betreiben wir Ollama auf dem Server und geben Entwicklern LM Studio für ihre lokalen Experimente.

Reicht ein MacBook für lokale LLMs?

Für 8B-Modelle und einfache Aufgaben: ja, ab 16 GB Speicher. Für Produktivnutzung mit 24–32B-Modellen solltest Du mindestens einen Mac mit 48–64 GB Unified Memory haben. Für 70B-Modelle lohnt sich ein Mac Studio oder ein gut ausgestatteter Windows-Desktop mit zwei RTX-4090.

Wann lohnt sich der Umstieg von der Cloud auf lokal?

Wenn Du monatlich mehr als 200 Euro an API-Kosten zahlst, wenn Du hochsensible Daten verarbeitest oder wenn Du Unabhängigkeit von externen Anbietern brauchst. Unter 100 Euro monatlichem Verbrauch rechnet sich lokale Hardware meistens nicht.

Fazit

Lokale LLMs sind 2025 aus der Bastler-Ecke raus und in ersten echten Business-Einsätzen angekommen. Für alltägliche Textarbeit, interne Wissenssuche und datenschutzkritische Anwendungsfälle sind sie eine sinnvolle Alternative zur Cloud — mit ehrlichen Tradeoffs bei Geschwindigkeit und Wartungsaufwand. Wer jetzt einen lokalen Pilotbetrieb aufsetzt, sammelt die Erfahrung, die in zwei Jahren zum Standard wird. Wenn Du prüfen willst, ob sich ein lokaler Einsatz bei Dir lohnt, sprich uns an — das kostenlose Erstgespräch bekommst Du über unser Kontaktformular oder direkt in der KI-Beratung.

Beitrag teilen
Thorsten Heß — Gründer MOLOTOW Web Development

Über den Autor

Thorsten Heß

Gründer · MOLOTOW Web Development

Seit über 20 Jahren beschäftige ich mich mit dem Web — von der ersten handgeschriebenen HTML-Seite bis zu komplexen KI-gestützten Plattformen. Bei MOLOTOW Web Development in Lahr entwickeln wir für kleine wie für mittelständische Unternehmen Lösungen, die nicht nur gut aussehen, sondern auch nach Jahren noch wartbar sind. Seit 2024 ergänzen wir unser Portfolio um zertifizierte KI-Beratung nach dem EU AI Act. Wenn Du eine Idee, ein Problem oder nur eine kurze Frage hast — schreib uns.