LLM-Hosting bedeutet, ein großes Sprachmodell auf einem eigenen Server zu betreiben. Statt eine API von OpenAI oder Anthropic anzusprechen, läuft das Modell auf Ihrer eigenen Infrastruktur. Die Eingaben verlassen Ihre Umgebung nicht.
LLM steht für Large Language Model. Diese Modelle sind das technische Fundament hinter Chatbots, KI-Assistenten und automatisierten Textwerkzeugen. Bekannte offene Vertreter sind Llama von Meta, Mistral, Qwen oder Gemma. Sie lassen sich kostenlos herunterladen und lokal ausführen.
Self-Hosting unterscheidet sich klar von der Cloud-Variante. Bei einer API zahlen Sie pro Anfrage und geben Daten an Dritte. Mit einem eigenen Server zahlen Sie für die Hardware und behalten die Kontrolle.
Vorteile, wenn das Sprachmodell auf Ihrem Server läuft
Der wichtigste Punkt ist die Datenhoheit. Kundendaten, interne Dokumente oder Patientenakten bleiben im eigenen Haus. Kein Prompt geht an einen US-Anbieter, kein Trainingsmaterial wird ohne Ihr Wissen weiterverarbeitet.
Hinzu kommen planbare Kosten. Wer viele Anfragen pro Tag verarbeitet, zahlt bei API-Anbietern schnell vierstellige Beträge im Monat. Ein gemieteter Server hat einen festen Preis, unabhängig vom Anfragevolumen.
Eigene Modelle lassen sich feinjustieren. Mit Techniken wie Fine-Tuning oder LoRA passen Sie ein Open-Source-Modell an Ihre Fachsprache an. Eine Anwaltskanzlei kann so juristische Formulierungen trainieren, eine Praxis medizinische Begriffe.
API-Anbieter ändern Preise, Modellversionen oder Nutzungsbedingungen. Mit einem selbst betriebenen Modell entscheiden Sie, wann ein Update kommt und welche Version produktiv läuft.
Hardware-Anforderungen für verschiedene Modellgrößen
Die Wahl der Hardware hängt vom Modell ab. Sprachmodelle werden in Parametern gemessen, üblich sind Größen zwischen 1 und 13 Milliarden Parametern für CPU-basiertes Hosting. Je größer das Modell, desto mehr Arbeitsspeicher braucht der Server.
Modellgröße
Beispiele
Empfohlene Hardware
Einsatzgebiet
1–3 Mrd. Parameter
Llama 3.2, Phi-4 Mini
4 Kerne, 8–16 GB RAM
Klassifikation, einfache Chats
7–8 Mrd. Parameter
Mistral 7B, Llama 3.1 8B
8 Kerne, 32 GB RAM
Allgemeine Assistenten, Textanalyse
12–14 Mrd. Parameter
Mistral Nemo, Phi-4
16 Kerne, 64 GB RAM
Anspruchsvollere Aufgaben, längere Antworten
Quantisierung hilft, größere Modelle auf weniger Hardware lauffähig zu machen. Dabei werden die internen Zahlen des Modells reduziert, zum Beispiel von 16 auf 4 Bit. Die Antworten werden minimal ungenauer, der Speicherbedarf sinkt deutlich. Ein 8-Milliarden-Modell schrumpft so von rund 16 GB auf etwa 5 GB.
Den passenden Server bei STRATO finden
STRATO bietet mehrere Server-Varianten, die für LLM Hosting in Frage kommen. Welcher passt, hängt von Modellgröße und Anfragevolumen ab.
Für kleinere Modelle und einzelne Anwender reicht oft ein V-Server. Hier bekommen Sie virtualisierte Ressourcen zu einem moderaten Preis. Speziell auf KI-Anwendungen zugeschnitten ist das OpenClaw VPS Hosting – eine vorkonfigurierte Umgebung für den persönlichen KI-Agenten auf dem eigenen VPS.
Wann sich welcher Server lohnt
Ein VPS reicht für quantisierte Modelle bis etwa 7 Milliarden Parameter. Tests, interne Tools oder Prototypen laufen darauf zuverlässig. Wenn das Modell als zentraler Baustein einer Anwendung dient und viele Anfragen gleichzeitig beantworten soll, greifen Sie zum Linux Dedicated Server. Dort haben Sie volle Hardware-Kontrolle ohne geteilte Ressourcen.
Für rechenintensive Modelle ab 12 Milliarden Parametern ist der Performance-Server die richtige Wahl. Mit 8 oder mehr Kernen und ausreichend RAM lassen sich auch größere Modelle quantisiert betreiben.
Software-Stack für das Betreiben eines LLM
Die populärsten Werkzeuge sind Ollama, llama.cpp und vLLM. Sie übernehmen das Laden des Modells, die Speicherverwaltung und die API-Bereitstellung.
Ollama eignet sich gut für den Einstieg. Ein Befehl genügt, das Modell wird heruntergeladen und gestartet. Über eine HTTP-Schnittstelle binden Sie es in eigene Anwendungen ein. llama.cpp ist die schlankste Variante, läuft sehr effizient auf CPUs und nutzt moderne Befehlssatzerweiterungen wie AVX2 oder AVX-512.
Als Betriebssystem empfehlen sich Linux-Distributionen wie Ubuntu oder Debian. Beide sind über die Linux-Server von STRATO direkt verfügbar.
Einrichtung Schritt für Schritt
So bringen Sie ein Sprachmodell auf Ihren Server:
Server bei STRATO bestellen und Linux-Distribution auswählen.
Per SSH einloggen und das System aktualisieren.
Ollama oder llama.cpp installieren.
Modell herunterladen, zum Beispiel mit dem Befehl ollama pull llama3.1:8b-instruct-q4_K_M für eine quantisierte Variante.
Modell starten und die lokale API testen.
Reverse Proxy einrichten, falls externe Zugriffe nötig sind.
Firewall konfigurieren und Zugriff absichern.
Ein einfacher Test über die Kommandozeile zeigt sofort, ob das Modell antwortet. Danach binden Sie es in Ihre Anwendung ein, zum Beispiel über einen n8n-Workflow oder eine eigene Web-Oberfläche.
Datenschutz und DSGVO bei selbst betriebenen Modellen
Wer ein LLM selbst betreibt, hat einen klaren Vorteil gegenüber Cloud-APIs aus den USA: Daten verlassen den europäischen Rechtsraum nicht. Das vereinfacht die DSGVO-Konformität deutlich. Wichtig bleibt: Auch ein selbst gehostetes Modell muss technisch und organisatorisch abgesichert sein. Dazu gehören Zugriffsbeschränkungen, Verschlüsselung der Verbindungen und ein durchdachtes Berechtigungskonzept. STRATO Server stehen in deutschen Rechenzentren und sind nach ISO 27001 zertifiziert.
Wenn Sie das Modell für Anfragen von Außenstehenden öffnen, gehört eine Datenschutzerklärung dazu, die den Einsatz transparent macht. Verarbeitungsverzeichnis und Auftragsverarbeitung sollten geprüft werden.
Kosten im Blick behalten
Die Kostenrechnung bei LLM Hosting unterscheidet sich klar vom API-Modell. Drei Faktoren sind ausschlaggebend:
Server-Miete pro Monat (fester Betrag)
Stromverbrauch (bei STRATO im Preis enthalten)
Aufwand für Einrichtung und Wartung
Ein konkretes Beispiel: Eine Agentur verarbeitet täglich 1.000 längere Anfragen mit einem quantisierten Mistral-7B-Modell. Über eine API kann das schnell mehrere hundert Euro im Monat kosten. Ein passender Server bei STRATO liegt deutlich niedriger, ab dem zweiten oder dritten Monat rechnet sich der Wechsel.
Wer noch nicht weiß, wie hoch das Anfragevolumen wird, startet mit einem VPS und wechselt später auf eine größere Variante. Ein Blick in den V-Server-Vergleich hilft bei der Auswahl.
Mit einer aktuellen CPU und AVX-Unterstützung erreicht ein quantisiertes 7-Milliarden-Modell etwa 8 bis 15 Tokens pro Sekunde. Das entspricht ungefähr der Lesegeschwindigkeit eines Menschen und reicht für interne Tools, Dokumentenanalyse oder asynchrone Aufgaben. Bei kleineren Modellen unter 3 Milliarden Parametern sind 20 Tokens pro Sekunde und mehr realistisch.
Llama 3.1 8B von Meta ist ein verbreiteter Allrounder. Mistral 7B liefert gute Ergebnisse bei moderatem Hardware-Bedarf. Für deutschsprachige Anwendungen lohnt sich ein Blick auf Modelle wie LeoLM oder die deutschen Varianten von Mistral. Phi-4 von Microsoft ist mit 14 Milliarden Parametern kompakt und für viele Aufgaben überraschend leistungsstark.
Ja, wenn der Arbeitsspeicher reicht. Werkzeuge wie Ollama laden Modelle bei Bedarf nach. Bei häufigen Wechseln sinkt die Geschwindigkeit. Wer mehrere Modelle dauerhaft braucht, sollte den Server entsprechend größer dimensionieren oder einen Performance Server wählen.
Skalieren Sie den Server hoch oder verteilen Sie die Last auf mehrere Instanzen? Ein gemieteter Server lässt sich bei STRATO auf ein größeres Paket umstellen. Bei sehr hoher Last empfiehlt sich eine Lastverteilung über mehrere Server mit einem vorgeschalteten Proxy.
Passende Server-Angebote von STRATO
V-Server
Vielseitig einsetzbar mit vollständigen Root-Rechten