Wofür sich ein Ollama Server lohnt
Ein eigener Ollama-Server eignet sich überall dort, wo Daten das Unternehmen nicht verlassen sollen. Kanzleien, Arztpraxen, Steuerberatungen oder Behörden arbeiten mit sensiblen Informationen. Hier ersetzt ein lokales Modell den Umweg über externe Cloud-APIs.
Auch für Entwicklungsteams ist die Lösung praktisch. Bei einem internen Coding-Assistenten, RAG-System mit Firmenwissen oder Chatbot auf der eigenen Website fallen keine variablen Token-Kosten an. Eine monatliche Servermiete ersetzt unkalkulierbare API-Rechnungen.
Typische Einsatzszenarien:
- Interner Wissens-Chatbot für Mitarbeitende
- Coding-Assistent für Entwicklerteams
- Automatisierte Dokumentenanalyse
- Backend für KI-Workflows in n8n self-hosted
- Datenschutzkonforme Textverarbeitung in der EU
Hardware-Anforderungen für Ollama
Die nötige Hardware hängt vom gewählten Modell ab. Kleine Modelle mit drei bis sieben Milliarden Parametern laufen bereits auf einem Server mit 16 GB RAM. Größere Modelle benötigen entsprechend mehr Arbeitsspeicher und CPU-Leistung.
| Modellgröße |
RAM (CPU-Betrieb) |
Beispielmodelle |
|
3B
|
8 GB
|
Phi-4 Mini, Llama 3.2 3B
|
|
7B–8B
|
16 GB
|
Llama 3.1 8B, Mistral 7B
|
|
13B–14B
|
32 GB
|
Phi-4, Qwen 2.5 14B
|
|
70B
|
64 GB+
|
Llama 3.3 70B
|
Für die Inferenz auf CPU zählen drei Faktoren: ausreichend RAM für das Modell, ein schneller Multi-Core-Prozessor und eine NVMe-SSD für zügiges Laden der Modelldateien. Mit dieser Kombination liegt die Antwortgeschwindigkeit bei wenigen Tokens pro Sekunde, was für interne Chatbots, Dokumentenanalyse und Batch-Verarbeitung gut nutzbar ist. Wer höheren Durchsatz braucht, kombiniert Ollama mit externer GPU-Hardware (bei STRATO nicht im Angebot).
Ollama installieren: Schritt für Schritt
Die Installation auf einem Linux-Server gelingt mit einem einzigen Befehl. Voraussetzung ist Root-Zugriff oder ein Nutzer mit sudo-Rechten. Ollama unterstützt offiziell Ubuntu, Debian und Fedora.
- Mit SSH auf den Server verbinden.
- Installationsskript ausführen:
curl -fsSL https://ollama.com/install.sh | sh
- Dienst prüfen:
systemctl status ollama
- Erstes Modell laden:
ollama pull llama3.2
- Modell starten:
ollama run llama3.2
Nach der Installation läuft Ollama als Systemdienst auf Port 11434. Die REST-API steht unter
bereit. Standardmäßig akzeptiert sie nur lokale Verbindungen, was aus Sicherheitssicht sinnvoll ist.
Auf einem
mit Ubuntu LTS läuft die Installation ohne Anpassungen durch. Die Installation funktioniert ebenso auf Debian und Fedora; das Skript erkennt die Distribution automatisch und passt die Paketquellen entsprechend an.
Ollama Hosting bei STRATO
Für einen produktiven Ollama Server brauchen Sie zwei Dinge: ausreichend Ressourcen und vollen Zugriff auf das Betriebssystem. Beides bieten die STRATO Server mit Root-Zugriff. Sie installieren Ollama direkt auf dem System und konfigurieren es nach Bedarf.
Die STRATO Server laufen in Rechenzentren in Deutschland und unterliegen damit der DSGVO. Das ist relevant, wenn Sie personenbezogene Daten verarbeiten. STRATO ist nach ISO 27001 zertifiziert und betreibt die Rechenzentren seit 2008 mit Ökostrom.
Für Ollama empfehlen sich diese Optionen:
- Linux V-Server: Einstieg mit kleineren Modellen bis 7B, virtualisierte Ressourcen, monatlich kündbar.
- OpenClaw VPS Hosting: Speziell für KI-Workloads konzipiert, passende Ressourcen für lokale LLM-Inferenz.
- Linux Dedicated Server: Eigene Hardware mit 32 GB bis 128 GB RAM, geeignet für 13B-Modelle und produktive Workloads ohne Ressourcenteilung.
Modelle laden und verwalten
Ollama bezieht Modelle aus einer eigenen Modell-Bibliothek. Der Pull-Befehl lädt das gewünschte Modell herunter und speichert es lokal. Verfügbar sind unter anderem Llama 3.3, Mistral, Gemma 2, Qwen 2.5 und Phi-3.
Beispiele für gängige Modelle:
ollama pull llama3.2:3b – Kleines Modell für schnelle Antworten
ollama pull mistral:7b – Ausgewogenes Allround-Modell
ollama pull qwen2.5-coder:7b – Spezialisiert auf Code-Generierung
ollama pull nomic-embed-text – Embedding-Modell für RAG-Systeme
Mit
sehen Sie alle installierten Modelle.
entfernt ein Modell wieder. Die Modelldateien liegen unter
und belegen je nach Größe zwischen zwei und 40 GB.
Ollama über die API ansprechen
Die REST-API ist das Herzstück von Ollama. Sie können Anfragen direkt per curl senden oder die offiziellen Bibliotheken für Python, JavaScript und Go nutzen. Die API ist weitgehend kompatibel mit dem OpenAI-Format, was den Umstieg erleichtert.
Ein einfacher Aufruf per curl:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Erkläre Quantenphysik in drei Sätzen.",
"stream": false
}'
Über die API binden Sie Ollama in eigene Anwendungen ein. Beliebte Kombinationen sind LangChain für RAG-Pipelines, Open WebUI als ChatGPT-ähnliche Oberfläche oder n8n für Workflow-Automatisierung. Für KI-gestützte Programmierung lässt sich Ollama auch mit Continue.dev oder als Backend für lokale Coding-Assistenten verbinden.
Sicherheit und Netzwerk-Konfiguration
Standardmäßig hört Ollama nur auf 127.0.0.1. Für externe Zugriffe müssen Sie die Bindung anpassen. Setzen Sie dafür die Umgebungsvariable
in der systemd-Konfiguration. Achtung: Die API hat keine eingebaute Authentifizierung.
Schützen Sie den Endpunkt deshalb immer. Drei bewährte Wege:
- Zugriff per VPN auf das interne Netz beschränken
- Reverse Proxy mit Nginx oder Caddy davorschalten, der HTTPS und Basic-Auth übernimmt
- Firewall-Regeln (ufw, iptables) so setzen, dass Port 11434 nur bestimmte IPs erreichen
Aktualisieren Sie Ollama regelmäßig per curl -fsSL https://ollama.com/install.sh | sh. Das Skript erkennt eine bestehende Installation und aktualisiert sie. Modelle ziehen Sie nach Bedarf mit ollama pull <name> auf den neuesten Stand.
Direkt zu den Angeboten
Passende Server-Angebote von STRATO