Ollama Server:

Name: Ollama Server
Brand: STRATO
Price: 5.00 EUR
Availability: InStock
Rating: 5.0 (6625 reviews)

Lokale KI-Modelle auf eigenem Server betreiben

Open-Source-LLMs wie Llama, Mistral & Gemma selbst hosten
Volle Datenkontrolle, keine Cloud-Abhängigkeit und Token-Kosten
STRATO Server mit Root-Zugriff für Ollama in Deutschland

Direkt zu den Angeboten

Was ist Ollama?

Ollama ist eine Open-Source-Software, mit der Sie große Sprachmodelle (Large Language Models, LLMs) direkt auf Ihrem eigenen Server betreiben. Statt eine Anfrage an OpenAI oder Anthropic zu schicken, läuft das KI-Modell auf Ihrer Hardware. Sie behalten die volle Kontrolle über Daten, Modelle und Kosten.

Die Software verpackt Modelle wie Llama 3, Mistral, Gemma oder Phi in ein einheitliches Format und stellt eine einfache REST-API bereit. Ein Befehl genügt, um ein Modell herunterzuladen und zu starten. Damit ist Ollama eine der zugänglichsten Lösungen für lokales KI-Hosting.

Im Hintergrund nutzt Ollama llama.cpp, eine in C++ geschriebene Inferenz-Engine. Diese nutzt CPU, GPU oder beides gemeinsam. Je nachdem, welche der Komponenten leistungsfähiger ist. Wer einen leistungsstarken Server mit ausreichend RAM hat, kann auch ohne dedizierte GPU produktive Modelle betreiben.

Wofür sich ein Ollama Server lohnt

Ein eigener Ollama Server eignet sich überall dort, wo Daten das Unternehmen nicht verlassen sollen. Kanzleien, Arztpraxen, Steuerberatungen oder Behörden arbeiten mit sensiblen Informationen. Hier ersetzt ein lokales Modell den Umweg über externe Cloud-APIs.
Auch für Entwicklungsteams ist die Lösung praktisch. Bei einem internen Coding-Assistenten, RAG-System mit Firmenwissen oder Chatbot auf der eigenen Website fallen keine variablen Token-Kosten an. Eine monatliche Servermiete ersetzt unkalkulierbare API-Rechnungen. Typische Einsatzszenarien:

Interner Wissens-Chatbot für Mitarbeitende
Coding-Assistent für Teams
Automatisierte Dokumentenanalyse
Backend für KI-Workflows in n8n self-hosted
Datenschutzkonforme Textverarbeitung in der EU

Hardware-Anforderungen für Ollama

Die nötige Hardware hängt vom gewählten Modell ab. Kleine Modelle mit drei bis sieben Milliarden Parametern laufen bereits auf einem Server mit 16 GB RAM. Größere Modelle benötigen entsprechend mehr Arbeitsspeicher und CPU-Leistung.

Modellgröße	RAM (CPU-Betrieb)	Beispielmodelle
3B	8 GB	Phi-4 Mini, Llama 3.2 3B
7B–8B	16 GB	Llama 3.1 8B, Mistral 7B
13B–14B	32 GB	Phi-4, Qwen 2.5 14B
70B	64 GB+	Llama 3.3 70B

Für die Inferenz auf CPU zählen drei Faktoren: ausreichend RAM für das Modell, ein schneller Multi-Core-Prozessor und eine NVMe-SSD für zügiges Laden der Modelldateien. Mit dieser Kombination liegt die Antwortgeschwindigkeit bei wenigen Tokens pro Sekunde, was für interne Chatbots, Dokumentenanalyse und Batch-Verarbeitung gut nutzbar ist. Wer höheren Durchsatz braucht, kombiniert Ollama mit externer GPU-Hardware (bei STRATO nicht im Angebot).

Ollama installieren: Schritt für Schritt

Die Installation auf einem Linux-Server gelingt mit einem einzigen Befehl. Voraussetzung ist Root-Zugriff oder ein Admin mit sudo-Rechten. Ollama unterstützt offiziell Ubuntu, Debian und Fedora.

Zugriff auf den Server per SSH herstellen.
Installationsskript ausführen: curl -fsSL https://ollama.com/install.sh | sh
Dienst prüfen: systemctl status ollama
Erstes Modell laden: ollama pull llama3.2
Modell starten: ollama run llama3.2

Nach der Installation läuft Ollama als Systemdienst auf Port 11434. Die REST-API steht unter http://localhost:11434 bereit. Standardmäßig akzeptiert sie nur lokale Verbindungen, was aus Sicherheitssicht sinnvoll ist.
Auf einem Linux Dedicated Server mit Ubuntu LTS läuft die Installation ohne Anpassungen durch. Die Installation funktioniert ebenso auf Debian und Fedora; das Skript erkennt die Distribution automatisch und passt die Paketquellen entsprechend an.

Ollama Hosting bei STRATO

Für einen produktiven Ollama Server brauchen Sie zwei Dinge: ausreichend Ressourcen und vollen Zugriff auf das Betriebssystem. Beides bieten die STRATO Server mit Root-Zugriff. Sie installieren Ollama direkt auf dem System und konfigurieren es nach Bedarf.
Die STRATO Server laufen in Rechenzentren in Deutschland und unterliegen damit der DSGVO. Das ist relevant, wenn Sie personenbezogene Daten verarbeiten. STRATO ist nach ISO 27001 zertifiziert und betreibt die Rechenzentren seit 2008 mit Ökostrom.
Für Ollama empfehlen sich diese Optionen:

Linux V-Server: Einstieg mit kleineren Modellen bis 7B, virtualisierte Ressourcen, monatlich kündbar.
OpenClaw VPS Hosting: Speziell für KI-Workloads konzipiert, passende Ressourcen für lokale LLM-Inferenz.
Linux Dedicated Server: Eigene Hardware mit 32 GB bis 128 GB RAM, geeignet für 13B-Modelle und produktive Workloads ohne Ressourcenteilung.

Modelle laden und verwalten

Ollama bezieht Modelle aus einer eigenen Modell-Bibliothek. Der Pull-Befehl lädt das gewünschte Modell herunter und speichert es lokal. Verfügbar sind unter anderem Llama 3.3, Mistral, Gemma 2, Qwen 2.5 und Phi-3.
Beispiele für gängige Modelle:

ollama pull llama3.2:3b – Kleines Modell für schnelle Antworten
ollama pull mistral:7b – Ausgewogenes Allround-Modell
ollama pull qwen2.5-coder:7b – Spezialisiert auf Code-Generierung
ollama pull nomic-embed-text – Embedding-Modell für RAG-Systeme

Mit ollama list sehen Sie alle installierten Modelle. ollama rm <name> entfernt ein Modell wieder. Die Modelldateien liegen unter /usr/share/ollama/.ollama/models und belegen je nach Größe zwischen zwei und 40 GB.

Ollama über die API ansprechen

Die REST-API ist das Herzstück von Ollama. Sie können Anfragen direkt per curl senden oder die offiziellen Bibliotheken für Python, JavaScript und Go nutzen. Die API ist weitgehend kompatibel mit dem OpenAI-Format, was den Umstieg erleichtert.
Ein einfacher Aufruf per curl:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Erkläre Quantenphysik in drei Sätzen.",
  "stream": false
}'

Über die API binden Sie Ollama in eigene Anwendungen ein. Beliebte Kombinationen sind LangChain für RAG-Pipelines, Open WebUI als ChatGPT-ähnliche Oberfläche oder n8n für Workflow-Automatisierung. Für KI-gestützte Programmierung lässt sich Ollama auch mit Continue.dev oder als Backend für lokale Coding-Assistenten verbinden.

Sicherheit und Netzwerk-Konfiguration

Standardmäßig hört Ollama nur auf 127.0.0.1. Für externe Zugriffe müssen Sie die Bindung anpassen. Setzen Sie dafür die Umgebungsvariable in der systemd-Konfiguration. Achtung: Die API hat keine eingebaute Authentifizierung. Schützen Sie den Endpunkt deshalb immer. Drei bewährte Wege:

Zugriff per VPN auf das interne Netz beschränken
Reverse Proxy mit Nginx oder Caddy davorschalten, der HTTPS und Basic-Auth übernimmt
Firewall-Regeln (ufw, iptables) so setzen, dass Port 11434 nur bestimmte IPs erreichen

Aktualisieren Sie Ollama regelmäßig per curl -fsSL https://ollama.com/install.sh | sh. Das Skript erkennt eine bestehende Installation und aktualisiert sie. Modelle ziehen Sie nach Bedarf mit ollama pull <name> auf den neuesten Stand.

Direkt zu den Angeboten

Fragen & Antworten

Brauche ich zwingend eine GPU für Ollama?

Nein. Ollama läuft auch im reinen CPU-Betrieb, das ist für kleine Modelle bis sieben Milliarden Parameter gut nutzbar. Antworten dauern dann länger, etwa zwei bis zehn Tokens pro Sekunde. Für interne Chatbots, Dokumentenverarbeitung oder Batch-Aufgaben reicht das aus. Wer hohen parallelen Durchsatz braucht, kombiniert Ollama mit externer GPU-Hardware bei einem entsprechend ausgestatteten Anbieter.

Kann ich mit Ollama eigene Modelle erstellen?

Ja. Über eine Modelfile-Datei passen Sie bestehende Modelle an: System-Prompts vorgeben, Temperatur einstellen, Stop-Tokens definieren. Komplette Modelle trainieren ist über Ollama nicht möglich. Sie können aber feingetunte Modelle im GGUF-Format importieren, etwa selbst trainierte LoRAs.

Wie unterscheidet sich Ollama von LM Studio oder vLLM?

LM Studio ist eine Desktop-Anwendung mit grafischer Oberfläche, gut für einzelne Personen auf dem eigenen Rechner. vLLM ist auf hohen Durchsatz und Production-Workloads ausgelegt, dafür komplexer in der Einrichtung. Ollama liegt dazwischen: einfache Installation, REST-API, gut geeignet für Server-Deployments kleiner und mittlerer Teams.

Läuft Node.js auch auf Windows Servern?

Ja. Node.js ist plattformübergreifend verfügbar. Die meisten Projekte laufen aus Performance- und Kompatibilitätsgründen auf Linux, insbesondere Ubuntu oder Debian. Wenn Sie jedoch Windows-spezifische Software integrieren müssen, ist ein Windows V-Server eine gute Wahl.

Passende Linux Server-Angebote von STRATO

Server	vCores	Speicher	RAM	Preis
Unser Bestseller
VPS L Unser Bestseller	6 vCores	240 GB NV Me Storage	8 GB RAM	16 €/Mon. Einrichtung: 9 €
VPS XL	8 vCores	480 GB NV Me Storage	16 GB RAM	34 €/Mon. Einrichtung: 9 €
VPS XXL	12 vCores	720 GB NV Me Storage	24 GB RAM	52 €/Mon. Einrichtung: 9 €

Server	vCores	Speicher	RAM	Preis
Ersparnis: 33 € im 1. Jahr
VPS L Ersparnis: 33 € im 1. Jahr	6 vCores	240 GB NV Me Storage	8 GB RAM	5 €/Mon. Aktion für 3 Monate danach 16 €/Mon.
VPS XL	8 vCores	480 GB NV Me Storage	16 GB RAM	8 €/Mon. Aktion für 3 Monate danach 34 €/Mon.
VPS XXL	12 vCores	720 GB NV Me Storage	24 GB RAM	13 €/Mon. Aktion für 3 Monate danach 52 €/Mon.

Preise inkl. MwSt.

Features

Anzahl IPv4 Adressen

IPv6-Ready

Inklusiv-Traffic

unlimited

Anbindung

bis zu 1.000 MBit/s

Virtualisierung

KVM

NEU Automatisierung

n8n

SSL Zertifikate

1 inklusive, weitere optional

Plesk Lizenzkey

optional

Betriebssystem

Ubuntu 26.04 LTS, Ubuntu 24.04 LTS

Debian 13, Debian 12

Rocky Linux 9, Rocky Linux 8

AlmaLinux 9, AlmaLinux 8

Kostenfreier Wechsel

Domains

Domains (.de, .com, .net, .org, .info, .ch, .at, u.v.m.)

optional nachbestellbar

A-Record setzen

MX-Record setzen

Erweiterungen

Firewall

Rettungssystem (mit Passwort-Reset)

VNC Konsole

Docker ready

Monitoring Services

Basic inklusive, weitere optional

Backups

nicht inbegriffen

Coding & Datenbank

PHP, Perl, Python

MySQL-Datenbanken

Cron-Jobs