Bei STRATO können Sie sicher sein, dass Ihre Daten nicht auf beliebigen Servern im Ausland liegen. STRATO verfügt über zwei Hochsicherheitsrechenzentren, die sich in Deutschland befinden. Somit sind Ihre Daten durch die deutsche Umsetzung der europäischen Datenschutzgesetze abgesichert (DSGVO), die zu den strengsten weltweit gehören.
STRATO nutzt für alle Produkte und Dienstleistungen, sowie für eigene Rechenzentren ausschließlich Ökostrom.
Wie unterscheidet sich der KI-Agent von einem Chatbot
Ein KI-Agent ist ein Softwaresystem, das ein Ziel selbstständig in Teilaufgaben zerlegt, Werkzeuge auswählt und Schritt für Schritt zur Lösung geht. Anders als ein klassischer Chatbot beantwortet er nicht nur Fragen. Er handelt. Konkret heißt das: Er ruft APIs auf, durchsucht Datenbanken, schreibt Dateien oder löst weitere Agenten aus.
Der Kern besteht aus einem Sprachmodell als Steuerzentrale, einem Speicher für Zwischenergebnisse und einer Sammlung von Tools, die der Agent bei Bedarf aufruft. Wer einen KI-Agenten erstellen möchte, baut also kein einzelnes Modell. Im Mittelpunkt steht das Zusammenspiel mehrerer Komponenten zu einem funktionierenden System.
Typische Einsatzfelder & wo sich der Aufwand lohnt
KI-Agenten zahlen sich überall dort aus, wo wiederkehrende Aufgaben mehrere Schritte und Datenquellen verbinden. In der Kundenbetreuung übernehmen sie etwa die Vorqualifizierung von Tickets, prüfen Bestellnummern in der Datenbank und erstellen Antwortentwürfe. Im Vertrieb recherchieren sie Leads in CRM-Systemen und reichern Datensätze automatisch an.
Auch in der Softwareentwicklung gewinnt das Konzept an Boden. Coding-Agenten lesen Repositories, schreiben Pull-Requests und führen Tests aus. Im E-Commerce wiederum aktualisieren sie Produkttexte, gleichen Lagerbestände ab und reagieren auf Preisänderungen der Konkurrenz. Wichtig ist dabei der klare Umriss: Ein guter Agent löst eine konkrete Aufgabe, keinen Wunschkatalog.
Für den produktiven Betrieb einer Node.js-Anwendung sollten Sie auf folgende Punkte achten:
Root- oder Administrator-Zugriff für die Installation von Node.js und npm
Ausreichend RAM, idealerweise ab 2 GB für kleinere Projekte
SSD- oder NVMe-Speicher für schnelle Lesezugriffe auf Module
Aktuelles Linux-System wie Ubuntu oder Debian
Unterstützung für einen Prozessmanager wie PM2
Node.js veröffentlicht regelmäßig neue Versionen. Für produktive Projekte wählen Sie eine LTS-Version (Long Term Support). Diese erhält über mehrere Jahre Sicherheitsupdates und bleibt stabil. Versionen mit ungerader Nummer sind Experimentier-Releases und eignen sich eher für Tests.
Voraussetzungen: Was Sie vorab klären sollten
Bevor Sie loslegen, brauchen Sie drei Dinge: ein klar definiertes Ziel, Zugang zu einem Sprachmodell und eine Laufzeitumgebung, in der Ihr Agent rund um die Uhr arbeiten kann.
Das Ziel entscheidet über alles Weitere: Frameworkwahl, Modellgröße, Tool-Set und Servergröße folgen daraus. Ein präzises Ziel beantwortet vier Fragen: Welche Aufgabe übernimmt der Agent konkret? Welche Eingaben bekommt er und welche Ausgaben liefert er? An welchem messbaren Wert erkennen Sie Erfolg? Wo liegt die Grenze seiner Zuständigkeit?
"Bestellbestätigungen anhand der Auftragsnummer aus dem Shopsystem erstellen und per E-Mail versenden" ist ein Ziel. "Irgendwas mit KI" ist keines. Halten Sie das Ziel in zwei bis drei Sätzen schriftlich fest, bevor Sie die erste Zeile Code schreiben. Das spart später Wochen.
Beim Modell haben Sie die Wahl zwischen API-basierten Anbietern wie OpenAI, Anthropic oder Mistral und selbst gehosteten Open-Source-Modellen wie Llama 3 oder Qwen. API-Modelle starten schneller und liefern oft bessere Qualität. Selbst gehostete Modelle bleiben zu hundert Prozent in Ihrer Hand.
Für den produktiven Betrieb eines KI-Agenten auf Node.js-Basis sollten Sie auf folgende Punkte achten:
Root- oder Administrator-Zugriff für die Installation von Node.js und npm
Ausreichend RAM: ab 8 GB für API-basierte Agenten mit Vektordatenbank, ab 16 GB für selbst gehostete kleine Modelle, ab 64 GB für 70B-Modelle (idealerweise mit GPU)
SSD- oder NVMe-Speicher für schnelle Lesezugriffe auf Module und Vektor-Indizes
Aktuelles Linux-System wie Ubuntu oder Debian
Unterstützung für einen Prozessmanager wie PM2
Node.js veröffentlicht regelmäßig neue Versionen. Für produktive Projekte wählen Sie eine LTS-Version (Long Term Support). Diese erhält über mehrere Jahre Sicherheitsupdates und bleibt stabil. Versionen mit ungerader Nummer sind Experimentier-Releases und eignen sich eher für Tests.
Für die Laufzeitumgebung empfiehlt sich ein eigener V-Server, weil Sie dort Root-Rechte haben und beliebige Frameworks installieren können.
Schritt für Schritt: KI-Agent erstellen ohne Umwege
Schreiben Sie in zwei bis drei Sätzen auf, was der Agent tun soll und woran Sie messen, ob er funktioniert. Beispiel: "Der Agent beantwortet eingehende Support-Mails in unter einer Minute, leitet komplexe Fälle an das Team weiter und erreicht eine Trefferquote von 80 Prozent."
Wählen Sie ein Modell, das zu Ihrer Aufgabe passt. Für klassische Textverarbeitung reichen oft kleinere Modelle. Für Werkzeugaufrufe und längere Argumentationsketten lohnt sich ein größeres Modell mit Function-Calling-Fähigkeit.
Listen Sie alle Aktionen auf, die der Agent ausführen soll: Datenbankabfrage, E-Mail senden, Datei anlegen. Jedes Tool bekommt eine Beschreibung, eine Eingabe und eine Ausgabe. Diese Beschreibungen liest das Modell und entscheidet, wann es welches Tool aufruft.
Auf Ihrem Server installieren Sie ein Agenten-Framework wie LangChain, LlamaIndex oder das schlanke smolagents von Hugging Face. Die Installation läuft über pip oder npm. Anschließend verbinden Sie das Framework mit dem gewählten Modell und Ihren Tools.
Der System-Prompt beschreibt Rolle, Aufgabe und Grenzen des Agenten. Der Speicher hält Kontext über mehrere Schritte hinweg. Für einfache Fälle reicht ein Konversationsspeicher. Für Wissensfragen brauchen Sie eine Vektordatenbank wie Chroma oder Qdrant.
Lassen Sie den Agenten zuerst in einer geschützten Umgebung gegen Beispieldaten laufen. Loggen Sie jeden Schritt mit. So erkennen Sie, an welcher Stelle der Agent falsch abbiegt, und justieren den Prompt oder die Tool-Beschreibung nach.
Die wichtigsten Frameworks im Überblick
Framework
Sprache
Stärken
Geeignet für
LangChain
Python, JS
Großes Ökosystem, viele Integrationen
Komplexe Workflows mit mehreren Quellen
LlamaIndex
Python
Starker Fokus auf Retrieval
Wissensagenten mit eigenen Dokumenten
smolagents
Python
Minimal, code-zentriert
Schlanke Agenten, schnelle Prototypen
n8n
Low-Code
Visueller Editor, viele Konnektoren
Teams ohne tiefe Programmierkenntnisse
CrewAI
Python
Multi-Agenten-Setups
Aufgaben mit mehreren spezialisierten Rollen
n8n verdient einen genaueren Blick, falls Sie wenig coden möchten. Das Tool läuft als Docker-Container auf einem Linux-Server und verbindet KI-Modelle per Drag-and-drop mit über 400 Diensten. So entsteht ein produktionsreifer Agent in Stunden statt Wochen.
Hosting-Frage: Wo Ihr KI-Agent laufen sollte
Die Wahl der Infrastruktur bestimmt, wie schnell, sicher und teuer Ihr Agent arbeitet. Drei Wege sind gängig.
Cloud-API plus eigener Server: Sie nutzen ein Modell über die API eines Anbieters und betreiben die Agenten-Logik selbst. Das ist der Standardweg für die meisten Projekte mit niedrigen Einstiegskosten, ohne eigene Modellpflege und mit schnellen Updates seitens der Anbieter. Ein virtueller Server reicht für die Logikschicht völlig aus.
Selbst gehostetes Modell auf eigener Hardware: Sinnvoll, wenn Daten Ihr Haus nicht verlassen dürfen. Für diesen Weg eignet sich ein Server mit ausreichend RAM und idealerweise GPU-Anbindung. Die Inferenz läuft über Tools wie Ollama oder vLLM.
Hybrid: Sensible Vorverarbeitung lokal, das Hauptmodell in der Cloud. Verbreitet im Gesundheits- und Finanzbereich.
API-Modell vs. Self-Hosted im direkten Vergleich
Die folgende Tabelle zeigt, wo die beiden Hauptwege auseinandergehen. Der Hybridweg liegt jeweils dazwischen und kombiniert die Stärken beider Seiten.
Kriterium
Cloud-API
Self-Hosted Modell
Latenz
200 bis 800 ms pro Anfrage, abhängig von Modell und Auslastung
50 bis 300 ms bei kleinen Modellen auf CPU, deutlich höher ohne GPU bei großen Modellen
Einstiegskosten
Cent-Beträge pro 1.000 Anfragen, kein Hardware-Invest
Server ab wenigen Euro pro Monat, GPU-Server ab etwa 50 Euro pro Monat
Skalierung
Anbieter skaliert automatisch, Limits über Rate-Limits
Eigene Verantwortung, Skalierung über stärkere Hardware oder Lastverteilung
Datenschutz
Daten verlassen das Haus, je nach Anbieter EU-Hosting möglich
Daten bleiben vollständig auf dem eigenen Server
Wartungsaufwand
Niedrig: Anbieter pflegt Modelle, neue Versionen automatisch verfügbar
Hoch: Updates, Sicherheits-Patches, Modellpflege und Monitoring selbst übernehmen
Verfügbarkeit
Abhängig vom Anbieter-SLA, typisch über 99,9 %
Abhängig von eigener Infrastruktur und Backup-Strategie
Vendor Lock-in
Bei Anbieterwechsel müssen Prompts angepasst werden
Modell und Daten bleiben unter eigener Kontrolle
Für die meisten Anwendungen empfehlen wir den ersten Weg. Ein STRATO V-Server liefert NVMe-SSDs, Root-Zugriff und unbegrenzten Traffic, was für die Steuerlogik eines Agenten ausreicht. Wenn das Projekt wächst, stufen Sie den V-Server-Tarif jederzeit hoch. Reicht die virtuelle Hardware nicht mehr aus, wechseln Sie auf einen Dedicated Server mit eigener Hardware.
Die laufenden Kosten verteilen sich auf drei Posten: Modell-Nutzung, Hosting und Wartung. Modell-Nutzung wird meist pro Million Tokens abgerechnet. Ein Agent, der täglich 1.000 Anfragen mit je 2.000 Tokens beantwortet, verbraucht etwa zwei Millionen Tokens. Bei aktuellen Preisen sind das wenige Euro pro Tag.
Hosting fällt bei einem virtuellen Server ab wenigen Euro im Monat ins Gewicht. Wartung ist der Posten, der häufig unterschätzt wird. Prompts benötigen Pflege, Tools verändern ihre Schnittstellen, neue Modellversionen erfordern Tests. Planen Sie pro produktivem Agenten zwischen zwei und fünf Stunden Wartung pro Monat ein.
Sicherheit und Datenschutz
Ein KI-Agent ruft im laufenden Betrieb selbstständig Schnittstellen auf, liest Daten und schreibt Ergebnisse zurück. Das macht ihn produktiv und gleichzeitig zu einem potenziellen Einfallstor. Drei Punkte sollten Sie früh klären:
Berechtigungen so eng wie möglich: Wenn der Agent nur lesen muss, geben Sie ihm keinen Schreibzugriff. Trennen Sie API-Keys nach Funktion und entziehen Sie Rechte, sobald sie nicht mehr gebraucht werden.
Eingaben prüfen: Sogenannte Prompt Injections schleusen Anweisungen in scheinbar harmlose Texte ein, etwa in eine eingehende Support-Mail. Filtern Sie verdächtige Muster, bevor sie das Modell erreichen, und schränken Sie ein, welche Tools auf nicht vertrauenswürdige Eingaben hin überhaupt aufgerufen werden dürfen.
Logging und Monitoring: Jeder Tool-Aufruf gehört dokumentiert. So fällt auf, wenn ein Agent ungewöhnliche Anfragen stellt, etwa nachts massenhaft Datenbankabfragen.
Beim Standort der Daten gilt: Wer einen Server bei STRATO mietet, verarbeitet seine Daten in zwei nach ISO 27001 zertifizierten Rechenzentren in Deutschland. Diese laufen seit 2008 ausschließlich mit Ökostrom. Die Daten unterliegen damit der DSGVO und dem deutschen Bundesdatenschutzgesetz, was insbesondere für Agenten mit Zugriff auf Kunden- oder Mitarbeiterdaten relevant ist.
Für Low-Code-Werkzeuge wie n8n reicht logisches Denken und etwas Geduld mit JSON. Wer mit LangChain oder LlamaIndex arbeitet, sollte Python lesen und schreiben können. Für Multi-Agenten-Setups oder eigene Tools sind solide Programmierkenntnisse Pflicht.
Das hängt von der Modellgröße ab. Ein 7B-Modell läuft quantisiert ab etwa 8 GB RAM. Ein 13B-Modell fühlt sich erst ab 16 GB wohl. Für 70B-Modelle sollten es mindestens 64 GB sein, idealerweise mit GPU-Unterstützung. Ohne GPU sind Antwortzeiten von mehreren Sekunden bis Minuten normal.
Ja, sofern die Architektur stimmt. Bei API-basierten Modellen begrenzt der Anbieter die parallelen Anfragen. Auf eigenem Server begrenzen CPU, RAM und ggf. GPU die Parallelität. Eine Warteschlange wie Redis oder RabbitMQ verhindert, dass Anfragen verloren gehen.
Geben Sie ihm Werkzeuge, mit denen er Fakten prüfen kann, statt sie zu erraten. Setzen Sie auf Retrieval Augmented Generation für Wissensfragen. Formulieren Sie im System-Prompt klar, dass der Agent "Ich weiß es nicht" sagen darf. Und testen Sie regelmäßig mit Fragen, deren Antwort er nicht kennen kann.
Fertige Lösungen passen, solange Sie keine eigenen Daten oder Tools einbinden müssen. Sobald interne Systeme ins Spiel kommen, lohnt der eigene Agent. Sie behalten Kontrolle über Logik, Datenfluss und Kosten und können den Agenten über Jahre weiterentwickeln, ohne von einer Plattform abhängig zu sein.