Wie unterscheidet sich der KI-Agent von einem Chatbot
Ein KI-Agent ist ein Softwaresystem, das ein Ziel selbstständig in Teilaufgaben zerlegt, Werkzeuge auswählt und Schritt für Schritt zur Lösung geht. Anders als ein klassischer Chatbot beantwortet er nicht nur Fragen. Er handelt. Konkret heißt das: Er ruft APIs auf, durchsucht Datenbanken, schreibt Dateien oder löst weitere Agenten aus.
Der Kern besteht aus einem Sprachmodell als Steuerzentrale, einem Speicher für Zwischenergebnisse und einer Sammlung von Tools, die der Agent bei Bedarf aufruft. Wer einen KI-Agenten erstellen möchte, baut also kein einzelnes Modell. Vielmehr orchestriert er das Zusammenspiel mehrerer Komponenten zu einem funktionierenden System.
Typische Einsatzfelder & wo sich der Aufwand lohnt
KI-Agenten zahlen sich überall dort aus, wo wiederkehrende Aufgaben mehrere Schritte und Datenquellen verbinden. Im Kundenservice übernehmen sie etwa die Vorqualifizierung von Tickets, prüfen Bestellnummern in der Datenbank und erstellen Antwortentwürfe. Im Vertrieb recherchieren sie Leads in CRM-Systemen und reichern Datensätze automatisch an.
Auch in der Softwareentwicklung gewinnt das Konzept an Boden. Coding-Agenten lesen Repositories, schreiben Pull-Requests und führen Tests aus. Im E-Commerce wiederum aktualisieren sie Produkttexte, gleichen Lagerbestände ab und reagieren auf Preisänderungen der Konkurrenz. Wichtig ist dabei der klare Umriss: Ein guter Agent löst eine konkrete Aufgabe, keinen Wunschkatalog.
Für den produktiven Betrieb einer Node.js-Anwendung sollten Sie auf folgende Punkte achten:
Root- oder Administrator-Zugriff für die Installation von Node.js und npm
Ausreichend RAM, idealerweise ab 2 GB für kleinere Projekte
SSD- oder NVMe-Speicher für schnelle Lesezugriffe auf Module
Aktuelles Linux-System wie Ubuntu oder Debian
Unterstützung für einen Prozessmanager wie PM2
Node.js veröffentlicht regelmäßig neue Versionen. Für produktive Projekte wählen Sie eine LTS-Version (Long Term Support). Diese erhält über mehrere Jahre Sicherheitsupdates und bleibt stabil. Versionen mit ungerader Nummer sind Experimentier-Releases und eignen sich eher für Tests.
Voraussetzungen: Was Sie vorab klären sollten
Bevor Sie loslegen, brauchen Sie drei Dinge: ein klar definiertes Ziel, Zugang zu einem Sprachmodell und eine Laufzeitumgebung, in der Ihr Agent rund um die Uhr arbeiten kann. Das Ziel entscheidet über alles Weitere. "Bestellbestätigungen erstellen" ist ein Ziel. "Irgendwas mit KI" ist keines.
Beim Modell haben Sie die Wahl zwischen API-basierten Anbietern wie OpenAI, Anthropic oder Mistral und selbst gehosteten Open-Source-Modellen wie Llama 3 oder Qwen. API-Modelle starten schneller und liefern oft bessere Qualität. Selbst gehostete Modelle bleiben zu hundert Prozent in Ihrer Hand. Für die Laufzeitumgebung empfiehlt sich ein eigener V-Server, weil Sie dort Root-Rechte haben und beliebige Frameworks installieren können.
Schritt für Schritt: KI-Agent erstellen ohne Umwege
Schreiben Sie in zwei bis drei Sätzen auf, was der Agent tun soll und woran Sie messen, ob er funktioniert. Beispiel: "Der Agent beantwortet eingehende Support-Mails in unter einer Minute, leitet komplexe Fälle an das Team weiter und erreicht eine Trefferquote von 80 Prozent."
Wählen Sie ein Modell, das zu Ihrer Aufgabe passt. Für klassische Textverarbeitung reichen oft kleinere Modelle. Für Werkzeugaufrufe und längere Argumentationsketten lohnt sich ein größeres Modell mit Function-Calling-Fähigkeit.
Listen Sie alle Aktionen auf, die der Agent ausführen soll: Datenbankabfrage, E-Mail senden, Datei anlegen. Jedes Tool bekommt eine Beschreibung, eine Eingabe und eine Ausgabe. Diese Beschreibungen liest das Modell und entscheidet, wann es welches Tool aufruft.
Auf Ihrem Server installieren Sie ein Agenten-Framework wie LangChain, LlamaIndex oder das schlanke smolagents von Hugging Face. Die Installation läuft über pip oder npm. Anschließend verbinden Sie das Framework mit dem gewählten Modell und Ihren Tools.
Der System-Prompt beschreibt Rolle, Aufgabe und Grenzen des Agenten. Der Speicher hält Kontext über mehrere Schritte hinweg. Für einfache Fälle reicht ein Konversationsspeicher. Für Wissensfragen brauchen Sie eine Vektordatenbank wie Chroma oder Qdrant.
Lassen Sie den Agenten zuerst in einer geschützten Umgebung gegen Beispieldaten laufen. Loggen Sie jeden Schritt mit. So erkennen Sie, an welcher Stelle der Agent falsch abbiegt, und justieren den Prompt oder die Tool-Beschreibung nach.
Die wichtigsten Frameworks im Überblick
Framework
Sprache
Stärken
Geeignet für
LangChain
Python, JS
Großes Ökosystem, viele Integrationen
Komplexe Workflows mit mehreren Quellen
LlamaIndex
Python
Starker Fokus auf Retrieval
Wissensagenten mit eigenen Dokumenten
smolagents
Python
Minimal, code-zentriert
Schlanke Agenten, schnelle Prototypen
n8n
Low-Code
Visueller Editor, viele Konnektoren
Teams ohne tiefe Programmierkenntnisse
CrewAI
Python
Multi-Agenten-Setups
Aufgaben mit mehreren spezialisierten Rollen
n8n verdient einen genaueren Blick, falls Sie wenig coden möchten. Das Tool läuft als Docker-Container auf einem V-Server mit Linux und verbindet KI-Modelle per Drag-and-drop mit über 400 Diensten. So entsteht ein produktionsreifer Agent in Stunden statt Wochen.
Hosting-Frage: Wo Ihr KI-Agent laufen sollte
Die Wahl der Infrastruktur bestimmt, wie schnell, sicher und teuer Ihr Agent arbeitet. Drei Wege sind gängig.
Cloud-API plus eigener Server: Sie nutzen ein Modell über die API eines Anbieters und betreiben die Agenten-Logik selbst. Das ist der Standardweg für die meisten Projekte. Vorteil: niedrige Einstiegskosten, keine Modellpflege, schnelle Updates. Ein virtueller Server reicht für die Logikschicht völlig aus.
Selbst gehostetes Modell auf eigener Hardware: Sinnvoll, wenn Daten Ihr Haus nicht verlassen dürfen. Hier brauchen Sie Server mieten mit ausreichend RAM und idealerweise GPU-Anbindung. Die Inferenz läuft über Tools wie Ollama oder vLLM.
Hybrid: Sensible Vorverarbeitung lokal, das Hauptmodell in der Cloud. Verbreitet im Gesundheits- und Finanzbereich.
Für die meisten Anwendungen empfehlen wir den ersten Weg. Ein STRATO V-Server liefert NVMe-SSDs, Root-Zugriff und unbegrenzten Traffic, was für die Steuerlogik eines Agenten ausreicht. Wenn das Projekt wächst, lässt sich der Tarif jederzeit hochstufen.
Die laufenden Kosten verteilen sich auf drei Posten: Modell-Nutzung, Hosting und Wartung. Modell-Nutzung wird meist pro Million Tokens abgerechnet. Ein Agent, der täglich 1.000 Anfragen mit je 2.000 Tokens beantwortet, verbraucht etwa zwei Millionen Tokens. Bei aktuellen Preisen sind das wenige Euro pro Tag.
Hosting fällt bei einem virtuellen Server ab wenigen Euro im Monat ins Gewicht. Wartung ist der Posten, der häufig unterschätzt wird. Prompts benötigen Pflege, Tools verändern ihre Schnittstellen, neue Modellversionen erfordern Tests. Planen Sie pro produktivem Agenten zwischen zwei und fünf Stunden Wartung pro Monat ein.
Sicherheit und Datenschutz
Ein Agent, der Tools eigenständig aufruft, ist nur so sicher wie das schwächste Glied seiner Kette. Drei Punkte sollten Sie früh klären.
Erstens: Berechtigungen so eng wie möglich. Wenn der Agent nur lesen muss, geben Sie ihm keinen Schreibzugriff. Zweitens: Eingaben prüfen. Sogenannte Prompt Injections schleusen Anweisungen in scheinbar harmlose Texte ein. Filtern Sie verdächtige Muster, bevor sie das Modell erreichen. Drittens: Logging und Monitoring. Jeder Tool-Aufruf gehört dokumentiert. So fällt auf, wenn ein Agent ungewöhnliche Anfragen stellt.
Beim Standort der Daten zählt Vertrauen. STRATO betreibt zwei nach ISO 27001 zertifizierte Rechenzentren in Deutschland und versorgt sie seit 2008 mit Ökostrom. Wer einen Server mietet, weiß also, wo seine Daten liegen und unter welchem Recht.
Für Low-Code-Werkzeuge wie n8n reicht logisches Denken und etwas Geduld mit JSON. Wer mit LangChain oder LlamaIndex arbeitet, sollte Python lesen und schreiben können. Für Multi-Agenten-Setups oder eigene Tools sind solide Programmierkenntnisse Pflicht.
Das hängt von der Modellgröße ab. Ein 7B-Modell läuft quantisiert ab etwa 8 GB RAM. Ein 13B-Modell fühlt sich erst ab 16 GB wohl. Für 70B-Modelle sollten es mindestens 64 GB sein, idealerweise mit GPU-Unterstützung. Ohne GPU sind Antwortzeiten von mehreren Sekunden bis Minuten normal.
Ja, sofern die Architektur stimmt. Bei API-basierten Modellen begrenzt der Anbieter die parallelen Anfragen. Auf eigenem Server begrenzen CPU, RAM und ggf. GPU die Parallelität. Eine Warteschlange wie Redis oder RabbitMQ verhindert, dass Anfragen verloren gehen.
Geben Sie ihm Werkzeuge, mit denen er Fakten prüfen kann, statt sie zu erraten. Setzen Sie auf Retrieval Augmented Generation für Wissensfragen. Formulieren Sie im System-Prompt klar, dass der Agent "Ich weiß es nicht" sagen darf. Und testen Sie regelmäßig mit Fragen, deren Antwort er nicht kennen kann.
Fertige Lösungen passen, solange Sie keine eigenen Daten oder Tools einbinden müssen. Sobald interne Systeme ins Spiel kommen, lohnt der eigene Agent. Sie behalten Kontrolle über Logik, Datenfluss und Kosten und können den Agenten über Jahre weiterentwickeln, ohne von einer Plattform abhängig zu sein.
Bei STRATO können Sie sicher sein, dass Ihre Daten nicht auf beliebigen Servern im Ausland liegen. STRATO verfügt über zwei Hochsicherheitsrechenzentren, die sich in Deutschland befinden. Somit sind Ihre Daten durch die deutsche Umsetzung der europäischen Datenschutzgesetze abgesichert (DSGVO), die zu den strengsten weltweit gehören.