Agentische KI-Entwicklung: Warum die Feedback-Schleife alles ist
Agentische Entwicklung funktioniert, wenn der Agent nicht nur Code generiert – er führt ihn aus, prüft die Ergebnisse und iteriert, bis es Belege gibt, dass die Änderung funktioniert. So bauen Sie diese Schleife, was Reddit-Entwickler auf die harte Tour lernen und wie Sie die Fallstricke vermeiden.
Jordan Reeves
Lead Developer Experience
Agentische KI ist nicht „KI schreibt Code". Es ist „KI führt einen vollständigen Entwicklungszyklus aus: kleine Änderung planen → umsetzen → Checks ausführen → beobachten, was passiert ist → Bestanden/Durchgefallen mit Belegen festhalten → iterieren oder stoppen." Der Unterschied zwischen nützlichen agentischen Workflows und teurem Token-Verbrauch liegt darin, ob diese Schleife mit echtem Feedback geschlossen wird.
Forscher und Praktiker – von formellen Artikeln wie James Ralphs „Agentic Full-Stack Development" bis zu r/AI_Agents-Threads – sind sich einig: Der Engpass ist selten das Modell. Es sind fehlende oder kaputte Feedback-Schleifen.
Was agentische Entwicklung wirklich bedeutet
In der Praxis bedeutet agentische Full-Stack-Entwicklung, dass der Agent einen vollen Zyklus ausführt, nicht nur einen einzelnen Codegen-Schritt:
- Planen der kleinsten sinnvollen Änderung.
- Umsetzen.
- Ausführen der relevanten Checks (Tests, Lint, Typecheck, Dev-Server oder App).
- Beobachten von Ausgaben und Zwischenzustand.
- Festhalten eines Urteils: Bestanden oder Durchgefallen, mit Belegen (Exit-Codes, Logs, Artefakte).
- Iterieren oder stoppen basierend auf diesen Belegen.
Drei Gewohnheiten machen diese Schleife zuverlässig: Iteration schnell halten, Pass-Kriterien explizit halten und Diffs klein halten. Wenn das gilt, ist Fortschritt leicht messbar und vertrauenswürdig.
Warum Feedback alles verändert
Code-Generierung allein hilft beim Gerüstbau und Routine-Bearbeitungen. Aber die meisten echten Bugs werden nicht zur Generierungszeit gelöst. Sie werden gelöst, indem man das Verhalten beobachtet:
- Ein Deployment nutzt eine andere Config als erwartet.
- Eine Abfrage schreibt falsche Zwischendaten.
- Eine Netzwerkanfrage liefert die falsche Payload.
- Ein Test schlägt aus einem bestimmten, reproduzierbaren Grund fehl.
Ohne Feedback kann ein Agent nur plausiblen Text erzeugen. Mit Feedback kann er funktionierende Änderungen liefern. Das Ziel ist nicht volle Autonomie – es ist zuverlässige Kompetenz.
Womit Reddit-Entwickler konfrontiert sind
Auf r/AI_Agents und ähnlichen Communities tauchen immer wieder dieselben Themen auf.
Agenten kreisen um dieselbe Entscheidung
Ein Entwickler brachte es auf den Punkt: „Der Agent kehrt immer wieder zur gleichen Entscheidung zurück, selbst bei klaren Einschränkungen. Je mehr Kontext ich zum ‚Begründen' gebe, desto mehr denkt er nach und bricht die Schleife." Mehr Kontext gibt dem Modell manchmal mehr Raum zum Spiralfahren statt zum Konvergieren.
Praktische Lösungen, die Nutzer berichten:
- Zustand externalisieren und den Arbeits-Speicher des Agenten schlank halten; Iterationen begrenzen und nach einer festen Anzahl Schritte eine Zusammenfassung oder Entscheidung erzwingen.
- Explizite Exit-Kriterien als separaten Schritt, um „Selbst-Diskussions"-Schleifen zu reduzieren.
- Konfidenz-Schwelle: Wenn der Agent mehr als ein paar Mal bei derselben Entscheidung hin und her geht, die letzte Option wählen und weitermachen – stoppt den Token-Verlust.
- Middleware statt Prompt-Hacks: Vor jedem Tool-Aufruf prüfen, ob die Argumente mit den letzten Aufrufen überlappen; bei hoher Überlappung Ausführung überspringen und dem Agenten sagen, er soll mit dem Vorhandenen arbeiten. Der Agent muss nicht wissen, dass er eingeschränkt wird.
„Logik-Schleifen sind der Goldfisch-Effekt autonomer Systeme – 95 % der Ausfälle stammen von Über-Argumentation einfacher Zustandsübergänge. Ohne einen harten deterministischen Schalter heizen Sie nur den Raum mit Tokens." — r/AI_Agents
Begründung von Entscheidung trennen
Wenn Sie einem Agenten eine offene Entscheidung mit zu vielen gültigen Optionen geben, kann er beim endlosen Vergleichen hängen bleiben. Ein funktionierendes Muster: Den Agenten strukturierte Optionen analysieren und ausgeben lassen, dann deterministische Logik (z. B. einen einfachen Scorer) zum tatsächlichen Auswählen nutzen. Das LLM sieht die finale Wahl nie; es liefert nur Daten. Das beseitigt eine ganze Klasse von „Deliberations-Schleifen".
Endliche Automaten und Guardrails
Mehrere Kommentatoren betonten eine Finite-State-Machine(FSM)-Schicht, um deterministische Übergänge durchzusetzen und den Agenten davon abzuhalten, „sich in einen Kreis zu halluzinieren". Kontext-Fenster-Sättigung ist wie Analyse-Lähmung für Agenten – sobald das Rauschen das Signal überwiegt, drehen sie sich. Harte Iterations-Limits helfen; dynamische Entropie-Überwachung kann bessere Exit-Trigger liefern als eine feste Schrittzahl.
Evidence Bundles: Ergebnisse beobachtbar machen
Ein Evidence Bundle ist die Ausgabe, die beweist, dass eine Änderung real ist. Es sollte Teil des Workflows sein, kein Nachgedanke. James Ralphs Checkliste ist ein guter Standard:
- Patch- oder Commit-Referenz
- Exakte ausgeführte Befehle
- Test- oder Skript-Ergebnisse mit Exit-Codes
- Wichtige Logs oder Auszüge
- Artefakte (Screenshots, Traces, JSON-Ausgabe, Benchmarks bei Bedarf)
- Kurze Erklärung, was sich geändert hat und warum
- Kurze Erklärung, wie die Belege den Erfolg stützen
Speichern Sie das in einer Markdown-Datei unter /evidence, als PR-Kommentar-Vorlage oder als CI-Artefakte. Konsistenz zählt mehr als der genaue Ort.
Die Anwendung für den Agenten beobachtbar machen
Agenten brauchen Zugriffe auf die Realität. In den meisten Projekten verlangsamt sich hier der Fortschritt.
Ausführungs-Beobachtbarkeit
Standard-Skripte sollten existieren und vorhersehbar sein: test, lint, typecheck, dev und e2e falls zutreffend. Ein klarer Befehl pro Aufgabe beseitigt Rätselraten.
Ausgabe-Beobachtbarkeit
Ausgaben sollten stabil und maschinenfreundlich sein: kurze Zusammenfassungszeilen, die sich leicht parsen lassen, erfasste Exit-Codes, strukturierte Lint- und Test-Ausgabe, konsistente Fehlerzusammenfassungen. Wenn sich die Ausgabeform bei jedem Lauf ändert, wird die Schleife fragil.
Zwischenzustands-Beobachtbarkeit
Bei datenlastigen Abläufen den Zwischenzustand direkt prüfen: generierte Dateien, Queue- oder Cache-Zustand, Null- und Eindeutigkeits-Checks, Tabellen und Zeilenanzahlen. Dort zeigen sich versteckte Probleme oft am schnellsten.
Tool-Säulen, die die Feedback-Qualität verbessern
Verschiedene Tools geben dem Agenten verschiedene „Realitäts-Checks":
- Browser-Verifikation (z. B. Chrome MCP): UI-Bugs reproduzieren, User-Flows validieren; Belege = Konsolen-Ausgabe, Netzwerk-Snippets, Screenshots.
- Infrastruktur (z. B. AWS CLI): Bereitgestellten Zustand validieren; Belege = exakte Befehle, redigiertes JSON des echten Zustands.
- Lokale Datenbanken: Datenkorrektheit prüfen; Belege = ausgeführte Abfragen, Zählungen, Beispielzeilen.
- CI/CD: Als externer Richter nutzen; Belege = CI-Links, Fail-to-Pass-Zusammenfassungen, Test-Artefakte.
- Git:
git diffals Quelle der Wahrheit; eine logische Änderung pro Commit; Belege in Commit- oder PR-Text referenzieren.
Warum Monorepos agentischer Arbeit helfen
Agentische Workflows verbessern sich, wenn die Codebasis in einem Workspace sichtbar ist: einheitliche Skripte reduzieren Befehls-Mehrdeutigkeit, geteilte Typen reduzieren Schnittstellen-Mismatch, Frontend, Backend und Infra leben in einem Baum. Wenn Root- und Package-Skripte dieselben Namen nutzen (dev, test, lint, typecheck), können Agenten das Projekt mit weniger Trial-and-Error navigieren.
Guardrails, die Verifikation günstig halten
Nutzen Sie Guardrails, die Reibung reduzieren: strukturierte Logs mit konsistenten Keys, „keine Konsolenfehler"-Checks für wichtige UI-Flows, Daten-Constraints und API-Vertrags-Checks, weniger flaky Checks, stabile Reproduktions-Befehle und schnelle Smoke-Tests für schnelles Signal. Eine einfache Regel: Jede finale Antwort muss Belege zitieren, nicht nur Schlussfolgerungen.
Mit einer Schleife anfangen
Wenn Sie das jetzt einführen, starten Sie mit drei Schritten:
- Eine starke Verifikationsfläche hinzufügen – Browser-Checks oder Datenbank-Checks.
- Evidence Bundles für jede Änderung verlangen.
- Skripte standardisieren, damit der Agent immer einen klaren Befehl pro Aufgabe hat.
Dann in CI- und Infrastruktur-Validierung expandieren, wenn der Workflow reift.
Das Fazit
Agentische KI-Entwicklung wird nützlich, wenn der Agent mehr kann als Code generieren. Er muss den Code ausführen, prüfen, was passiert ist, und weiter iterieren, bis er Belege zeigen kann, dass die Änderung funktioniert. Der Unterschied ist nicht besseres Prompting – es ist eine funktionierende Feedback-Schleife.
Kombinieren Sie das mit den hart erkämpften Lektionen der Community: Zustand externalisieren, Exit-Kriterien und Circuit Breaker hinzufügen, Begründung von Entscheidung trennen und Belege als erstklassiges Deliverable behandeln. So kommen Sie von „der Agent hängt wieder" zu „der Agent hat es ausgeliefert und hier ist der Beweis".
Bauen Sie die Schleife. Dann machen Sie sie schnell.