Produktmanagement

Die Feedback-Triage-Engine: So bauen Sie ein LLM-Bewertungssystem, das Signal von Rauschen trennt

Nicht jedes Feedback ist gleich — aber die meisten Teams behandeln es so. Eine LLM-Triage-Engine bewertet jeden eingehenden Datenpunkt automatisch über sechs Qualitätsdimensionen, damit Ihre Roadmap von den besten Signalen geprägt wird, nicht von den lautesten Stimmen.

Alex Chen

Head of Product

20. Mai 2026 10 Min. Lesezeit
Die Feedback-Triage-Engine: So bauen Sie ein LLM-Bewertungssystem, das Signal von Rauschen trennt

Ein Fehlerbericht mit genauen Reproduktionsschritten von einem 500-Sitze-Enterprise-Account am Tag vor der Verlängerung ist nicht dasselbe Signal wie "wäre schön, wenn..." von einem kostenlosen Testbenutzer, der sich gestern angemeldet hat. Beide landen in derselben Queue. Beide werden vom selben Product Manager gelesen. In den meisten Teams ist der Unterschied zwischen ihnen unsichtbar, bis jemand manuell in den Account-Kontext eintaucht — was fast nie geschieht, bevor das Feedback getaggt und abgelegt wird.

Dies ist das Feedback-Qualitätsproblem, und es verstärkt sich schnell. Wenn das Volumen wächst, verschlechtert sich das Signal-Rausch-Verhältnis im Backlog. Prioritäten verschieben sich zu Elementen, die die meisten Stimmen gesammelt haben, statt zu Elementen mit dem größten strategischen Gewicht. Produktentscheidungen werden auf einem verzerrten Bild dessen getroffen, was Kunden wirklich brauchen.

Eine LLM-Triage-Engine behebt dies an der Quelle. Jedes eingehende Feedback-Element wird über mehrere Qualitätsdimensionen bewertet, bevor es ein Mensch liest. Hochwertige Signale steigen sofort auf. Minderwertiges Rauschen wird in eine Review-Queue weitergeleitet oder direkt archiviert. Die Queue des PMs enthält nur Elemente, die seine Zeit wert sind — und jedes Element kommt mit einer strukturierten Begründung, nicht nur mit einem Tag.

Warum volumenbasierte Priorisierung scheitert

Die Standardantwort auf das Feedback-Qualitätsproblem ist Voting. Mehr Stimmen bedeutet mehr Nachfrage, was höhere Priorität bedeutet. Diese Logik ist intuitiv, bricht aber auf vorhersehbare Weisen zusammen.

Voting zeigt Popularität, nicht Wichtigkeit. Ein kosmetisches Ärgernis bei gelegentlichen Benutzern im kostenlosen Tier sammelt schneller Stimmen als ein workflow-blockierendes Problem, das fünf Enterprise-Accounts haben, die nie öffentlich posten. Die Enterprise-Kunden reichen ein Support-Ticket ein, erwähnen es bei einem Anruf und gehen schließlich — während das kosmetische Problem an der Spitze der Roadmap steht, weil es bei einem lauten Teil der Nutzerbasis resoniert hat.

Manuelles Tagging hat dasselbe Problem aus einem anderen Winkel. Tags sind nur so konsistent wie die Person, die sie anwendet, und diese Konsistenz verschlechtert sich unter Volumen. Zwei verschiedene Teammitglieder werden dasselbe Feedback unterschiedlich kategorisieren. Dasselbe Teammitglied wird es montags morgens anders kategorisieren als freitagsnachmittags. Mit der Zeit divergiert Ihre Taxonomie von Ihren tatsächlichen Daten.

Das zugrundeliegende Problem ist, dass weder Stimmen noch Tags die Signalqualität erfassen. Ein einziges Feedback-Element kann sehr spezifisch, sofort umsetzbar und strategisch kritisch sein — oder es kann vage, doppelt vorhanden und für niemanden außer dem Schreiber irrelevant sein. Diese als gleichwertige Inputs zu behandeln ist ein struktureller Priorisierungsfehler.

Sechs Dimensionen der Feedback-Qualität

Bevor Sie Feedback bewerten können, benötigen Sie ein Modell dessen, was Feedback gut macht. Sechs Dimensionen decken den größten Teil des Signalqualitätsraums ab:

1. Spezifität

Beschreibt das Feedback das genaue Problem, oder ist es allgemeine Frustration? "Der Export-Button im Analytics-Dashboard funktioniert in Firefox 124 nicht" ist hohe Spezifität. "Die Export-Funktion ist schlecht" ist es nicht. Spezifisches Feedback gibt dem Engineering-Team etwas, worauf es handeln kann, ohne ein Nachgespräch. Allgemeines Feedback erfordert eine Untersuchung, nur um zu verstehen, was gemeldet wird.

2. Reproduzierbarkeit

Für Fehlerberichte und Usability-Probleme: Kann das Team das Problem aus der gegebenen Beschreibung nachstellen? Feedback mit Reproduktionsschritten, Umgebungsdetails oder Screenshots bewertet höher als Feedback, das ein Symptom ohne Kontext beschreibt. Diese Dimension ist am relevantesten für technische Probleme, gilt aber auch für Workflow-Beschwerden.

3. Auswirkungsumfang

Wie viele Benutzer oder Accounts sind betroffen? Ein einzelner Benutzer-Grenzfall bewertet niedriger als ein Workflow, auf den sich täglich alle Accounts verlassen. Diese Dimension erfordert die Anreicherung des Feedback-Elements mit Account-Kontext — das LLM allein kann dies nicht beurteilen; es benötigt einen Tool-Aufruf, um Account-Größe, Tier und Feature-Nutzung zu prüfen.

4. Umsetzbarkeit

Gibt es etwas Klares, das das Produktteam tatsächlich tun kann? Feature-Anfragen, die das gewünschte Ergebnis beschreiben, bewerten höher als solche, die ein Gefühl beschreiben. "Lass mich den Bericht nach benutzerdefiniertem Datumsbereich filtern" ist umsetzbar. "Die Berichte sind nicht nützlich für unser Team" ist es ohne Nachfassen nicht. Umsetzbares Feedback kann direkt in eine Spezifikation einfließen.

5. Neuartigkeit

Ist dies ein neues Signal oder ein Duplikat von etwas, das bereits im Backlog ist? Ein LLM kann dies durch die Suche nach früheren Feedbacks und Roadmap-Elementen auf semantische Ähnlichkeit bewerten. Neues Feedback verdient Aufmerksamkeit, weil es den Problemraum erweitert. Duplikat-Feedback ist immer noch wertvoll als Volumensignal, sollte aber mit dem vorhandenen Element verknüpft werden.

6. Dringlichkeit

Gibt es eine Zeitbeschränkung, die die Berechnung ändert? Feedback von einem Account mit einer Verlängerung in 30 Tagen trägt eine Dringlichkeit, die identisches Feedback von einem kürzlich eingebetteten Account nicht hat. Dringlichkeit ändert nicht die strategische Bedeutung eines Elements, aber sie ändert das Reaktionsfenster — und das Verpassen dieses Fensters hat Konsequenzen, die sich häufen.

Das Bewertungssystem aufbauen

Die Bewertungspipeline hat drei Stufen: anreichern, bewerten und weiterleiten. Jede Stufe hat eine klare Verantwortung und ein gut definiertes Ausgabeformat.

Stufe 1: Anreicherung

Bevor das LLM die Qualität bewertet, benötigt das Feedback-Element den Account-Kontext. Roher Feedback-Text allein kann Auswirkungsumfang oder Dringlichkeit nicht bewerten — Sie müssen wissen, wer ihn gesendet hat. Ein Anreicherungsschritt führt Tool-Aufrufe durch, um Account-Tier, Sitzanzahl, Health-Score, Verlängerungsdatum und aktiven Feature-Satz abzurufen. Diese Daten werden als strukturierter Kontext in den Bewertungs-Prompt aufgenommen.

Stufe 2: LLM-Bewertung

Der Bewertungs-Prompt fordert das Modell auf, das Feedback-Element gegen jede der sechs Dimensionen zu bewerten und ein JSON-Objekt mit einem Score von 0–100 und einer einzeiligen Begründung für jede Dimension zurückzugeben. Der Prompt verwendet Chain-of-Thought-Reasoning — das Modell beschreibt zuerst, was es bei jeder Dimension beobachtet, dann verpflichtet es sich auf einen Score. Dies produziert genauere Scores als direkt nach einer Zahl zu fragen, und die Begründung macht jeden Score prüfbar.

Der zusammengesetzte Score ist ein gewichteter Durchschnitt. Gewichtungen sollten die tatsächlichen Priorisierungswerte Ihres Teams widerspiegeln. Starten Sie mit gleichen Gewichtungen und passen Sie basierend auf den Fällen an, bei denen die Routing-Entscheidungen des Modells nicht mit dem übereinstimmten, was Ihr Team getan hätte.

Das Diagramm unten zeigt die vollständige Bewertungspipeline, mit einem Beispiel-Element über alle sechs Dimensionen aufgeschlüsselt:

LLM-gestützte Feedback-Triage-Bewertungspipeline — Sechs-Dimensionen-Scorecard mit Routing-Entscheidung

Stufe 3: Routing

Zusammengesetzte Score-Schwellenwerte bestimmen, wohin das Element geht. Ein Score bei oder über 70 wird in die Hochprioritäts-Queue weitergeleitet — direkte PM-Aufmerksamkeit, Überprüfung am selben Tag. Scores zwischen 40 und 69 gehen in die Review-Queue. Scores unter 40 gehen in ein Archiv mit angehängter Begründung, sodass der PM die Entscheidung prüfen kann, anstatt einfach eine Black Box zu akzeptieren.

Den Bewerter kalibrieren

Ein LLM-Bewertungssystem ist nur so vertrauenswürdig wie seine Übereinstimmung mit dem tatsächlichen Urteil Ihres Teams. Das Cold-Start-Problem ist real: Die erste Woche der Modellausgabe wird Entscheidungen enthalten, mit denen Sie nicht einverstanden sind, und diese Meinungsverschiedenheiten sind die wertvollsten Daten, die Sie während der Bereitstellung produzieren werden.

Der Kalibrierungsprozess ist unkompliziert. In den ersten zwei Wochen erhält jedes Element, das das Modell nach Hochpriorität oder Archiv weiterleitet, eine menschliche Überprüfung. Wenn die menschliche Routing-Entscheidung von der des Modells abweicht, protokollieren Sie das Element, die Begründung des Modells und Ihre Überschreibungsbegründung. Nach zwei Wochen haben Sie einen Kalibrierungssatz von 20–50 Meinungsverschiedenheiten. Speisen Sie diese als Few-Shot-Beispiele zurück in den Prompt ein. Dieser einzelne Schritt reduziert typischerweise die Abweichungsrate um die Hälfte.

Die laufende Kalibrierung sollte leichtgewichtig sein. Eine wöchentliche Überprüfung einer zufälligen Stichprobe von 10 weitergeleiteten Elementen hält das System ehrlich, während sich Ihr Produkt und Ihre Kundenbasis weiterentwickeln.

Was sich ändert, wenn Sie dies einsetzen

Das Erste, was Teams nach der Bereitstellung einer Triage-Engine berichten, ist nicht schnellere Backlog-Verarbeitung — es ist ruhigere PM-Arbeit. Wenn die Queue nur vorab bewertete, vorab weitergeleitete, kontextangereicherte Elemente enthält, wird Triage eine Überprüfung statt einer Untersuchung. Ein PM, der vier Stunden pro Woche damit verbrachte, rohes Feedback zu lesen und zu kategorisieren, kann Triage in 45 Minuten abschließen, weil jedes Element mit seinem Account-Kontext, seiner Qualitätsbegründung und seiner Routing-Empfehlung bereits vorbereitet ankommt.

Die zweite Änderung liegt upstream: Die Qualität der Feedback-Sammlung verbessert sich. Wenn Ihr System beginnt, Scores anzuzeigen, kann das Team aggregiert sehen, welche Quellen hochspezifische Signale produzieren und welche Rauschen produzieren.

Die dritte Änderung ist schwerer zu messen, aber wichtiger: Produktentscheidungen werden auf besseren Informationen getroffen. Wenn Ihre Roadmap von den höchstwertigen Signalen statt von den lautesten Stimmen geprägt wird, entsprechen die Features, die Sie bauen, den Problemen, die Ihre Kunden tatsächlich haben.

Was das System nicht kann

Eine Triage-Engine bewertet Qualität, nicht strategischen Wert. Ein hochspezifischer, reproduzierbarer, umsetzbarer Fehler von einem kritischen Enterprise-Account könnte trotzdem nicht auf die Roadmap gehören, wenn das Beheben eine Neuarchitektur eines Subsystems erfordert, das das Team bereits beschlossen hat zu ersetzen. Der Qualitäts-Score sagt Ihnen, dass das Signal gut ist. Er sagt Ihnen nicht, dass das Signal in Ihre aktuelle Strategie gehört.

Das Modell kann auch keine Dimensionen bewerten, für die es keine Informationen hat. Wenn Ihr Anreicherungsschritt keinen Account-Kontext liefert, werden die Scores für Auswirkungsumfang und Dringlichkeit Vermutungen sein.

Wenn der zusammengesetzte Score nahe einem Schwellenwert liegt — 38, 41, 68, 72 — behandeln Sie ihn als Signal zur Überprüfung, nicht als Entscheidung. Das Modell ist an den Extremen am konfidentesten und am wenigsten zuverlässig in der Mitte, wo die Dimensionen genuinly in verschiedene Richtungen zeigen. Genau dort fügt menschlicher Kontext den meisten Wert hinzu.

Anfangen ohne zu viel Nachdenken

Die minimale Triage-Engine ist ein einziger Bewertungs-Prompt, ein Webhook, um ihn bei jeder neuen Feedback-Einreichung auszuführen, und ein Slack-Kanal, in dem hochpriorisierte Elemente automatisch gepostet werden. Beginnen Sie mit drei Dimensionen — Spezifität, Umsetzbarkeit und Auswirkungsumfang — und einem einfachen Schwellenwert. Holen Sie sich eine Woche Daten. Sehen Sie, wo das Routing des Modells Ihrer Intuition entspricht und wo nicht. Kalibrieren Sie aus diesen Meinungsverschiedenheiten. Fügen Sie Dimensionen hinzu, wenn Ihr Vertrauen in die Basisbewertung wächst.

Teams, die stecken bleiben, sind diejenigen, die darauf warten, das perfekte Bewertungsschema zu entwerfen, bevor sie irgendetwas einsetzen. Das perfekte Schema existiert nicht, bevor Sie gesehen haben, wie Ihre spezifischen Kunden Feedback schreiben. Setzen Sie die einfachste Version ein, die das schlechteste Rauschen und das klarste Signal erfasst, und lassen Sie Ihre Kalibrierungsdaten Ihnen sagen, wie die zweite Version aussehen soll.