Skip to Content
KnowledgeSDKKlassifikations-Pipeline

Klassifikations-Pipeline

Die Pipeline verarbeitet ein Ticket in 6 Schritten:

1. Vorverarbeitung

Titel und Body werden normalisiert, Tags extrahiert, Log-Anhaenge inline einbezogen.

2. Signal-Sammlung

Fuenf parallele Signale werden gesammelt:

SignalGewichtBeschreibung
Repo-Match3.0xQuell-Repo gegen Collection-Registry (staerkstes Signal)
Tag-Match2.0xTags gegen Collection-Namen
Keyword-Match1.5xTicket-Text gegen gewichteten Keyword-Index
Attachment-Match1.5xPackage-Namen und Dateipfade aus Log-Anhaengen
Search-Match1.0xCollection-Verteilung der Top-10 Suchergebnisse
Feedback-Match0.5x pro KorrekturAehnliche korrigierte Tickets aus der Feedback-DB

Keyword-Index

Jede Collection hat gewichtete Keywords:

"bpmn" → engine (2.0) "node-red" → lowcode (2.0) "openid" → authority (2.0) "single-binary" → cuby (2.0) "artifactshipper" → devops (2.0)

Mehrere Treffer derselben Collection verstaerken den Score (Multi-Hit-Bonus).

Feedback-Signal (Self-Improvement)

Wenn aehnliche Tickets in der Vergangenheit korrigiert wurden, bekommt die korrigierte Collection einen Bonus:

Ticket: "Dashboard zeigt alte Daten" FTS5-Suche findet: 5x zu "portal" korrigiert (vorher "lowcode") → Boost: portal +2.0

3. Hybrid-Suche

Der Ticket-Titel wird als Suchquery gegen den qmd-Index geschickt. Die Collection-Verteilung der Top-10 Ergebnisse wird als zusaetzliches Signal genutzt.

4. Scoring

Alle Signale werden gewichtet aggregiert und auf 0-1 normalisiert:

engine: keyword(1.5) + tag(2.0) + search(0.3) = 3.8 → 1.00 lowcode: keyword(0.8) + search(0.2) = 1.0 → 0.26 studio: search(0.1) = 0.1 → 0.03

5. Entscheidung

BedingungPathBedeutung
Score > 0.8 und Abstand > 0.2 zum ZweitenFast PathEindeutig, sofortige Antwort
Score < 0.8 oder kein klarer AbstandSlow PathLLM entscheidet aus Top-3 Kandidaten

LLM-Entscheider (Slow Path)

Das LLM bekommt:

  • Ticket-Titel + Body
  • Top-3 Kandidaten mit Scores
  • Top-5 Doku-Treffer
  • Feedback-Hints (haeufige Fehlklassifikationen)

Und liefert: Collection, Sub-Thema, Konfidenz, Begruendung.

Der LLM-Entscheider ist optional. Ohne konfiguriertes LLM wird immer der Fast Path genutzt (bestes regelbasiertes Ergebnis).

6. Ergebnis + Speichern

Das Ergebnis wird zurueckgegeben und gleichzeitig im Feedback-Store gespeichert (fuer spaeteres Self-Improvement via Feedback).

Sub-Thema-Erkennung

Innerhalb der gewaehlten Collection wird das beste Sub-Thema ermittelt:

Collection: engine Sub-Themen: bpmn/timer-events → Keywords: timer, cron, delay bpmn/gateways → Keywords: gateway, exclusive, parallel bpmn/user-tasks → Keywords: user-task, formular configuration → Keywords: config, environment, database Ticket: "Timer feuert nicht bei cron" → Sub-Thema: bpmn/timer-events (2 Treffer: timer + cron)