Richtlinien-Framework für sichere und geschützte Interaktionen mit Large Language Models
OpenGuard ist ein Richtlinien-Framework, das benutzerdefinierte Regeln durchsetzt, um eine sichere Interaktion mit Large Language Models (LLMs) zu gewährleisten. OpenGuard ermöglicht die Erkennung von faktischen Halluzinationen, d. h. von Fällen, in denen die generierten Ergebnisse von der tatsächlichen Wahrheit abweichen.
Der OpenGuard-Checker zur Erkennung von Halluzinationen integriert Beam Search Sampling (BSS) mit semantischer Konsistenzanalyse, um Halluzinationen systematisch zu erkennen. BSS generiert mehrere Antwortkandidaten, die die Vertrauensverteilung des Modells über verschiedene plausible Antworten erfassen. Diese Antworten werden dann auf der Grundlage der semantischen Ähnlichkeit geclustert, gefolgt von Natural Language Inference (NLI) zur Bewertung von Entailment- und Widerspruchsbeziehungen.
Um Halluzinationen zu quantifizieren, führen wir einen Bewertungsmechanismus ein, der Token-Wahrscheinlichkeiten mit semantischen Ähnlichkeitsmetriken kombiniert und so ein genaueres Maß für die faktische Konsistenz bietet. In Fällen, in denen Beam Search Sampling (BSS) nur eine einzige Antwort liefert, setzen wir einen Chain-of-Verification (CoVe)-Mechanismus ein, um die Selbstkonsistenzprüfungen zu verbessern.
OpenGuard bietet eine strukturierte und zuverlässige Methode zur Verbesserung der Vertrauenswürdigkeit von LLM-generierten Inhalten und ist damit ein wesentliches Instrument für einen verantwortungsvollen LLM-Einsatz.
Alle verfügbaren Downloads finden Sie unter DepAI/OpenGuard.
Die aktuelle Dokumentation ist unter DepAI/OpenGuard zugänglich.