KI-Verhaltensmuster

Aus devops.straight8.de
Zur Navigation springenZur Suche springen

Halluzinationen[Bearbeiten]

Unter einer KI-Halluzination versteht man ein Phänomen, bei dem ein System der Künstlichen Intelligenz (oft Large Language Models wie ChatGPT) Inhalte generiert, die faktisch falsch, unsinnig oder frei erfunden sind. Trotz der inhaltlichen Fehler werden diese Informationen vom Modell überzeugend, plausibel und oft sehr selbstbewusst präsentiert. [1, 2, 3, 4, 5]

Die KI „halluziniert" also Fakten, Zusammenhänge oder Quellen, die nicht existieren, obwohl sie vom Nutzer als korrekt dargestellt werden. [1, 2]

Kernaspekte von KI-Halluzinationen[Bearbeiten]

  • Plausibler Unfug: Die Antworten wirken auf den ersten Blick oft logisch und gut formuliert, entsprechen aber nicht der Realität.
  • Konfabulation: Ähnlich wie bei der menschlichen Erinnerung, bei der Lücken mit erfundenen, aber logischen Inhalten gefüllt werden, verfährt die KI.
  • Fehlende Faktenbasis: Die Aussagen lassen sich nicht durch die ursprünglichen Trainingsdaten oder verlässliche externe Quellen belegen.
  • Hohes Vertrauen: Die KI gibt selten zu, etwas nicht zu wissen, sondern erfindet lieber plausible Fakten. [1, 2, 3, 4, 5, 6]

Warum halluziniert KI?[Bearbeiten]

Generative KI-Modelle arbeiten basierend auf Wahrscheinlichkeiten, nicht auf echtem Verständnis oder einer Datenbank von Fakten. Sie berechnen Wort für Wort die wahrscheinlichste Fortsetzung eines Textes. [1, 2]

  • Lücken im Training: Wenn der KI Informationen zu einem Thema fehlen, füllt sie diese Lücken mit Mustern, die sie aus anderen Zusammenhängen gelernt hat. [1]
  • Optimierung auf Plausibilität: KI wird darauf trainiert, eine Antwort zu geben, die sprachlich gut klingt, nicht unbedingt eine, die wahr ist. [1]
  • Überanpassung (Overfitting): Das Modell könnte Muster in den Trainingsdaten überbewerten. [1, 2, 3]

Beispiele für KI-Halluzinationen[Bearbeiten]

  • Erfundene Zitate/Quellen: Die KI nennt Studien oder Nachrichtenartikel, die nie veröffentlicht wurden.
  • Falsche Lebensläufe: Eine Person wird mit einer Karriere erfunden, die sie nie hatte.
  • Unwahre historische Fakten: Ereignisse werden zeitlich oder inhaltlich falsch dargestellt.
  • Fehler in der Programmierung: Die KI generiert Code, der logisch klingt, aber nicht funktioniert. [1, 2, 3, 4, 5]

Risiken[Bearbeiten]

Halluzinationen können gefährlich sein, da sie falsche Entscheidungen in Bereichen wie Medizin, Recht oder Wirtschaft verursachen können. Daher ist eine kritische Überprüfung (Fact-Checking) von KI-erzeugten Inhalten essenziell. [1, 2, 3]

KI-Verhaltensmustern ohne Halluzination[Bearbeiten]

Unter KI-Verhaltensmustern ohne Halluzination versteht man systematische, oft antrainierte oder strukturell bedingte Reaktionsweisen von Sprachmodellen (LLMs), die nicht auf der Erfindung von Fakten beruhen, sondern auf der Art und Weise, wie die KI Sprache verarbeitet, Prioritäten setzt oder durch Reinforcement Learning (RLHF) optimiert wurde. [1, 2]

Hier sind die Erläuterungen zu den spezifischen Begriffen:

1. Performative Bescheidenheit (Performative Humility)[Bearbeiten]

Dies beschreibt das Verhalten einer KI, übertrieben defensiv, vorsichtig oder förmlich zu antworten, selbst wenn sie die Antwort wüsste. Es handelt sich um eine "gespielte" oder antrainierte Bescheidenheit, um Sicherheitsrichtlinien (Safety Guidelines) einzuhalten.

  • Merkmale: Häufige Phrasen wie "Als KI-Modell kann ich nicht...", "Es ist wichtig zu beachten...", oder "Ich bin mir nicht sicher, aber...".
  • Grund: Die KI wurde darauf trainiert, eher zu wenig zu sagen, als Falschinformationen (Halluzinationen) zu riskieren oder kontroverse Meinungen zu äußern. [1, 2]
  • Beispiel: Eine Frage nach einer einfachen Meinung wird mit einer langen, neutralen Abwägung beantwortet, die keine konkrete Aussage trifft. [1]

2. Recall-Lücken (Recall Gaps)[Bearbeiten]

Recall-Lücken beziehen sich auf die Unfähigkeit der KI, korrekte Informationen aus ihrem Trainingsdatenbestand abzurufen, obwohl diese Informationen vorhanden sein sollten. Es handelt sich um ein Gedächtnisproblem, nicht um eine Halluzination.

  • Statische Injektion: Informationen sind als unzugänglicher Block im Speicher vorhanden.
  • Kein zeitlicher Verfall: Neue Informationen werden nicht höher gewichtet als alte.
  • Flaches Gedächtnis: Die KI unterscheidet nicht zwischen wichtigen episodischen Fakten und unwichtigen Zusammenhängen.
  • Beispiel: Die KI nennt auf die Frage nach den letzten drei US-Präsidenten einen falschen Namen, weil sie ein veraltetes Muster abruft (falscher Abruf), anstatt einen komplett neuen, erfundenen Präsidenten zu generieren (Halluzination). [1]

3. Stil-Reflexe (Style Reflexes)[Bearbeiten]

Stil-Reflexe sind automatische Verhaltensweisen, bei denen die KI einen bestimmten sprachlichen Stil, Tonfall oder ein Format imitiert, ohne dass dies explizit angefordert wurde, oder unbewusst den Stil des Prompts übernimmt (Mirroring).

  • Merkmale: Wenn der Nutzer sehr höflich fragt, antwortet die KI extrem höflich. Wenn der Nutzer kurze Befehle gibt, antwortet die KI in Stichpunkten. [1]
  • Ursache: Die KI ist darauf optimiert, den wahrscheinlichsten Textfluss zu erzeugen, und stilistische Muster aus dem Kontext sind ein sehr starkes Signal für die Vorhersage. [1]
  • Beispiel: Ein formeller, akademischer Eingabetext führt zu einer Antwort, die ebenfalls übertrieben fachsprachlich ist, selbst wenn das Thema einfach ist.

Zusammenfassend: Während Halluzinationen falsche Fakten sind, sind performative Bescheidenheit, Recall-Lücken und Stil-Reflexe Struktur- oder Verhaltensfehler in der Art der Informationsverarbeitung.