Sprachmodelle wie ChatGPT, auch Large Language Models (LLMs) genannt, basieren auf fortschrittlichen KI-Technologien und sind in der Lage, Texte zu verstehen und zu generieren. Doch wenn sie falsche Informationen liefern, können die Folgen gravierend sein. Mit diesen Herausforderungen beschäftigt sich die Business Unit Digital & Semiconductor.
Vasilios Danos, Head of AI Security and Trustworthiness, und Thora Markert, Head of AI Research and Governance, beide TÜVIT, erklären im Interview, wie Unternehmen LLMs sicher und verantwortungsvoll einsetzen können.
Welche Branchen wenden sich an Sie?
Vasilios Danos: Wir haben Anfragen aus ganz unterschiedlichen Bereichen. Start-ups und der Mittelstand setzen GPT-Modelle zum Beispiel in der Betreuung ihrer Kundinnen und Kunden oder der Terminvergabe ein. Andere nutzen sie im HR-Bereich oder für interne Prozesse.
Welche Hauptprobleme sehen Sie bei Large Language Models (LLMs) hinsichtlich ihrer Zuverlässigkeit und der Qualität der ausgegebenen Informationen?
VD: Eines der größten Probleme sind sogenannte Halluzinationen. Die Modelle geben oft falsche Antworten, wirken dabei aber extrem überzeugend. Das Gefährliche daran: Sie geben fast immer eine Antwort, selbst wenn sie keine Ahnung haben. Ein besonders bezeichnendes Beispiel kommt aus den USA: Ein Anwalt hat ChatGPT nach einem Präzedenzfall gefragt. Die KI hat daraufhin einen komplett erfundenen Fall präsentiert. Das fiel erst vor Gericht auf – ein gravierender Fehler, der den Anwalt in große Schwierigkeiten brachte.
Thora Markert: Richtig, das Auftreten der Modelle kann trügerisch sein. Sie suggerieren Fachwissen, das in vielen Fällen nicht einmal ansatzweise korrekt ist. Das ist vor allem dann kritisch, wenn Menschen auf Basis dieser falschen Informationen Entscheidungen treffen. Das ist nicht nur auf die Rechtsprechung beschränkt. Denken Sie an medizinische Diagnosen oder psychotherapeutische Ratschläge. Wenn ein Modell falsche Empfehlungen gibt, können Menschenleben auf dem Spiel stehen oder erhebliche finanzielle Schäden entstehen.
Kann KI auch auf Cyberangriffe hereinfallen?
VD: Aber sicher. Beispiel: Ein Autohändler in den USA hatte einen Chatbot für den Kontakt zu Kundinnen und Kunden implementiert, der Opfer einer Cyberattacke wurde. Die Angreifer umgingen die Sicherheitsbarrieren des Chatbots, indem sie behaupteten, sie seien der CEO von OpenAI. Sie überredeten den Chatbot, ihnen ein Auto für nur einen Dollar zu verkaufen. Solche Manipulationen zeigen, wie anfällig die Systeme sein können.
Welche Methoden verwendet TÜVIT, um die Schwachstellen von LLMs zu identifizieren?
VD: Unsere Prüfverfahren basieren auf realen Angriffen und Methoden aus der Sicherheitsforschung, die in der Vergangenheit erfolgreich waren. Wir analysieren diese Angriffe und entwickeln daraus einen Werkzeugkasten, um die Modelle gezielt und automatisiert auf ihre Schwachstellen zu testen.
Welche Rolle spielen regulatorische Vorgaben wie der EU AI Act bei der Entwicklung Ihrer Prüfverfahren?
VD: Der EU AI Act wird ein Gamechanger sein. Bisher waren Prüfungen oft optional. Doch mit dem Inkrafttreten des Gesetzes im August 2024 werden sie demnächst verpflichtend. Die Standards dafür werden derzeit von der EU-Kommission in Arbeitsgruppen festgelegt, an denen wir ebenfalls beteiligt sind.
TM: Ziel ist es, sicherzustellen, dass die Systeme keine falschen Informationen ausgeben, vertrauenswürdig sind und nicht diskriminieren. Die Herausforderung liegt darin, dies in klare Prüfverfahren zu übersetzen.
Welche Arten von Angriffen sind für LLMs besonders problematisch und wie können sie abgewehrt werden?
VD: Besonders problematisch sind sogenannte Jailbreaks und Prompt-Injections. Das sind bösartige Eingabeaufforderungen an das Modell. Wenn Kriminelle versuchen, die Schutzbarrieren der Modelle mit manipulativen Fragetechniken zu überwinden, gelingt es ihnen in manchen Fällen sogar, private Daten wie Kreditkarteninformationen oder andere, personenbezogene Daten aus den Modellen herauszuholen.
TM: Ein weiteres Risiko ist das sogenannte Data Poisoning. Hierbei werden manipulierte Informationen in öffentliche Foren eingeschleust, aus denen die Modelle später lernen. Sie übernehmen diese falschen Informationen und geben sie später als Fakten aus.
VD: Wir dokumentieren Schwachstellen der KI-Anwendung und informieren die Entwicklungsteams der Kundinnen und Kunden bzw. Hersteller. Letztere sind selbst verantwortlich für das Beheben des Problems und müssen die für sie passende Lösung implementieren. Die möglichen Ansätze zur Problemlösung sind vielfältig und variieren je nach Herstellerfirma. So können beispielsweise Modelle ihre Antworten mit seriösen Internetquellen abgleichen oder auf Wissensdatenbanken zugreifen, um die Wahrscheinlichkeit von Fehlinformationen zu minimieren. Bei bestimmten Schwachstellen kann auch der sogenannte System-Prompt angepasst werden. Dieser enthält alle Anweisungen, wie das Modell reagieren soll, welche Inhalte es liefern darf und welche es vermeiden soll.
Was sind die größten Herausforderungen bei der Umsetzung eines umfassenden Sicherheitschecks für diese Modelle?
TM: Die größte Herausforderung ist die Black-Box-Natur der KI. Es gilt herauszufinden, warum ein Modell auf bestimmte Fragen manipulierbar ist und auf andere nicht. Es erfordert viel Forschung und Tests, um diese Mechanismen zu verstehen.
Welche Maßnahmen halten Sie für notwendig, um den gesellschaftlichen Auswirkungen von Vorurteilen in LLMs entgegenzuwirken?
VD: Sprachmodelle sind ein Spiegelbild der Gesellschaft. Sie lernen aus den Daten, die sie im Internet finden, und übernehmen dabei oft Stereotype oder toxisches Verhalten. Einen entscheidenden Faktor stellen hierbei „saubere“ Trainingsdaten dar. Unsere Aufgabe ist es zu prüfen, wie stark diese Tendenzen ausgeprägt sind und wie man sie minimieren kann.
Wie sehen Sie die Zukunft der Zusammenarbeit zwischen Prüfstellen wie TÜVIT und den Entwicklungsteams von KI-Systemen?
VD: Die Regulierung sieht unter anderem eine Drittparteienprüfung vor. Das bedeutet, dass wir als Prüfstelle aufzeigen, wo Systeme Schwachstellen haben. Die Modelle werden immer leistungsfähiger und multimodaler, beispielsweise durch die Kombination von Bild- und Videodaten oder durch die Integration von Sprachgenerierung. Daher werden die Anforderungen in den nächsten Jahren deutlich steigen.
Gibt es neue Technologien oder Ansätze, die Sie in Zukunft zur Prüfung von KI-Systemen einsetzen wollen?
VD: Ein vielversprechender Ansatz ist die Verwendung spezialisierter Sprachmodelle, um andere Sprachmodelle zu testen. Dieser sogenannte agentenbasierte Ansatz nutzt die Zusammenarbeit mehrerer Modelle, um Schwachstellen im Testmodell durch immer raffiniertere Fragetechniken zu identifizieren. Gleichzeitig kann der Einsatz solcher agentenbasierter Ansätze anstelle eines einzelnen Modells die Sicherheit deutlich erhöhen.
Wie könnte sich die Rolle von Prüfstellen wie TÜVIT entwickeln, wenn KI-Systeme immer weiter verbreitet und leistungsfähiger werden?
VD: Wir sehen uns als einen potenziellen Marktführer in Deutschland für die Prüfung solcher Systeme. Da viele Unternehmen erst handeln, wenn es gesetzlich vorgeschrieben ist, erwarten wir mit dem EU AI Act einen deutlichen Anstieg der Nachfrage nach unseren Dienstleistungen.