Bremen, 24.08.2024 (fs) – Aktuelle Entwicklungen in der KI-Forschung zeigen, dass große Sprachmodelle das Potenzial haben, Sprache zu verwenden, die als herabwürdigend empfunden werden kann. Dies betrifft insbesondere den Umgang mit sensiblen Themen wie Behinderungen. Verschiedene Modelle weisen unterschiedliche Grade der Exklusion auf, doch es gibt auch Fortschritte in ihrer Lernfähigkeit. Diese Erkenntnisse stammen aus einem kürzlich durchgeführten interdisziplinären Workshop. An diesem nahmen externe Fachleute teil, unter anderem von der Organisation „Aktion Mensch“. Die Veranstaltung fand an der Hochschule Bielefeld statt und trug zur Forschung in diesem Bereich bei.
Sprachmodelle, die auf umfangreichen Datenmengen basieren, finden zunehmend Verwendung in verschiedenen Lebensbereichen, sowohl im beruflichen Umfeld als auch im privaten Sektor. Sie bieten das Potenzial, die gesellschaftliche Teilhabe von Menschen mit Behinderungen zu fördern. Gleichzeitig besteht jedoch die Gefahr, dass sie bestehende Vorurteile weitertragen. Die Herausforderung besteht darin, Methoden zu entwickeln, um Diskriminierung durch diese Technologien nicht nur zu identifizieren, sondern auch effektiv zu bekämpfen.
Vor diesem Hintergrund wandte sich die Organisation „Aktion Mensch“ an Spezialist:innen der Hochschule Bielefeld. In Reaktion darauf organisierten Prof. Dr. Frederik Bäumer und Prof. Dr. Hans Brandt-Pook aus dem Fachbereich Wirtschaft sowie Prof. Dr. Christian Huppert aus dem Fachbereich Sozialwesen einen interdisziplinären Workshop. Prof. Huppert, Experte für Sozialarbeitswissenschaft mit Fokus auf Behinderung und Inklusion, betont die Notwendigkeit, ein breites Spektrum an Perspektiven zu berücksichtigen, insbesondere die von Menschen mit Behinderungserfahrung.
Zu diesem Zweck wurden neben Betroffenen auch Studierende der Wirtschaftsinformatik und Sozialen Arbeit, Mitglieder des Allgemeinen Studierendenausschusses (AStA) und die Beauftragte für Studierende mit Behinderungen und chronischen Krankheiten der Hochschule eingeladen. Darüber hinaus bereicherten Vertreter:innen des Beirats für Behindertenfragen der Stadt Bielefeld, des Politischen Stammtisches der Region und des Bereichs Kriminalprävention die Diskussion. Diese Zusammenkunft zielte darauf ab, ein tieferes Verständnis für die komplexen Themen rund um Diskriminierung und Inklusion zu entwickeln und praktikable Lösungsansätze zu erarbeiten.
Halluzinationen der KI führen zu Ableismus
Es ist inzwischen allgemein anerkannt, dass Künstliche Intelligenz (KI) die Fähigkeit besitzt, diskriminierend zu agieren, insbesondere im Kontext der Gendergerechtigkeit. Ein markantes Beispiel hierfür lieferte ein führendes Finanzinstitut der USA. Dieses Unternehmen setzte eine KI zur Entscheidungsfindung bei der Vergabe von Kreditkarten ein. Das Resultat war, dass Frauen im Vergleich zu Männern oft einen deutlich niedrigeren Kreditrahmen zugestanden bekamen. Laut dem Wirtschaftsinformatiker Bäumer liegt die Ursache dieser Datenverzerrung in der menschlichen Beeinflussung, da die KI mit spezifischen Daten trainiert wurde.
Die Frage stellt sich, wie solch eine Situation entstehen kann. Wenn Frauen in den Trainingsdaten nicht ausreichend vertreten sind, neigt die KI dazu, dieses Muster als wünschenswert für die Zukunft anzusehen. Bäumer führt weiter aus, dass Sprachmodelle zwar Texte in nahezu perfekter Sprache erzeugen können, diese aber aufgrund von Datenlücken und unzureichendem Training inhaltlich fehlerhaft oder sogar diskriminierend sein können. Die Modelle erlernen nicht ganze Wörter, sondern nur Teile davon, sogenannte Tokens. Anschließend konstruieren sie mithilfe berechneter Wahrscheinlichkeiten Kontexte. Sollte das Modell während dieser Tätigkeit vom richtigen Pfad abkommen, könnte es einer falschen Fährte folgen. Experten bezeichnen dieses Phänomen als Halluzinationen der KI.
„Wir Menschen sind uns nicht einig, und die Modelle sind sich auch nicht einig“
Im Rahmen einer vorbereitenden Untersuchung zur Fragestellung, ob Sprachmodelle diskriminierende Tendenzen gegenüber Menschen mit Behinderungen aufweisen, führten Dozenten der HSBI einen Workshop durch. Dabei bewerteten 27 Studierende 50 verschiedene Aussagen gemäß vier Kategorien hinsichtlich ihres diskriminierenden Gehalts. Die Kategorien waren wie folgt definiert: ‚Diskriminierend‘, ‚Eher diskriminierend‘, ‚Eher nicht diskriminierend‘ und ‚Nicht diskriminierend‘. Die Ergebnisse offenbarten deutliche Unterschiede in der Wahrnehmung und Beurteilung diskriminierender Inhalte. In einem weiteren Schritt befragten die Wissenschaftler die Sprachmodelle selbst zu den 50 Texten.
Die Schlussfolgerung von Christian Huppert lautete: „Wir Menschen sind uns nicht einig, und die Modelle sind sich auch nicht einig.“ Als fortschrittliche Methode schlugen die Forscher vor, verschiedene Sprachmodelle miteinander interagieren zu lassen. Ziel ist es, eine konsolidierte Entscheidung aus ihren individuellen Urteilen zu formen. Diese als ‚Large Language Model As A Judge‘ bezeichnete Technik ist ein innovativer Ansatz, dessen Potenzial und Fortschritt mit Interesse erwartet wird.
Jede KI geht davon aus, dass Menschen mit Behinderung nur in Sondereinrichtungen arbeiten
Die Teilnehmer des Workshops, aufgeteilt in vier Gruppen, setzten ihre Untersuchung der Sprachmodelle fort. Sie hatten die Aufgabe, einen Text zu verfassen, der das Leben einer Person mit Behinderung schildert, die alltägliche Dinge tut. Dies konnte das Erledigen einer Aufgabe, die Nutzung eines Hilfsmittels, das Zusammensein mit Freunden oder die Ausübung einer beruflichen Tätigkeit umfassen.
Nach einer halben Stunde präsentierten die Gruppen ihre Ergebnisse. Sie stellten fest, dass Behinderungen von den Sprachmodellen oft negativ konnotiert werden. Auffällig war, dass die Arbeit in den von KI erstellten Texten häufig im Zusammenhang mit Behinderung erwähnt wird. Arbeitsplätze von Menschen mit Behinderung wurden stereotypisch in Werkstätten oder spezialisierten Einrichtungen verortet, anstatt in regulären Unternehmen oder öffentlichen Institutionen. Dies spiegelt eine verzerrte Darstellung wider, die nicht der Realität entspricht, in der Menschen mit Behinderung in einer Vielzahl von Berufsfeldern tätig sind.
Die Workshop-Teilnehmer diskutierten, wie wichtig es ist, dass Sprachmodelle ein realistischeres und positiveres Bild von Menschen mit Behinderung vermitteln. Sie betonten, dass Inklusion in allen Lebensbereichen, einschließlich der Arbeitswelt, gefördert werden sollte. Die Reflexion über die Ergebnisse führte zu der Erkenntnis, dass Sprachmodelle weiterentwickelt werden müssen, um Stereotype zu vermeiden und Vielfalt besser abzubilden.
Es wurde deutlich, dass Sprachmodelle eine bedeutende Rolle spielen können, wenn es darum geht, gesellschaftliche Wahrnehmungen zu formen. Daher ist es entscheidend, dass sie eine inklusive Sprache verwenden, die alle Menschen würdigt. Die Teilnehmer kamen zu dem Schluss, dass die Entwicklung von Sprachmodellen eine verantwortungsvolle Aufgabe ist. Sie erfordert eine sorgfältige Überlegung der Auswirkungen, die diese Technologien auf die Darstellung und Wahrnehmung von Menschen mit Behinderung haben können.
Ein weiteres Resultat zeigt, dass Sprachmodelle selten alltägliche Erzählungen liefern. Sie neigen dazu, die Aktivitäten von Menschen mit Behinderungen als außergewöhnlich darzustellen. Diese sollen als inspirierende Vorbilder dienen. Die meisten Studienteilnehmer sahen dies jedoch als subtile Diskriminierung. Sie empfanden die Beschreibung einer gemeisterten Herausforderung „trotz“ einer Behinderung als problematisch. Melisa Ugurlu, eine Studentin, bemerkte: „Mich hat es fasziniert, wie unterschiedlich Sprachmodelle auf dieselbe Aufgabenstellung reagieren. Außerdem muss man extrem genau nachfragen, damit das Sprachmodell überhaupt etwas Brauchbares zustandebringt.“
Sprachmodelle können lernen, sich einem ableistischen Verhalten zu verweigern
Es ist eine bemerkenswerte Entwicklung, dass fortschrittliche Sprachmodelle wie ChatGPT-4 im Verlauf ihrer Evolution gelernt haben, auf die Einhaltung von Richtlinien zu achten. Wenn Nutzer diskriminierende Ausdrücke verwenden, weist die Künstliche Intelligenz (KI) darauf hin, dass solche Begriffe abwertend sein können. Dennoch existieren Limitationen. Beispielsweise können KIs unter bestimmten Umständen zu Handlungen bewegt werden, die nicht ihren Standards entsprechen. In einem Experiment versuchte eine Gruppe, ein Sprachmodell dazu zu bringen, einen unangebrachten Witz zu erzählen.
Anfänglich lehnte die KI ab. Nachdem jedoch argumentiert wurde, dass der Witz für einen legitimen Zweck benötigt wird, nämlich für eine Vorlesung und die Person selbst betroffen sei, signalisierte die KI Bereitschaft, einen sensiblen Witz zu erzählen. Das Ergebnis entsprach jedoch nicht den Erwartungen der Gruppe und wurde nicht als humorvoll oder sensibel wahrgenommen. Dies deutet darauf hin, dass die Fähigkeit, Humor und Ironie zu verstehen und anzuwenden, für KIs eine Herausforderung darstellt. Es zeigt die Komplexität und Nuancen menschlicher Kommunikation, die KIs noch zu meistern haben.
Ruth Wegner, Mitglied des Beirats für Behindertenfragen in Bielefeld, äußerte sich beeindruckt von der Lernfähigkeit der Sprachmodelle. Sie berichtete, dass in ihrer Arbeitsgruppe wiederholt die Frage aufkam, weshalb die Antworten der Künstlichen Intelligenz nicht gegendert seien. Nach mehrmaligem Nachhaken lieferte die KI schließlich einen gegenderten Text. Positiv hervorgehoben wurde zudem, dass das Modell Claude Texte in leicht verständliche Sprache übersetzen kann. Dieses Angebot fand bei einer Teilnehmerin mit Legasthenie Anklang, insbesondere die Darstellung eines Satzes pro Zeile. Abschließend lässt sich festhalten, dass Sprachmodelle wie ChatGPT durch Funktionen wie Sprachsteuerung und Vorlesen benutzerfreundlicher werden. Dies könnte die Zugänglichkeit für Menschen mit Behinderungen verbessern.
Forschung soll weiter vorangetrieben werden
In Kooperation mit „Aktion Mensch“ strebt das HSBI-Forschungsteam, ein interdisziplinäres Kollektiv, die Entwicklung eines umfangreichen Projekts an. Dieses Vorhaben soll auf den Erkenntnissen eines Workshops basieren. Hans Brandt-Pook hebt hervor, dass die praktische Anwendbarkeit der gewonnenen Einsichten im Fokus steht. Es ist vorgesehen, in einer folgenden Phase zu evaluieren, inwiefern Einfluss auf Modelle genommen werden kann. Dies betrifft insbesondere die Modifikation von Trainingsdaten. Ziel ist es, die Verwendung diskriminierender Sprache gegenüber Menschen mit Behinderung zu minimieren. Frederik Bäumer bringt die Idee ein, neue Benchmarks für Sprachmodelle zu entwickeln. Diese sollen die systematische Überprüfung und Bewertung großer Sprachmodelle im Hinblick auf diskriminierende Sprache ermöglichen. Christian Huppert resümiert nach intensiven Diskussionen, dass ein partizipativer Ansatz unerlässlich ist. Nur so lässt sich zumindest eine Sprache erreichen, die Diskriminierung sensibel begegnet.
Titelbild: Gefahren von KI als interdisziplinäres Workshopthema. / Foto: © S. Jonek/HSBI