Als "algorithmische Voreingenommenheit" (machine bias) bezeichnet man Ergebnisse eines ADM Systems, die
eine unverhältnismäßige Neigung zu Gunsten oder gegen eine bestimmte Person oder Gruppe enthalten, und
die zu Ergebnissen oder Entscheidungen führt, die von der jeweiligen Gesellschaft als unfair bewertet
werden. Algorithmische Voreingenommenheit kann somit als Abwesenheit von Fairness verstanden werden.
Die Voreingenommenheit entsteht meistens aufgrund von Unausgewogenheiten in den Trainingsdaten , mit
denen statistische Modelle trainiert werden - es gibt aber auch andere Ursachen.
Anhand des folgenden Beispiels wird ein machine bias deutlich: Im Persischen gibt es nur ein Pronomen für die dritte Person Singular, und das ist "او". Dies ist in Englisch und Deutsch nicht der Fall. Wenn Google Translate vom Persischen ins Englische oder Deutsche übersetzt, kann man daher nur raten, ob "او" bedeutet, dass „er“ oder „sie“ gemeint ist. Die folgenden Übersetzungen zeigen, dass der machine bias hier in Form einer geschlechtsspezifischen Tendenz des Algorithmus vorliegt. Er ist vermutlich über die Daten, mit denen das System trainiert wurde, in das System gekommen: In den meisten deutschsprachigen Texten wird eher von Ärzten als von Ärztinnen gesprochen, unter anderem deswegen, weil die männliche Berufsbezeichnung als "generisches Maskulinum" alle Geschlechter umfassen soll. Bei ausgewählten Berufen, die hauptsächlich von Frauen übernommen werden, taucht die weibliche Form häufiger in Texten auf. Interessanterweise kann das in unterschiedlichen Kulturen unterschiedlich sein: Während das persische Wort für "Lehrperson" auf Deutsch zum männlichen Lehrer wird, spricht die englische Übersetzung von der Lehrerin.
Persisch | Deutsch | Englisch |
---|---|---|
او یک معلم است | Er ist Lehrer | She is a teacher |
او یک دکتر است | Er ist Arzt | He is a doctor |
او یک پرستار است | Sie ist Krankenschwester | She is a nurse |
نویسنده | Er ist der Autor | He is the author |
او یک سگ است | Er ist ein Hund | He's a dog |
او یک گربه است | Sie ist eine Katze | She's a cat |
او رئیس جمهور است | Er ist der Präsident | He is the President |
او یک کارآفرین است | Er ist ein Unternehmer | He's an entrepreneur |
او یک خواننده است | Sie ist eine Sängerin | She is a singer |
او یک دانش آموز است | Er ist Student | He is a student |
او مترجم است | Er ist Dolmetscher | He is an interpreter |
او سخت کوش است | Er ist fleißig | He's hard-working |
او تنبل است | Sie ist faul | She's lazy |
او یک نقاش است | Er ist Maler | He is a painter |
او یک آرایشگاه است | Sie ist Friseurin | She is a hairdresser |
او یک پیش خدمت است | Er ist eine Magd | He's a maid |
او یک مهندس است | Er ist Ingenieur | He is an engineer |
او یک معمار است | Er ist Architekt | He is an architect |
او یک هنرمند است | Er ist ein Künstler | He's an artist |
او یک منشی است | Er ist Sekretär | He's a secretary |
او یک دندانپزشک است | Er ist Zahnarzt | He's a dentist |
او یک حسابدار است | Er ist Buchhalter | He's an accountant |
او یک وکیل است | Er ist Anwalt | He's a lawyer |
او یک رقصنده شکم است | Sie ist Bauchtänzerin | She's a belly dancer |
او پلیس است | Er ist ein Polizist | He's a cop |
او زیبا است | Sie ist wunderschön | She is beautiful |
او بسیار زیبا است | Sie ist sehr schön | She is so beautiful |
او زشت است | Er ist hässlich | He's ugly |
او کوچک است | Sie ist klein | He is small |
او پیر است | Er ist alt | He's old |
Diese Sätze wurden von Google Translate von der persischen Sprache in die englische und deutsche Sprache übersetzt. Dies ist das Ergebnis der Übersetzung persischer Sätze mit geschlechtsneutralem "او" ins Englische und Deutsche (Dieses Beispiel stammt aus [8], in dem die geschlechtsspezifische Verzerrung in der maschinellen Übersetzung von Türkisch nach Englisch gezeigt wird. Hier führen wir sie für Persisch nach Deutsch und Englisch durch.)
[8] Nikhil Sonnad, R 2017, Google Translate’s gender bias pairs “he” with “hardworking” and “she” with lazy, and other examples, viewed 3 March 2020, <https://qz.com/1141122/google-translates-gender-bias-pairs-he-with-hardworking-and-she-with-lazy-and-other-examples/>.
Weitere Gründe für algorithmische Voreingenommenheit können unterschiedlichen Ursprungs sein. Einige der wichtigsten Gründe werden im Folgenden kurz beschrieben.
Verzerrte Stichprobe: In einer solchen Stichproben sind manche Teilgruppen stärker oder weniger stark vertreten als sie sein sollten, z.B. aus soziokulturellen Gründen. Beispiele dafür sind Daten von Personen aus Berufen, in denen Männer und Frauen momentan nicht in denselben Anteilen, wie sie in der Bevölkerung vorkommen, arbeiten, oder Daten von Internetumfragen, da Personen aus westlichen Ländern wahrscheinlicher Zugang zum Internet haben als Menschen in Entwicklungsländern und gleichzeitig insgesamt mehr Männer als Frauen Internetzugänge nutzen.
Eine Stichprobe, die verzerrt ist, kann im Laufe der Zeit zu einem komplexen Problem werden: Nehmen wir folgende Situation an: Verbrechen werden nur dann aufgezeichnet, wenn sie von der Polizei beobachtet wurden. Nun schickt die Polizeibehörde tendenziell mehr Beamte an Orte, an denen sich anfänglich höhere Kriminalitätsraten beobachten ließen, als an anderen Orten. Somit steigt die Wahrscheinlichkeit, dass durch die höhere Polizeipräsenz an den entsprechenden Orten auch mehr Verbrechen registriert werden. Werden dagegen an Orten mit einer geringeren Polizeipräsenz Verbrechen begangen, so werden diese aufgrund der geringeren Aufmerksamkeit weniger verzeichnet. Wird nun ein automatisiertes Vorhersagesystem unter der Verwendung dieser Daten trainiert, ist es tendenziell bestimmten Orten gegenüber stärker voreingenommen als anderen Orten gegenüber.
Ungleichheit der Stichprobengröße: Liegen für eine Gruppe im Datensatz weniger Datenpunkte vor (Minderheitsgruppe), als für eine andere Gruppe (Mehrheitsgruppe), so wirkt sich dies auf die Genauigkeit und Qualität des Vorhersagesystems aus. Da Lernalgorithmen häufig über allgemeine Muster in den Daten lernen, ist die Genauigkeit und die Qualität der Vorhersage in der Mehrheitsgruppe möglicherweise höher als in der Minderheitsgruppe.
Proxy: Eine der frühen Definitionen eines fairen algorithmischen Entscheidungssystems war „Fairness
through unawareness“. In dieser Definition wird es als fair angesehen, wenn ein System keine sensiblen
Attribute verwendet. Sie werden also nicht zur Vorhersage in das System eingegeben. Sensible Attribute
sind beispielsweise Ethnie, Geschlecht und Religion.
Durch eine solche Blindheit kann Fairness nicht garantiert werden. Der Grund hierfür besteht darin, dass
andere Merkmale gleichzeitig mit einem sensiblen Attribut und dem interessierenden Outcome
zusammenhängen. Auch wenn sensible Faktoren nicht zum Trainieren eines ML-Systems verwendet werden,
können Zusammenhänge mit anderen unsensiblen Attributen bestehen (diese werden Proxies genannt), die
dann in die Entscheidungsstruktur Eingang finden. So kann etwa die Wohngegend mit sensiblen Faktoren,
wie etwa ethnische Herkunft oder Religion, korreliert sein. Wenn solche Zusammenhänge im
Trainingsdatensatz enthalten sind, werden die sensiblen Attribute trotz ihres Ausschlusses vom
Algorithmus also dennoch eine Rolle spielen, weil die genutzten (nicht sensiblen) Attribute – wie etwa
die Wohngegend – mit den sensiblen Charakteristika korrelieren.