Auch Kisha kriegt keinen Kredit - Digitale Gesellschaft

Diskriminierung und Benachteiligung durch Scoring und automatisierte Entscheidungssysteme

Algorithmen bzw. automatisierte Entscheidungssysteme im Allgemeinen und Scoring-Systeme im Besonderen haben oft diskriminierende Wirkung und schreiben die Benachteiligung von Gruppen und Minderheiten fort oder verstärken sie sogar. Mensch spricht deshalb von der «Automatisierung der Ungleichheit». Darüber hinaus führt gerade Scoring zur Etablierung und Zementierung von Machtungleichgewichten.

Diskriminierende Effekte der Kredit-Scores sind vor allem in den USA dokumentiert, insbesondere gegenüber schwarzen Menschen (in diesem Text wird auf «schwarze Menschen» referenziert, da diese oft noch stärker diskriminiert werden als BIPoC, «Black, Indigenous and People of Color»; der Begriff BIPoC wäre also zu unscharf).

«Classic FICO» ist einer von vielen Kredit-Scores in den USA. Er diskriminiert schwarze Menschen durch die Auswahl der Sachverhalte, die für seine Berechnung berücksichtigt werden. Er betont traditionelle Kreditformen, zu denen Weisse besseren Zugang haben als Schwarze. Er belohnt die pünktliche Bezahlung von Rechnungen für Miete, Strom, Wasser oder Telefon nicht, bestraft aber die verspätete Bezahlung. «Medizinische» Schulden werden negativ bewertet, auch wenn sie in der Zwischenzeit beglichen wurden.

Es werden somit schwarze Menschen nicht direkt durch die Berücksichtigung der Hautfarbe diskriminiert, was verboten ist. Vielmehr wirken sich ihre typischen Lebens- und finanziellen Umstände negativ auf ihre Kredit-Scores aus. Es gibt also sogenannte Stellvertreterattribute (engl. proxies), die sehr starke Zusammenhänge mit der Hautfarbe aufweisen und deren Verwendung bei der Score-Berechnung diskriminierende Wirkung hat.

Es gibt offenbar Diskriminierung schwarzer Menschen über den Kredit-Score hinaus. So berichten Martinez und Kirchner von einem (repräsentativen) Fall, in dem eine Hypothek trotz sehr guter Kredit-Scores der Bewerber:innen mehrfach abgelehnt wurde. Die beiden verdienten jeweils sechsstellige Gehälter und die Hypothekenraten wären geringer gewesen als die Miete, die sie bisher zahlten. Es gibt in Scoring-basierten Entscheidungssystemen also zusätzliche Diskriminierung, die dann greift, wenn der Score gut ist und für eine positive Entscheidung spricht. Wie diese Entscheidungen zustande kommen, kann aufgrund der Intransparenz der Entscheidungssysteme nicht nachvollzogen werden.

In einem anderen Fall wurde die Apple Card der Diskriminierung von Frauen beschuldigt. Ein Unternehmer aus der Tech-Branche hatte öffentlich gemacht, dass das Kreditlimit seiner Karte zehn mal so hoch war wie das seiner Frau, obwohl sie ihr Vermögen gemeinsam besassen und seine Frau einen höheren Kredit-Score hatte. Als eine mögliche Erklärung wurde genannt, dass Personen, die ein hohes Einkommen haben und ihre Kreditkarte oft benutzen, ein höheres Kreditlimit bekommen als jemand mit einem hohen Kredit-Score und einem hohen Einkommen, der die Karte jedoch selten nutzt.

Auch im amerikanischen Gesundheitswesen werden schwarze Menschen diskriminiert. Ein Algorithmus etwa berechnete Vorhersagen des zukünftigen Bedarfs an medizinischen Leistungen auf Basis vergangener Gesundheitskosten. Da schwarze Menschen schlechteren Zugang zur Gesundheitsversorgung hatten – und noch immer haben – als Weisse, spiegelt sich das in wesentlich tieferen Ausgaben für Erstere wider. Daraus «folgerte» der Algorithmus, dass sie weniger krank seien und somit weniger medizinische Leistungen bräuchten.

Ohne diesen Bias wäre das Resultat, dass mehr als doppelt so viele schwarze Menschen zusätzliche medizinische Hilfe benötigten. Entscheidend ist hier, dass strukturelle Ungerechtigkeit aus der Vergangenheit reproduziert bzw. in die Zukunft interpoliert wird, indem eine algorithmische Entscheidung auf vermeintlich neutrale statistische Daten abgestützt wird.

Ein weiter aufsehenerregender Fall ereignete sich im Personalwesen von Amazon. Dort wurden Bewerber:innen mit einem Score von 1 bis 5 bewertet. Der Scoring-Algorithmus basierte auf den Daten vergangener Anstellungen. Er machte mittels der Scores Vorhersagen, wie erfolgreich der oder die Bewerber:in sein würde. Da auch unter den Angestellten von Amazon Männer bei Weitem überrepräsentiert sind, bewertete der Algorithmus diese durchweg mit wesentlich höheren Scores als Frauen. Auch hier wurde also vergangene Diskriminierung durch Scoring in die Zukunft fortgeschrieben und verfestigt. Amazon stellte die Verwendung des Algorithmus deshalb ein.

Algorithmen werden zunehmend nicht nur von Privaten für die (Semi-)Automatisierung von Bewerbungs- oder Bewertungsprozessen eingeführt, sondern auch von staatlichen Akteuren im Bereich des Arbeits- und Sozialwesens; und auch dort ist Diskriminierung anzutreffen. So verwendete das polnische Ministerium für Arbeit und Soziales einen Algorithmus, um Arbeitssuchende in drei Kategorien einzuteilen (also relativ grobe Scores). Für die Personen in der untersten Kategorie (ca. ein Drittel) wurden nur sehr geringe Chancen für eine erfolgreiche Stellensuche vorhergesagt, ihnen wurden deshalb keine oder nur wenige Fördermassnahmen zugesprochen. Die Personen, die Fördermassnahmen am stärksten benötigten, bekamen diese also gerade nicht. Auch in Österreich (dort bekannt unter dem Namen «AMS-Algorithmus») und Holland waren vergleichbare Algorithmen im Einsatz.

In Los Angeles und anderen US-amerikanischen Städten werden Scores eingesetzt, um die Bedürftigkeit von Wohnungslosen und -suchenden zu berechnen. Subventionierte Wohnungen werden dann der Person oder Familie mit dem höchsten Score zugewiesen, sofern alle anderen Parameter gleich sind. Es ist nicht nur bekannt, dass dieses System schwarze Menschen diskriminiert, sondern diese Diskriminierung ist der zuständigen Behörde (LAHSA) auch bewusst. Man arbeite an einer Neuentwicklung des Systems, benutzt es aber offensichtlich trotzdem weiter.

Ein weiterer Anwendungsfall von Scoring und ADMS im Arbeits- und Sozialwesen ist die Berechnung von Risk-Scores, die die Wahrscheinlichkeit berechnen, mit der Transferleistungen unrechtmässig geleistet wurden, was oft als Sozialhilfebetrug bezeichnet wird. Die Stadt Rotterdam verwendete einen solchen Risk-Score für ihre Sozialhilfebezüger. Sozialhilfebezüger mit einem hohen Risk-Score fanden sich mit Leistungskürzungen und hohen Rückzahlungsforderungen konfrontiert. Durch eine Analyse des Systems fanden Experten jedoch heraus, dass es auf Basis von ethnischer Zugehörigkeit und Geschlecht diskriminiert. Ausserdem ergaben sich starke Hinweise darauf, dass das Scoring-System unkorrekte und unfaire Ergebnisse produzierte. Das System wurde deshalb als «Verdachtsmaschine» (Suspicion Machine) bezeichnet.

Ein weiteres niederländisches System berechnete Risk-Scores im Bereich der Kinder- und Familienzulagen. Zahlreiche Personen und Familien wurden fälschlicherweise des Betrugs beschuldigt und mit horrenden Rückzahlungsforderungen konfrontiert. Dieser Skandal führte daraufhin zum Rücktritt der gesamten niederländischen Regierung.

Midas war ein System zur algorithmischen Erkennung von Betrugsfällen in der Arbeitslosenversicherung von Michigan. Auch dort wurden zahlreiche Personen fälschlicherweise des unberechtigten Bezugs von Unterstützung angeklagt, und massive Rückforderungen wurden gestellt.

Im Bereich der Strafverfolgung bzw. der sogenannten Kriminalitätsprävention werden ebenfalls Risk-Scores verwendet. Eine betroffene niederländische Mutter berichtet, dass ihre beiden Söhne auf den Top-400 bzw. Top-600-Listen von Jugendlichen mit einem hohen Risiko zukünftiger Delikte landeten. Während der Zweck dieser Listen gemäss der zuständigen Behörden die Prävention mittels unterstützender Hilfsmassnahmen sein soll, ist die Realität eine andere. Jugendliche landen auf der Liste oft aufgrund von falschen Daten oder subjektiven Angaben. Jugendliche mit Migrationshintergrund und/oder nicht-holländischer, z.B. marokkanischer oder surinamesischer Abstammung bekamen einen höheren Risk-Score und landeten somit eher auf einer der Listen als ihre Altersgenossen rein holländischer Abstammung. Einmal auf der Liste, wurden diese Jugendlichen öfter kontrolliert, verdächtigt oder sogar verhaftet.

Risk Scores werden ausserdem in der Strafverfolgung verwendet, um die Wahrscheinlichkeit weiterer Delikte in der Zukunft zu berechnen. Diese Scores beeinflussen, welcher Delinquent wann entlassen werden kann und wer auf Kaution freigelassen werden kann. In einigen US-amerikanischen Bundesstaaten werden Scores den Richtern bei der Urteilsfindung bekanntgegeben, und sie haben Einfluss auf die Wahl der gewährten Resozialisierungsmassnahmen. Auch diese Scores diskriminieren schwarze Menschen. In vielen Fällen wird die Rückfallwahrscheinlichkeit von Weissen unterschätzt, die von schwarzen Menschen überschätzt. Die diesen Risk-Scores innewohnende Diskriminierung war sogar Eric Holder, dem Justizminister Präsident Obamas, bewusst:

Ich bin besorgt, dass sie [die Scores] unvermeidlich unsere Bemühungen um individualisierte und gerechte Justiz unterminieren. … sie könnten die ungewollten und ungerechten Ungleichheiten verschärfen, die bereits zu stark in unserem Justizwesen und unserer Gesellschaft vorhanden sind («…am concerned that they inadvertently undermine our efforts to ensure individualized and equal justice,» he said, adding, «they may exacerbate unwarranted and unjust disparities that are already far too common in our criminal justice system and in our society.»)

Automatisierung und Skalierung der Ungleichheit

Diskriminierung entsteht selten allein durch Scoring und automatisierte Entscheidungssysteme. Sie wird aber durch diese Praktiken verfestigt und zum Teil auch verstärkt. Durch diskriminierende und oft falsche automatisierte Entscheidungen wird ausserdem die Benachteiligung bereits benachteiligter Menschen und Gruppen fortgeschrieben. Virginia Eubanks spricht deshalb von der «Automatisierung der Ungleichheit»: Benachteiligung aufgrund von Hautfarbe, Geschlecht, Klassenzugehörigkeit etc. wird automatisiert und damit perpetuiert. Andere Berichte sprechen von «automatisiertem Elend» oder «automatisierter Vernachlässigung».

Das Scoring und das maschinelle Lernen auf Basis vergangener Daten erwecken den Eindruck von Objektivität und Vorurteilsfreiheit; die Schlagworte faktenbasiert (fact-based) und datengetrieben sind äusserst positiv besetzt und suggerieren unparteiische, rein rationale und wertfreie Entscheidungen. Die in der Vergangenheit praktizierte Diskriminierung steckt jedoch auch in den vergangenen Daten und wird somit dem algorithmischen System antrainiert. Ausserdem gibt es in jedem Entscheidungs- und Scoring-System Entwurfsentscheidungen, die in der Regel die Einstellungen, Werte und eben auch Vorurteile der Auftraggeber, Architektinnen und Entwickler dieser Systeme widerspiegeln: z.B. welche Parameter werden berücksichtigt und wie werden sie gewichtet?

Die negative Wirkung der Automatisierung wird verstärkt durch den Umstand, dass algorithmische, computergestützte Automatisierungen skalieren, d.h. sie können ohne grössere Probleme viele Fälle gleichzeitig oder in der gleichen Zeit bearbeiten, ohne dass dadurch die Effizienz leidet. Während das Ausmass der Diskriminierung durch Sachbearbeiter:innen durch die Anzahl und Kapazität der Sachbearbeiter:innen limitiert ist, ist Diskriminierung durch Computersysteme praktisch unbegrenzt. Die Eigenschaft der Skalierung ist (nach Cathy O’Neil) ein Merkmal der Mathevernichtungswaffen (Weapons of Math Destruction).

In allen oben bereits erwähnten Fällen hat die Automatisierung, insbesondere im Scoring, massiv negative Auswirkungen auf die Betroffenen. Die Scoring-basierten automatisierten Entscheidungen greifen in die Lebenswege der betroffenen Menschen ein und verringern ihre Entwicklungsmöglichkeiten. Ein schwarzes Ehepaar kann das Haus wegen des nicht gewährten Kredits nicht kaufen und der damit verbundene soziale Aufstieg bleibt ihnen verwehrt. Gute Informatikerinnen bekommen nicht mal die Gelegenheit zum Interview, weil sie vom Algorithmus aufgrund ihres Geschlechts aussortiert werden; berufliche Karrieren, die aufgrund ihrer Ausbildung und Fähigkeiten möglich wären, bleiben ihnen so verwehrt. Schüler:innen aus nicht-privilegierten Familien bleiben Bildungszugänge versperrt, weil es Algorithmen so entscheiden.

Alle oben erwähnten Berichte über Scoring und automatisierte Entscheidungen im Sozialbereich beschreiben die drastischen Konsequenzen für die Betroffenen. Rückforderungen sind oft derart massiv, dass die Beschuldigten diese nicht leisten können, sich stark verschulden und in der Summe noch weiter in Armut getrieben werden. Anstatt sich um Arbeitsstellen oder um sonstige Verbesserung ihrer Situation kümmern zu können, sind sie damit beschäftigt (und oft überfordert), sich gegen Vorwürfe zu wehren und Einsprüche durchzufechten. In vielen Fällen sind Krankheiten, Depressionen oder sogar Suizidgedanken und -versuche die Folge.

Besonders krass sind die Auswirkungen der Risk-Scores und ihrer inhärenten Diskriminierung im Strafverfolgungsbereich. Jugendliche werden aufgrund ihrer ethnischen Zugehörigkeit, Hautfarbe oder Muttersprache möglicherweise kriminalisiert. Ein schwarzer Mann muss vielleicht nur aufgrund seiner Hautfarbe länger im Gefängnis bleiben.

Machtungleichgewichte und ihre Zementierung

Es handelt sich bei der algorithmischen Diskriminierung und Benachteiligung nicht um eine bedauerliche, aber zufällige Sammlung von Einzelfällen oder um «Bugs», die mensch durch eine Umprogrammierung beheben könnte, sondern um systemische Probleme. Diskriminierung und automatisierte Ungleichheit sind vielmehr Symptome von mehrschichtigen Machtverhältnissen.

Die erste offensichtliche Ebene von Macht ist die, auf der entschieden wird, was automatisiert wird und wo Scoring-Verfahren eingesetzt werden. Warum werden Risk-Scores für «Sozialhilfebetrug» berechnet, aber nicht für Steuerhinterziehung? Bei der Steuer wäre ja wesentlich mehr Geld einzuspielen, und Algorithmen könnten hier mindestens so gut trainiert werden wie im Sozialwesen.

Die nächste Ebene ist die der Definition von Scores. Welche Daten werden berücksichtigt, welche Parameter und wie werden sie gewichtet? Beim überwachten maschinellen Lernen (das bei den hier betrachteten Verfahren eingesetzt wird) geht ja eine Klassifikation durch Menschen voraus, d.h. Menschen definieren, wann Sozialbetrug vorliegt und wann nicht, welche Arbeitnehmer:innen erfolgreich sind und welche nicht. Der Algorithmus lernt dann, diese Fälle anhand der vorliegenden Daten vorherzusagen. Das heisst, ein Algorithmus, der Sozialhilfebetrug «erkennt», berechnet vereinfacht gesagt nur die Ähnlichkeit mit anderen Fällen, die von Menschen als Betrug klassifiziert wurden. Und das ist der positive Fall, im schlimmeren Fall vermischt der Algorithmus Daten und kommt zu willkürlichen Schlüssen.

Auch in der Datenerhebung werden Machtverhältnisse sichtbar. Scoring-Verfahren und die hier betrachteten Algorithmen bekommen die verwendeten Daten auf zwei Arten: entweder durch Tracking oder durch Offenlegung durch die Klienten. Es ist in keinem Fall möglich, sich der Datenherausgabe zu verweigern (während mensch sich mit den Mitteln der digitalen Selbstverteidigung gegen Profiling und personalisierte Werbung wehren könnte). Die meisten Menschen, die am wirtschaftlichen Leben teilnehmen möchten, brauchen einen möglichst guten Kredit-Score. Selbst wenn mensch sich dem Kredit-Score entziehen könnte, wäre die Konsequenz, keinen Hypothekenkredit, keine Wohnung etc. zu bekommen. Es sei denn, mensch ist so reich und braucht keinen Kredit. Auch im Sozialbereich, z.B. bei Bedürftigkeits-Scores, müssen Bedürftige sehr sensitive Daten herausgeben, andernfalls wäre ein schlechter Score und die Reduzierung von Hilfen die Folge. Bei Risk-Scores schliesslich gibt es gar keine Möglichkeit, Daten zu verweigern bzw. diese Verweigerung würde gegen die Betroffenen verwendet.

Die letzte Ebene bzw. Dimension der Machtungleichgewichte ist die Intransparenz. Die Definition von Scores und ihre Berechnung ist für die Objekte des Scorings vollkommen intransparent. Sie können sich deshalb auch in der Regel nicht wirklich gegen Scores und automatisierte Entscheidungen wehren. Um Diskriminierung oder Fehlentscheidungen nachzuweisen, müsste ja bekannt sein, dass eine automatisierte Entscheidung getroffen wurde und wie sie zustande kam bzw. wie der Score berechnet wurde. Diese Transparenz ist jedoch in der Regel nicht gegeben.

Dies bedeutet, dass je weiter unten in der wirtschaftlichen Pyramide einer Gesellschaft sich Menschen befinden, desto weniger können sie über die Verwendung ihrer Daten mitbestimmen und desto stärker sind sie der automatisierten Entscheidungsfindung ausgeliefert. Umgekehrt gilt, dass je wohlhabender und weiter oben in der wirtschaftlichen Pyramide sich jemand befindet, desto weniger ist die Person auf gute Scores angewiesen und desto eher kann sich Privatsphäre leisten.

Anmerkung: Kisha ist ein afro-amerikanischer Vorname, der sich von dem suahelischen Namen Lakeisha ableitet.