Kevin kriegt keinen Kredit - Digitale Gesellschaft

Nach einer schöpferischen Pause setzen wir das Dossier «Tracking und Profiling» mit dem ersten Artikel über das Thema «Scoring» fort.

Scores sagen zukünftiges menschliches Verhalten in Bereichen wie Finanzen, Konsum, Gesundheit, Betrug, Kriminalität etc. voraus. Beim Scoring werden Individuen mit Hilfe eines Algorithmus Zahlenwerte zugewiesen. Welche Parameter in die Berechnung eingehen, hängt vom Bereich ab, für den der Score gebildet werden soll sowie vom konkret gewählten Algorithmus. Der eigentliche Score (d. h. der numerische Wert, beispielsweise ein Kredit-Score von 84), der für eine Person berechnet wird, hat an und für sich keine Bedeutung. Scores dienen vor allem dazu, Individuen mit Hilfe ihrer Scores zu vergleichen bzw. die Individuen in einer Menge anhand ihrer Scores zu sortieren.

Aus wirtschaftlicher Sicht werden Scores vor allem für die Entscheidungsfindung eingesetzt, insbesondere dann, wenn ein Risiko abgeschätzt werden soll oder knappe Ressourcen vergeben oder eingesetzt werden. Beispiele:

Eine Bank kann nicht allen Kund:innen die gewünschten Hypothekarkredite gewähren. Sie könnte (und wird, je nach Land) die Kreditvergabe dann auf Basis von Kredit-Scores vornehmen.
Über hundert Interessent:innen haben sich bei einer Immobilienverwaltung für eine Mietwohnung beworben, die Verwaltung kann aber höchstens zwanzig Parteien die Wohnung zeigen. Sie könnte dann wiederum auf den Kredit-Score zurückgreifen und die Wohnung nur den Interessent:innen mit den höchsten Scores zeigen.
Eine Firma kann beziehungsweise will nicht alle Angestellten berücksichtigen, die sich für eine Beförderung beworben haben. Sie könnte die Angestellten dann auf Basis von Performance-Scores befördern oder in die engere Wahl ziehen.

Mit Hilfe eines Scores werden Vorhersagen getroffen. In den ersten beiden Beispielen bedeutet ein hoher Score, dass gemäss Vorhersage der Kredit mit einer höheren Wahrscheinlichkeit zurückgezahlt bzw. die Miete pünktlich bezahlt wird. Auch im dritten Fall wird eine Vorhersage getroffen: Die Person mit dem höheren Performance-Score wird mit einer grösseren Wahrscheinlichkeit als die Mitbewerber:innen auch in der höheren Position gute Leistungen zeigen. Um diese Vorhersagen zu treffen, liegt es nahe, den Entscheidungsalgorithmus mit Hilfe maschinellen Lernens zu trainieren.

In ihrem grundlegenden Bericht für das World Privacy Forum über Scoring in den USA definieren Pam Dixon und Bob Gellman Scoring folgendermassen:

Ein Konsument:innen-Score beschreibt ein Individuum oder eine Gruppe von Individuen (wie einen Haushalt) und sagt das zukünftige Verhalten, die Gewohnheiten oder Vorlieben von Konsument:innen voraus. Scores verwenden Informationen über die Eigenschaften, das vergangene Verhalten und andere Attribute für statistische Modelle, die einen numerischen Score, einen Bereich von Scores oder einen Ja/Nein-Wert berechnen. Konsument:innen-Scores bewerten, sortieren oder segmentieren Konsument:innen. Firmen und staatliche Stellen verwenden Scores, um Entscheidungen über Individuen und Gruppen zu treffen. Die Auswirkungen können dabei von harmlos bis kritisch reichen. Firmen und andere verwenden Scores für alles Mögliche, von der Betrugsvorhersage über die Vorhersage zukünftiger Gesundheitskosten bis hin zur Einschätzung von Anspruchsberechtigungen.

vom Autor übersetzt; im englischen Original:

«A consumer score that describes an individual or sometimes a group of individuals (like a household), and predicts a consumer’s behavior, habit, or predilection. Consumer scores use information about consumer characteristics, past behaviors, and other attributes in statistical models that produce a numeric score, a range of scores, or a yes/no. Consumer scores rate, rank, or segment consumers. Businesses and governments use scores to make decisions about individual consumers and groups of consumers. The consequences can range from innocuous to important. Businesses and others use consumer scores for everything from predicting fraud to predicting the health care costs of an individual to eligibility decisions to almost anything.»

Arten von Scores

Die ersten Arten von Scores waren Kredit-Scores, sie entstanden in den 50er-Jahren in den USA. Sie sind (vor allem, aber nicht nur) in den USA von entscheidender Bedeutung für die wirtschaftlichen und sozialen Entwicklungsmöglichkeiten von Individuen. Kredit-Scores werden von Wirtschaftsauskunfteien (engl. credit bureaus) mit Daten berechnet, die sie von anderen Firmen erhalten. In die Berechnung eines Kredit-Scores gehen nicht nur offensichtliche Parameter wie aktuelle Schulden, Vermögen, Gehalt etc. ein. Auch alle weiteren Daten, die die Kreditbüros und Auskunfteien über Konsument:innen gesammelt haben, können miteinfliessen. Im Bericht von Dixon und Gellmann erstreckt sich die Auflistung der Konsument:innendaten, die in Frage kommen, über fünf Seiten. Dies ist kein rein US-amerikanisches Phänomen. So wurde zum Beispiel in deutschen Kredit-Scores die Kombination bestimmter Vornamen mit dem Wohnort verwendet. In einem anderen (deutschen) Fall wirkten sich viele Umzüge nachteilig auf den Kredit-Score aus (obwohl Arbeitnehmer:innen sonst ja gerne zur mehr Mobilität bei der Stellensuche aufgefordert werden und viele Umzüge somit ebenso gut auch positiv bewertet werden könnten).

Kredit-Scores sind von immenser Bedeutung nicht nur für die eigentliche Kreditvergabe, sondern für viele Situationen, in denen Kreditwürdigkeit eine Rolle spielt (z. B. Wohnungsmiete) und zum Teil darüber hinaus (etwa Stellenbesetzung). Kredit-Scores können als eine Form von Konsument:innen-Scores gesehen werden. Weitere Konsument:innen-Scores bewerten Kund:innen beispielsweise aufgrund des prognostizierten Profits, der noch mit ihnen erwirtschaftet werden wird. Kund:innen, die besser bewertet werden, erhalten dann bessere Konditionen oder einen besseren Service.

Scores werden weiterhin von staatlichen Stellen und anderen Organisationen verwendet, um die Berechtigung bzw. Bedürftigkeit für Leistungen zu berechnen, insbesondere, wenn die durch die Politik zur Verfügung gestellten Mittel und Ressourcen nicht für alle Interessierten ausreichen. So ist zum Beispiel in Los Angeles die Anzahl der Wohnsitzlosen viel grösser als der vorhandene Wohnraum. Die zuständige Behörde vergibt deshalb die Wohnungen auf Basis eines Bedürftigkeits-Scores.

Risk Scores umfassen einen breiten Bereich von Scores, die ein bestimmtes Risiko zu quantifizieren versuchen. Hierzu gehören Rückfälligkeits-Scores (engl. recidivism scores), die im Justizwesen, auch in der Schweiz, verwendet werden, um die Wahrscheinlichkeit der Rückfälligkeit von Straftätern vorherzusagen. Diese Art von Scores wird ebenfalls im Predictive Policing verwendet. Der Risk Score ist dann eine Vorhersage, in welchen Stadtteilen oder von welchen Personen wahrscheinlich Straftaten verübt werden.

Auch im Arbeitsleben gibt es Risk Scores, z. B. zur Berechnung des «Sicherheitsrisikos» oder der Abwanderungswahrscheinlichkeit von Angestellten.

Fraud Scores (Englisch für Betrug) können als eine Unterform der Risk Scores betrachtet werden. Je höher der Score, desto höher die Wahrscheinlichkeit, dass es sich bei bestimmten Sachverhalten um Betrug handelt. Diese Scores werden beispielsweise von Behörden eingesetzt, um unrechtmässige Bezüge von Sozialleistungen wie Sozialhilfe oder Arbeitslosenunterstützung zu entdecken. (Mit dieser Art von Scores und der damit oft einhergehenden Diskriminierung werden wir uns in einem eigenen Artikel noch eingehender auseinandersetzen).

Performance Scores können verwendet werden, um die Leistung von Arbeitnehmer:innen zu quantifizieren und um diese anhand ihrer Leistung zu sortieren. Staab und Geschke beschreiben ein solches System bei Zalando. Hier mussten Arbeitnehmer:innen ihre Kolleg:innen bewerten. Aus diesen Ratings (und weiteren Daten) wurde dann ein Score berechnet. Dieser war wiederum massgeblich für Beförderungen und Gehaltsfestlegungen.

Während beim System von Zalando der Input der Mitarbeiter:innen (in Form von Ratings) für die Berechnung von Scores massgeblich war, könnte die Berechnung solcher Performance-Scores durch sogenannte Bossware auch komplett automatisiert und durch im Rahmen des Trackings gewonnene Daten ersetzt werden. So berechnet Microsoft einen «Produktivitäts-Score», in dessen Berechnung eingeht, wie sehr Microsoft 365 Komponenten wie Microsoft Word, Outlook, Excel, PowerPoint, Skype und Teams im Laufe des letzten Monats und auf welchen Geräten benutzt wurden. Laut Microsoft ist dieser Score nicht für die Überwachung von Angestellten gedacht, sondern als Hilfsmittel für die optimale Nutzung der Werkzeuge. Ein weiteres Beispiel ist der Produktivitäts-Score der Firma Prodoscore:

Its software is being used to monitor about 5000 workers at various companies. Each employee gets a daily «productivity score» out of 100 which is sent to a team’s manager and the worker, who will also see their ranking among their peers. The score is calculated by a proprietary algorithm that weighs and aggregates the volume of a worker’s input across all the company’s business applications – email, phones, messaging apps, databases.

Auf der Basis von Texten wie E-Mails, Chats etc. lassen sich mittels Techniken der Sentimentanalyse auch «Glücksindexe» berechnen, die quantifizieren, wie zufrieden oder unzufrieden Angestellte sind. In der Regel geht es den Arbeitgeber:innen jedoch nicht um das Glück der Angestellten, sondern um die Identifikation von unzufriedenem oder oppositionellem Personal. Prodoscore scheint einen solchen Happyness-Index zu planen.

Gemäss der Broschüre «Technische Überwachung am Arbeitsplatz» ist in der Schweiz eine solche verboten, wenn sie der Verhaltensanalyse der Mitarbeiter:innen dient. Leistungsüberwachung ist jedoch erlaubt, wenn sie sich an das geltende Datenschutzrecht und andere Gesetze hält, wobei Leistungsüberwachung leicht und schnell in Verhaltensanalyse umschlägt.

Eine letzte Art von Scores sind Social Credit Scores, die vor einigen Jahren vor allem im Zusammenhang der chinesischen Versuche mit Sozialkreditsystemen stark diskutiert wurden. Ein einheitliches Sozialkreditsystem existiert auch in China nach wie vor nicht. Wir beschränken uns in diesem Artikel auf die existierenden Scores in europäischen und nordamerikanischen Gesellschaften.

Die Allgegenwärtigkeit von Scoring

Fasst man Scoring weiter als Quantifizierung auf, die Eigenschaften und Verhalten bewertet und die Sortierung (das Ranking) von Individuen erlaubt, dann wird offensichtlich, wie sehr Scoring unser tägliches Leben durchdringt und bestimmt. In seinem Buch «Das metrische Wir» beschreibt Steffen Mau auf sehr eindrückliche und umfassende Weise diese Entwicklung. Die meisten Konsument:innen werden Ratings bei Büchern, Musik, Restaurants und Hotels berücksichtigen oder auch selbst vergeben. Die Quantifizierung macht jedoch nicht bei Konsumgütern halt, es lässt sich prinzipiell alles und jede:r bewerten, auch Lehrer:innen, Dozent:innen oder Ärzt:innen.

Selbst in der Wissenschaft spielen Rankings und Scores eine immer grössere Rolle, z. B. Reputations-Scores oder der H-Index von Wissenschaftler:innen. Schliesslich lassen sich auch ganze Institutionen «ranken», mensch denke z. B. an Universitätsrankings. Gerade an den Hochschulbewertungen lässt sich erkennen, welche Rolle Scores und Ratings inzwischen spielen: Für die meisten Länder ist es wichtig, dass ihre Universitäten erstens überhaupt und zweitens möglichst zahlreich unter den 100 am besten bewerteten Hochschulen vertreten sind.

Der Umstand, dass Scores und Ratings praktisch überall angetroffen werden können, deutet auf die allgemeinen ideologischen Grundlagen und die prinzipielle Problematik des Scorings und verwandter Verfahren hin. Dem Scoring liegt der Glaube zugrunde, dass alles durch Zahlen ausgedrückt und bewertet, also quantifiziert werden kann. Passenderweise ist ein Beitrag zum Scoring mit «das ganze Leben in einer Zahl» überschrieben – das heisst, ein Mensch mit all seinen Erlebnissen, Eigenschaften und Entwicklungen lässt sich in eine einzige Zahl kondensieren. Qualität lässt sich (in dieser Denkweise) berechnen und durch Zahlen ausdrücken. Aufgrund der Quantifizierung können Menschen, Organisationen, abstrakte oder konkrete Dinge hinsichtlich ihrer Qualität verglichen werden – wer oder was den höheren Score hat, ist besser.

Probleme von Scores und Ausblick

Die Berechnung und Verwendung solcher Scores in derart vielen Lebensbereichen ist aus vielerlei Gründen fragwürdig:

Scores wurden erfunden, um Entscheidungen zu objektivieren und sie «auf Faktenbasis» zu treffen. Es zeigt sich jedoch, dass Entscheidungen mit Hilfe von Scores Diskriminierung und Ungerechtigkeit nicht nur nicht verhindern, sondern mitunter sogar verstärken (mehr dazu in einem eigenen, folgenden Artikel).
Die Annahme, dass Sachverhalte wie Leistung, Vertrauenswürdigkeit etc. quantifiziert werden können, ist in vielen Fällen irreführend. Für die Beurteilung eines Sachverhalts wichtigere Aspekte, die aber nicht quantifiziert werden können, werden dann üblicherweise ignoriert (z. B. Produktivitäts-Scores). Cathy O’Neill beschreibt in ihrem Buch «Weapons of Math Destruction» eindrückliche Beispiele, insbesondere die Scoring-basierte missglückte Leistungsbewertung von Lehrpersonen.
Personen, die am wirtschaftlichen und gesellschaftlichen Leben teilhaben wollen, müssen sich der Scoring-Logik unterordnen. Es besteht dadurch ein Machtgefälle zwischen denen, die Scores definieren, berechnen und verwenden auf der einen Seite, und den Objekten des Scorings auf der anderen Seite. Die Intransparenz des Scorings und seiner Algorithmen und der verwendeten Daten verstärkt dieses Machtgefälle zusätzlich.
Datenschützer:innen haben versucht, den Auswüchsen des Scorings mit Hilfe der Datenschutzgesetze (z. B. GDPR) beizukommen, unter anderem im Fall von Zalando. Datenschutzgesetze sind jedoch keine angemessenen Werkzeuge, um Scoring zu regulieren. Auch mit dem Aspekt der Regulierung werden wir uns in einem zukünftigen eigenen Artikel auseinandersetzen.