Einstufung (Klassifizierung)

Sehr oft werden algorithmische Entscheidungssysteme genutzt, um Objekte oder Personen zu klassifizieren, also in Klassen einzuteilen. Maschinelles Lernen wie es für viele Klassifizierungsaufgaben verwendet wird, ist eine Form des sogenannten überwachten Lernens (supervised learning). Den Ausgangspunkt stellen dabei Trainingsdaten dar, deren Ergebnis für die einzelnen Fälle bereits bekannt sind, d.h. z.B. die Zuordnung von Personen in bestimmte Klassen. Diese bekannte Einteilung nennt man auf Englisch die „Ground truth“, was auf Deutsch mit "Grundwahrheit" übersetzt wird.
Beispielsweise könnte eine Hochschule wissen wollen, welche Eigenschaften von Studierenden sehr oft mit einem Studienabbruch verknüpft sind, und nur selten bei Studierenden gefunden werden, die ihr Studium abschließen. Dazu müsste die Hochschule ihre bisherigen Studierenden und die von ihnen bekannten Eigenschaften als Trainingsdaten nehmen, zusammen mit der Information, ob diese ihr Studium abgebrochen haben oder abgeschlossen haben. Aktiv Studierende würden hier also nicht mit einbezogen werden, weil ihr Ergebnis noch nicht klar ist. Der Sinn einer Vorhersage, ob ein Student oder eine Studentin das Studium abbricht, könnte beispielsweise darin liegen, mehr Beratungen anzubieten.
Folgende Attribute könnten als Teil der Trainingsdaten ausgewählt werden:

Attribut Beschreibung
Abiturnote Note 1,0 - 4,0
Sprachkenntnisse Überprüfung durch einen Sprachtest
Note 1,0 - 6,0
Motivationsschreiben Bewerber müssen ein Motivationsschreiben einreichen, welches mit Note 1,0 - 6,0 bewertet wird
Alter bei Einschreibung in den Studiengang In Jahren
Basierend auf diesen Daten könnte ein maschinelles Lernverfahren nun nach statistisch auffälligen Mustern suchen – dazu wird ihm ein Qualitätsmaß mitgegeben, das optimiert werden soll.
Die Maschine könnte dann herausfinden, dass beispielsweise eine schlechte Abiturnote einen Abbruch wahrscheinlicher macht. Aus einer Vielzahl von Attributen kann sodann ein Modell berechnet werden, das für die Trainingsdaten die tatsächliche (weil ja bekannte) Klassifizierung besonders gut vorhersagt.
Auf Basis des auf diese Weise trainierten statistischen Models können nun wiederum Aussagen über weitere Fälle getroffen werden, bei denen das Ergebnis („Abbruch Studium“ oder „Beendigung Studium“) noch nicht bekannt ist.
Ein Beispiel für eine Klassifizierungsheuristik ist die Berechnung eines Entscheidungsbaums, wie man ihn aus wirtschaftlichen Prozessen kennt: Man fängt oben an und beantwortet jeweils die Frage, die in dem Kästchen steht. In Abhängigkeit von der Antwort folgt man einer der ausgehenden Kanten zum nächsten Kästchen. Dies macht man solange, bis man auf eine Entscheidung trifft. Der Entscheidungsbaum wird von der Heuristik so aufgebaut, dass in jedem Schritt die Frage gestellt wird, die am besten zwischen den Abbrecher:innen und den erfolgreich abschließenden Personen unterscheiden kann. Die Abbildung zeigt ein Beispiel.
Entscheidungsbaum
Abbildung 1: Gezeigt wird ein beispielhafter Entscheidungsbaum, der aus Daten von Studierenden gelernt hat, wann ein Studienabbruch bzw. ein erfolgreicher Studienabschluss wahrscheinlich ist.
Ausgehend von den Attributen, die sich in den Trainingsdaten als einflussreich auf den Studienabbruch erwiesen haben, kann der Entscheidungsbaum nun für jede neue Person vorhersagen, ob sie ihr Studium wahrscheinlich erfolgreich beenden wird, indem die Merkmale der Person anhand der einzelnen Blätter des Entscheidungsbaumes getestet werden, bis man zu einer Entscheidung gelangt.