Sehr oft werden algorithmische Entscheidungssysteme genutzt, um Objekte oder Personen zu
klassifizieren, also in Klassen einzuteilen. Maschinelles Lernen wie es für viele
Klassifizierungsaufgaben verwendet wird, ist eine Form des sogenannten überwachten Lernens
(supervised learning). Den Ausgangspunkt stellen dabei Trainingsdaten dar, deren Ergebnis für die
einzelnen Fälle bereits bekannt sind, d.h. z.B. die Zuordnung von Personen in bestimmte Klassen.
Diese bekannte Einteilung nennt man auf Englisch die „Ground truth“, was auf Deutsch mit
"Grundwahrheit" übersetzt wird.
Beispielsweise könnte eine Hochschule wissen wollen, welche Eigenschaften von Studierenden sehr oft
mit einem Studienabbruch verknüpft sind, und nur selten bei Studierenden gefunden werden, die ihr
Studium abschließen. Dazu müsste die Hochschule ihre bisherigen Studierenden und die von ihnen
bekannten Eigenschaften als Trainingsdaten nehmen, zusammen mit der Information, ob diese ihr
Studium abgebrochen haben oder abgeschlossen haben. Aktiv Studierende würden hier also nicht mit
einbezogen werden, weil ihr Ergebnis noch nicht klar ist. Der Sinn einer Vorhersage, ob ein Student
oder eine Studentin das Studium abbricht, könnte beispielsweise darin liegen, mehr Beratungen
anzubieten.
Folgende Attribute könnten als Teil der Trainingsdaten ausgewählt werden:
Attribut | Beschreibung |
---|---|
Abiturnote | Note 1,0 - 4,0 |
Sprachkenntnisse | Überprüfung durch einen Sprachtest Note 1,0 - 6,0 |
Motivationsschreiben | Bewerber müssen ein Motivationsschreiben einreichen, welches mit Note 1,0 - 6,0 bewertet wird |
Alter bei Einschreibung in den Studiengang | In Jahren |