Wenn die KI Berufe ermittelt

Dekorativ Karteikartenschublade

Künstliche Intelligenz bei der Datenaufbereitung

Die Erhebung von Berufsangaben und beruflichen Tätigkeiten ist neben amtlichen Statistiken zur Erfassung der Beschäftigungssituation in den Sozialwissenschaften, insbesondere für alle Analysen von Clustern und Gruppen von Bedeutung. Als Teil der demografischen Variablen wird die berufliche Tätigkeit als offene Angabe mit zusätzlichen Informationen wie der Stellung im Beruf, der Branche, Selbstständigkeit, Leitungsfunktion und der Anzahl zu beaufsichtigender Personen und des Ausbildungsabschlusses erfasst, wobei letzteres immer wieder kontrovers diskutiert wird (Züll, 2015). In den letzten Jahren hat die Anzahl der zu codierenden Berufsangaben immer mehr zugenommen.  Im Jahr 2021 wurden allein bei infas über 315.000 Berufsangaben codiert. Dabei kommt die Klassifikation der Berufe 2010 (KldB 2010) oder die International Standard Classification of Occupations 2008 (ISCO-08) für berufliche Tätigkeiten zum Einsatz. Jüngste Fortschritte im  Bereich künstliche Intelligenz (KI) legen nahe, sie für Codierungsarbeiten zu nutzen. Zusammen mit der externen Softwarefirma deepsight hat infas iCat (infas Categorie) entwickelt. iCat ist eine Web-App zur automatischen Codierung von Berufsangaben. Als Basis für das Modell diente die Erfahrung aus zehn Jahren Berufscodierung in den beiden Kategorienschemata KldB 2010 und ISCO-08.

Die Algorithmen des maschinellen Lernens werden in drei Gruppen unterteilt: Unsupervised Learning, Supervised Learning und Reinforcement Learning (Praveena/Jaiganesh, 2017). Für die Berufscodierung wird der Weg des überwachten Lernens (Supervised Learning) gegangen. Das erstellte Modell umfasst zusätzlich zur reinen Zuordnung von Stichworten zu Codes aus den Codierungsunterlagen eine große Menge geprüfter Daten aus den vergangenen Jahren als Grundlage für die Analyse und Kategorisierung neuer Daten.

Über 400.000 Nennungen zu Berufen bzw. beruflichen Tätigkeiten wurden inklusive vollständiger und akkurater Zusatzinformationen zum Training in das System gegeben. Der Algorithmus kann nun mittels Textanalyse und Auswertung der Zusatzinformationen die Wahrscheinlichkeit für einen Code berechnen und diesen den neuen Daten zuweisen. Dabei trifft iCat sogar teilweise die Entscheidung für einen eindeutigen Code.

Beispiel: Eine ausgebildete Altenpflegekraft mit mindestens mittlerem Anforderungsniveau und ohne explizite Führungsposition kann sowohl in KldB als auch in ISCO eindeutig codiert werden.

In den übrigen Fällen werden zwei Codes zugeordnet. Über diese Fälle muss dann noch ein Codierer entscheiden. In den Entwicklungsschleifen des KI-Modells wurden die Ergebnisse des Machine-Learning-Algorithmus immer wieder durch die erfahrenen Codierer bewertet. Auf diese Weise konnte ein gutes Modell für die Berufscodierung entstehen, das in einem fortschreitenden Lernprozess von entsprechendem Feedback profitiert.

Beispiel: Die Berufsgruppe der Reinigungskräfte kann in ISCO differenziert werden, muss aber ohne nähere Angaben im übergeordneten Code verbleiben. In der Gewichtung der zum Training verwendeten Daten hat sich gezeigt, dass iCat immer einen spezifischen Untercode gewählt hat. Durch eine Feedbackschleife mit entsprechend gewichteten korrekt codierten Daten ließ sich diese Fehleinschätzung des Modells wieder korrigieren.

Möglichkeiten des maschinellen Lernens: Berufscodierung bei infas mit einem KI-Modell des überwachten Lernens

Chancen und Grenzen

Als iCat zum ersten Mal nach dem Training zum Einsatz kam, wies es den insgesamt  62.828 Angaben zur beruflichen Tätigkeit schon in 42 Prozent der Fälle einen eindeutigen und korrekten ISCO-Code zu. Den anderen Angaben wurden zwei ISCO-Codes zugewiesen, die anschließend manuell codiert wurden. Auch hier waren sich iCat und Codierer in 59  Prozent der Fälle beim ersten oder zweiten vorgeschlagenen Code einig.

Insgesamt kann bei einer guten Datenlage, das heißt klaren Angaben in den offenen Nennungen, die untereinander korrespondieren, und vollständigen sowie plausiblen Zusatzangaben von einer Trefferquote von bis zu 70 Prozent ausgegangen werden. Bei zu niedriger Qualität der in das System gegebenen Daten kommt das KIModell an seine Grenzen.

Zunächst hängt die Qualität des Codierergebnisses erheblich von der Qualität der erhobenen Daten ab, die sich aus der entsprechenden Abfrage im Fragebogen und den von den Befragten gemachten Angaben ergibt. iCat kann nur mit klar strukturierten Daten erfolgreich arbeiten und entsprechend gute Ergebnisse liefern. Ist die Abfrage im Fragebogen unvollständig, fehlen beispielsweise die Zusatzvariablen zu Stellung im Beruf, Branche, Leitungsfunktion und Ausbildung, oder werden mehrere unterschiedliche Berufsangaben gemacht, führt dies zu einer schlechteren Vorcodierung. Unvollständige Angaben im Fragebogen reduzieren die Trefferquote auf 30 Prozent. Neben der Abfrage spielt auch die Erhebungsmethode eine bedeutende Rolle. Berufsangaben, die mittels telefonischer Befragung oder persönlichem Interview vor Ort erhoben werden, bieten aufgrund der Anleitung und gezielter Nachfragen durch die Interviewer eine bessere Qualität als schriftliche oder Online-Erhebungen. Unplausible Angaben von Zielpersonen kann iCat ebenfalls nicht deuten und weist zwei Codevorschläge aus, von denen auch nicht immer einer überhaupt zutrifft.

Bezüglich des Codierprozesses hat sich durch den Einsatz von KI eine Verschiebung der Aufgaben ergeben. Die Vorbereitung der Daten benötigt erhöhte Aufmerksamkeit. Hier gilt es, mögliche Probleme im Voraus zu erkennen und Lösungen vorwegzunehmen, sodass der Profit durch die KI gegeben ist.

Auch bei der abschließenden Kontrolle sind einige neue Aspekte zu berücksichtigen und eine besondere Gründlichkeit ist angebracht. Sollen Berufsangaben von kürzlich immigrierten Personen codiert werden, gelten teils abweichende Regeln. Berufliche Tätigkeiten, Einstufungen in Anforderungsniveaus, aber auch Ausbildungsabschlüsse unterscheiden sich manchmal stark von deutschen Berufen, Tätigkeiten oder Abschlüssen. Bei solchen Projekten liefert iCat noch keine zufriedenstellenden Ergebnisse.

Beispiel: Bei der Berufscodierung von geflüchteten Ukrainern sind Meister eher als Spezialisten einzustufen. Je nach Branche reicht ein Zertifikat oder eine längere Ausbildung mit einer Bescheinigung, somit sind die dort vorkommenden Meister nicht mit den Beschäftigten mit einer Meisterausbildung in Deutschland vergleichbar. Das ist für den Algorithmus bislang nicht greifbar und kann entsprechend nur falsch gedeutet werden.

Unabhängig davon, dass in diesen Studien durch iCat erwartbar schlechtere Ergebnisse erzielt werden, darf das aktuelle Machine-Learning-Modell mit solchen Daten selbstverständlich auf keinen Fall trainiert werden. Das System würde in einer falschen Umgebung lernen und falsche Ergebnisse erzeugen.

Fazit
Von der Idee, iCat als KI-System könne die manuelle Berufscodierung vollständig ersetzen, muss man sich verabschieden. Denn Klassifikationsfehler wird es immer geben. Zudem sind berufliche Tätigkeiten einem kontinuierlichen Wandel ausgesetzt, den Codierer über die Jahre aktiv in den gemeinsamen Erfahrungs- und Wissenspool integriert haben. Sonderfälle von Berufsangaben müssen auch von iCat als Machine-Learning-Modell über aktives Training gelernt werden. So wie die Codierer die Veränderungen in der Berufslandschaft im Blick haben und sich weiterbilden müssen, muss sich auch iCat beständig weiterentwickeln. Dennoch ist iCat ein vielversprechendes System zur Codierung von Berufsangaben. Es arbeitet effizient und vor allem zeit- und kostensparend bei gleichbleibend hoher Qualität. Mit einer standardisierten Abfrage im Fragebogen lassen sich bereits gute Codierergebnisse erzielen und Zeit und Kosten der Codierung spürbar reduzieren. Für einige Sonderbereiche, wie beispielsweise die Codierung von Ausbildungsberufen oder beruflicher Tätigkeiten aus anderen Ländern, wird daran gearbeitet, von dem Basismodell abzweigend ein neues Modell zu trainieren, das mit der Zeit in der Lage sein wird, Spezifika ebenfalls mit guten Ergebnissen zu begegnen. Die Grenzen können somit verschoben werden. Dies wird einige Zeit in Anspruch nehmen, wäre aber über den bereits bestehenden bedeutenden Gewinn durch iCat hinaus von großem Nutzen für die Codierung offener Berufsangaben.

Dieser Beitrag ist in aktuellen Lagemaß erschienen (zum Magazin)

Zum Weiterlesen
Datasolut – Mehr Wert mit KI (2022), Stand April 2023
DeepSight Technology, Inc. (2023), Stand April 2023
Destatis: Klassifikation der Berufe (2010), Stand April 2023
International Standard Classification of Occupations (2012). International Labour Organization, Stand April 2023
Praveena, M./ Jaiganesh, V. (2017). International Journal of Computer Applications (0975 – 8887) Volume 169 – No.8, July 2017
Züll, Cornelia (2015). Berufscodierung. Mannheim,GESIS Leibniz Institut für Sozialwissenschaften (GESIS Survey Guidelines). DOI:  10.15465/gesis-sg_019