PQ State of the Art: Algorithmen in HR

Algorithmen haben in der Regel eine stärkere Vorhersagekraft als Expertenurteile. Gleichzeitig dominiert in der Praxis die Verwendung von Expertenurteilen. Warum ist das so und was bedeutet das für die Personalauswahl? 

Das People Analytics Team von Google wollte vor ein paar Jahren Beförderungsentscheidungen bei Programmierern effizienter gestalten. Statt zeitaufwendiger Entscheidungsprozesse in langen Diskussionsrunden des Managements könnten doch einfach die vorhandenen Leistungsdaten, Vorgesetztenurteile und Selbsteinschätzungen verwendet werden, um ein Verfahren zu entwickeln, das möglichst genau vorhersagt, welche Mitarbeiter am besten für eine Beförderung geeignet sind. Das Ergebnis war ein Algorithmus, der eigenen Angaben zufolge eine sehr hohe Trefferquote besaß. Dadurch wurden die aufwendigen Auswahlprozesse eigentlich überflüssig. Trotzdem blieb Google beim alten Modell, denn das Management wollte sich nicht hinter einem Algorithmus, einer Black Box, verstecken. "People should make people decisions", hieß es entsprechend, und das datengetriebene Entscheidungsverfahren wurde auf Eis gelegt.

Die grundsätzliche Frage bleibt aber und ist gerade in Zeiten von "Big Data" und "People Analytics" aktuell und relevant. Führt ein Unternehmen zum Beispiel Assessment Center durch, in denen die Kandidaten in verschiedenen Übungen beobachtet und beurteilt werden, können die so erhobenen Daten auf zwei Arten verwendet werden. Erstens können Daten durch Experten zu einem Gesamturteil verdichtet werden, ob in diesem Fall also ein Bewerber ein Jobangebot oder eine Absage erhält. Die Entscheidung basiert auf Erfahrungen und Intuition des Experten. Diese im Englischen als "clinical judgment" bezeichnete holistische Vorgehensweise ist in Unternehmen gängige Praxis bei Personalauswahl, Leistungsbeurteilung oder auch Beförderungsentscheidungen. Zweitens können die vorhandenen Daten über einen Algorithmus kombiniert werden, der im einfachen Fall den verschiedenen Testergebnissen ein Gewicht zuweist, um so zu einem Gesamturteil zu gelangen ("mechanical judgment"). Dieses Vorgehen mag auf den ersten Blick komplex erscheinen, kann aber in zwei Schritten leicht umgesetzt werden. Im ersten Schritt verwendet man Daten, bei denen man die Prädiktoren (zum Beispiel Testergebnisse) wie auch das Ergebnis (zum Beispiel Leistung) kennt, um so in einer Regressions­analyse oder ähnlichen Verfahren die Beta-Gewichte, das heißt den relativen Einfluss der einzelnen Prädiktoren, zu ermitteln. Im zweiten Schritt kann das Ergebnis anhand dieser Gleichung vorhergesagt werden, indem die Werte für die Prädiktoren von Bewerbern oder Mitarbeitern eingesetzt werden, bei denen die spätere Leistung noch nicht bekannt sondern vorhergesagt werden soll.

Die Ergebnisse von Algorithmus und Expertenurteil können sich widersprechen. In der Regel muss aber eine Entscheidung getroffen werden, zum Beispiel für oder gegen eine Beförderung. Aber was ist nun besser, Expertenurteil oder Algorithmus? Und lässt sich diese Frage überhaupt in dieser allgemeinen Form beantworten? Das Beispiel von Google zeigt, dass erstens die Qualität der Entscheidung in den beiden Verfahren verglichen werden kann, zweitens aber ebenfalls Einstellungen von Management, Mitarbeitern und Bewerbern berücksichtigt werden müssen. Im Folgenden gehen wir erst auf die Entscheidungsqualität ein und betrachten dann die Einstellungen der Mitarbeiter und Bewerber hinsichtlich Expertenurteil versus Algorithmus.

Wie hoch ist die Entscheidungsqualität von Experten und Algorithmen?

Der Psychologe Paul E. Meehl traf in seinem Buch "Clinical vs. Statistical Prediction: A Theoretical Analysis and a Review of the Evidence" bereits 1954 die Annahme, dass mechanische Verfahren überlegen sein sollten, gerade weil sie klaren Regeln folgen und die Ergebnisse so komplett nachvollziehbar sind. Damals war die Evidenz zu dieser Fragestellung noch sehr begrenzt, doch in den folgenden Jahrzehnten wurde eine Vielzahl von Studien durchgeführt, die uns heute ein sehr stabiles Bild zeichnen: Der Algorithmus ist fast immer besser, auch wenn er gegen sehr erfahrene Experten antritt. Eine Meta-Analyse von Grove und Kollegen (2000) betrachtete insgesamt über 100 Studien aus den Bereichen Bildung, finanzielle Entscheidungen, Forensik, Persönlichkeitsdiagnostik und Medizin (vgl. Abb. 1). Die Autoren kommen zu dem Ergebnis, dass in allen Bereichen der Algorithmus im Durchschnitt eine höhere Vorhersagekraft hat als das Expertenurteil. Die Autoren untersuchten verschiedene Settings und kommen zu dem Ergebnis: "Superiority for mechanical-prediction techniques was consistent, regardless of the judgment task, type of judges, judges' amounts of experience, or the types of data being combined" (Grove et al., 2000, S. 19). Unter den insgesamt 136 betrachteten Studien sind nur acht, bei denen Experten überlegen waren (Effektstärke d > 0,10 zugunsten der Experten), in 65 Studien ergab sich kein substanzieller Unterschied und in 63 Studien war der Algorithmus überlegen (Effektstärke d > 0,10 zugunsten des Algorithmus).

Sota Abb 01 04 2016

Diese Ergebnisse liefern einen allgemeinen Eindruck, sind aber nicht spezifisch für die Personalarbeit. Eine Meta-Analyse von Kuncel und Kollegen (2013) bietet hier tiefere Einsichten zu Personalauswahl, Leistung und Trainingserfolg. Das Ergebnis ist auch hier, dass der Algorithmus dem Expertenurteil zumeist überlegen ist. Entsprechend fassen die Autoren ihre Ergebnisse wie folgt zusammen (Kuncel et al., 2013, S. 1060): "There was consistent and substantial loss of validity when data were combined holistically – even by experts who are knowledgeable about the jobs and organizations in question – across multiple criteria in work and academic settings." Die Anzahl der Studien in dieser Meta-Analyse ist allerdings überschaubar, weswegen wir nur eine vorsichtige Verallgemeinerung der Ergebnisse für die Personalarbeit wagen. Die Korrelationskoeffizienten in Abbildung 2 geben den durchschnittlichen Zusammenhang zwischen Vorhersage durch Algorithmus bzw. Experten und dem tatsächlichen Ergebnis (Leistung, Beförderung oder Trainingserfolg) wieder. Eine hohe Korrelation bedeutet entsprechend eine hohe Vorhersagekraft. Die Ergebnisse für den Algorithmus basieren auf Regressionsanalysen, die für die jeweilige Stichprobe optimiert werden. Es werden also die Gewichte für die verschiedenen Prädiktoren (zum Beispiel Leistungsindikatoren) so gewählt, dass die Vorhersagekraft in der Stichprobe maximiert wird. Nun besteht die Gefahr, dass dadurch gerade bei kleinen Stichproben zwar die Vorhersage in dieser speziellen Stichprobe gelingt, nicht aber für eine neue Stichprobe. Deswegen ist die explizite Unterscheidung zwischen derselben und einer neuen Stichprobe in Abbildung 2 wichtig. Besonders gut ist der Algorithmus, wenn er auch für neue Stichproben eine ähnlich hohe Vorhersagekraft besitzt. Insgesamt bestätigt sich aber das oben beschriebene Bild, dass der Algorithmus so gut wie oder besser als das Expertenurteil ist.

Sot Abb 02 04 2016

Candidate Experience und Wahrnehmungen der Mitarbeiter

Es reicht nicht aus, im Auswahlverfahren die besten Kandidaten zu identifizieren. Diese müssen sich auch für das Unternehmen entscheiden. Im War for Talents gewinnen Candidate Experience und Mitarbeiterbindung an Bedeutung. Entsprechend muss die Wirkung von Algorithmus und Experten­urteil auf die Mitarbeiter und Bewerber berücksichtigt werden. Studien­ergebnisse in diesem Bereich beziehen sich vor allem auf die Personalauswahl. Dineen und Kollegen (2004) untersuchten die Gerechtigkeitswahrnehmungen von Bewerbern in einem Experiment, bei dem den Teilnehmern Szenarien vorgestellt wurden, in denen – neben anderen Variationen – entweder ein Algorithmus oder ein Experte als für die Entscheidung verantwortlich dargestellt wurde. Die Autoren wählen die Gerechtigkeitswahrnehmung als abhängige Variable, da aus anderen Studien bekannt ist, dass Gerechtigkeitsurteile wesentlich für die Bewertung der Arbeitgeberattraktivität sind (zum Beispiel Chapman et al., 2005). Es ergab sich eine leicht höhere Gerechtigkeitswahrnehmung, wenn Experten und nicht der Algorithmus Verwendung fanden (r = 0,12). Von den insgesamt fünf untersuchten Einflussfaktoren waren allerdings drei einflussreicher auf die individuelle Gerechtigkeitswahrnehmung (insbesondere die konsistente Anwendung des Auswahlverfahrens bei allen Bewerbern mit r = 0,45). Diese aus Sicht der Anwender von HR-Analytics grundsätzlich positiven Befunde müssen allerdings vorsichtig interpretiert werden, da es sich um eine Einzelstudie mit geringer Fallzahl (n = 76) handelt und die Bewertung in dieser hypothetischen Situation vermutlich anders ausfällt, wenn tatsächlich die eigene Karriere unmittelbar betroffen ist. Weitere Studien werden hier mehr Klarheit bringen, bis dahin sind wir auf Analogieschlüsse aus ähnlichen Untersuchungen angewiesen.

Weitere Studien in diesem Bereich beziehen sich nicht so sehr auf die Datenauswertung, sondern eher auf die Art der Datenerfassung. So zeigen Uggerslev und Kollegen (2012), dass gerade bei der Personalauswahl die Bewerber auf nette und entgegenkommende Interviewer Wert legen. In der Summe werden also bei Personalauswahlentscheidungen Experten von den Teilnehmern leicht positiver wahrgenommen als das elektronische Äquivalent. Etwas schwieriger ist es bei Beförderungsentscheidungen und Leistungsbeurteilungen. Kein Mitarbeiter möchte bei Beförderungen übersehen werden, weil er nicht die richtigen Werte für den Algorithmus liefert. Gleichzeitig sind aber viele Mitarbeiter unzufrieden, weil die Leistungsbeurteilungen des Vorgesetzten oft als sehr individuell und intransparent wahrgenommen werden. Erste Zusammenhänge für Deutschland zeigt das Projekt „Arbeitsqualität und wirtschaftlicher Erfolg“, in dem unter anderem Ergebnisse aus Mitarbeiterbefragungen mit den Personalpraktiken der Unternehmen verbunden werden. Es zeigt sich zunächst ein positiver Einfluss von Mitarbeitergesprächen und deren Ins­titutionalisierung auf die Arbeitszufriedenheit und weitere Ergebnisvariablen (Wolter et al., 2016, S. 4). Gleichzeitig befürworten die Beschäftigten aber Einschränkungen des diskretionären Entscheidungsspielraums der Vorgesetzten, zum Beispiel in Form von Verteilungsvorgaben und -empfehlungen bezüglich der Leistungsbewertung, die zu einer höheren Gerechtigkeitswahrnehmung bezüglich der Vergütung führen (Bellmann et al., 2016, S. 117).

Reaktion der Anwender im Personalmanagement

Während von Beschäftigtenseite eine objektivierende Entscheidungsunterstützung vermutlich eher neutral bis positiv gesehen wird, dürfte Widerstand vor allem aus den Reihen der Personalmanager zu erwarten sein. Insbesondere aus dem Bereich der Personalauswahl ist bekannt, dass trotz der wissenschaftlich nachgewiesenen Validität Verfahren bevorzugt werden, die einen größeren Entscheidungs- und Interpretationsspielraum bieten (Schuler et al., 2007; Highhouse, 2008). Dies betrifft die Auswahl der Instrumente, deren Ausgestaltung und auch die eher intuitive statt mechanische Verknüpfung der Einzelergebnisse zu einem Gesamturteil. Diese über Jahrzehnte weitgehend stabilen Einstellungen dürften der Verbreitung von Algorithmen als alleiniger Entscheidungsgrundlage am ehesten im Wege stehen.

Zusammenfassung und Schlussfolgerungen

Algorithmen haben in der Regel eine stärkere Vorhersagekraft als Expertenurteile. Gleichzeitig dominiert in der Praxis die Verwendung von Expertenurteilen und wir glauben nicht, dass sich dies in absehbarer Zeit sehr ändern wird. Die folgenden Empfehlungen versuchen deshalb eine Integration beider Entscheidungslogiken (vgl. auch Kuncel et al., 2013).

  • Bei der Personalauswahl können Algorithmen eingesetzt werden, um den Bewerberpool in einem ersten Schritt einzuschränken.
  • Algorithmen können zur Entscheidungsunterstützung eingesetzt werden, indem Manager begründen müssen, wenn sie von der mechanischen Entscheidung abweichen möchten.
  • Bewerber nehmen es tendenziell als negativer wahr, wenn bei den Auswahlverfahren wie auch für die Entscheidungsfindung nur ein Algorithmus eingesetzt wird. Entsprechend könnten den Entscheidungsträgern Expertenurteil und Algorithmus vorgelegt werden, um so rein mechanische Entscheidungen zu vermeiden.

Literaturverzeichnis:

Bellmann, L./Bender, S./Bossler, M./Stephani, J./Wolter, S./Sliwka, D./Kampkötter, P./Laske, K./Steffes, S./Mohrenweiser, J./Nolte, A. (2014): Arbeitsqualität und wirtschaftlicher Erfolg. Längsschnittstudie in deutschen Betrieben. Erster Zwischenbericht im Projekt (Bundesministerium für Arbeit und Soziales. Forschungsbericht Arbeitsmarkt, 442), Berlin.
Chapman, D. S./Uggerslev, K. L./Carroll, S. A./Piasentin, K. A./Jones, D. A. (2005): Applicant attraction to organizations and job choice: a meta-analytic review of the correlates of recruiting outcomes. Journal of Applied Psychology, 90(5), 928-944.
Dineen, B. R./Noe, R. A./Wang, C. (2004): Perceived fairness of web-based applicant screening procedures: Weighing the rules of justice and the role of individual differences. Human Resource Management, 43(2-3), 127-145.
Grove, W. M./Zald, D. H./Lebow, B. S./Snitz, B. E./Nelson, C. (2000): Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 12, 19–30.
Highhouse, S. (2008): Stubborn reliance on intuition and subjectivity in employee selection. Industrial and Organizational Psychology, 1(3), 333-342.
Kuncel, N. R./Klieger, D. M./Connelly, B. S./Ones, D. S. (2013): Mechanical versus clinical data combination in selection and admissions decisions: A meta-analysis. Journal of Applied Psychology, 98(6), 1060.
Meehl, P. E. (1954): Clinical versus statistical prediction: A theoretical analysis and a review of the evidence.
Schuler, H./Hell, B./Trapmann, S./Schaar, H./Boramir, I. (2007): Die Nutzung psychologischer Verfahren der externen Personalauswahl in deutschen Unternehmen: ein Vergleich über 20 Jahre. Zeitschrift für Personalpsychologie, 6(2), 60-70.
Uggerslev, K. L./Fassina, N. E./Kraichy, D. (2012): Recruiting through the stages: A meta-analytic test of predictors of applicant attraction at different stages of the recruiting process. Personnel Psychology, 65(3), 597-660.
Wolter, S./Broszeit, S./Frodermann, C./Grunau, P./Bellmann, L. (2016): Befragung von Betrieben und Beschäftigten: Mehr Zufriedenheit und Engagement in Betrieben mit guter Personalpolitik. (IAB-Kurzbericht, 16/2016), Nürnberg.


Erschienen in PERSONALquarterly 4/2016.