Wie sehr KI bei der Leistungsbewertung menschelt

Bild: Freepik/pikisuperstar KI ist objektiv, nüchtern, kalt? Keinesfalls: Sprachmodelle wie ChatGPT übernehmen häufig menschliche Bewertungsmuster. Doch das lässt sich umgehen.

Menschen sind nicht gut darin, die Leistung anderer zu bewerten – aus unterschiedlichen Gründen. Könnte eine KI das besser? Eine explorative Studie von Dirk Sliwka, Professor im Exzellenzcluster ECONtribute an der Universität zu Köln, und Rainer Rilke, Professor an der WHU Otto Beisheim School of Management, liefert erste Antworten.

Generative KI lobt Nutzer oft überschwänglich – sogar bei den dümmsten Fragen oder abwegigsten Ideen. LLMs sind auf positives Feedback getrimmt. Können sie trotzdem bei individueller Leistungsbewertung besser sein als Menschen? "Wir sind nicht so schwer zu schlagen, weil wir nicht gut darin sind, Leistung zu beurteilen", sagt Prof. Dirk Sliwka von der Universität zu Köln.

In der Praxis hakt es an vielen Stellen: Der Beitrag Einzelner lässt sich selten sauber von der Teamleistung trennen. Stereotype Rollenbilder und persönliche Vorurteile der Führungskräfte verzerren Ergebnisse. Dazu kommt die soziale Scheu vor harten Urteilen – besonders, wenn am Ergebnis ein Bonus hängt. Wer nimmt Mitarbeitenden schon gern Geld weg? Am Ende landen fast alle Bewertungen im mittleren bis oberen Bereich. Zahlreiche große Unternehmen haben sich aus diesem Grund von individueller Leistungsbewertung verabschiedet: weil daran geknüpfte Gehaltsbestandteile faktisch nicht leistungsabhängig variabel sind.

Studie nutzt drei Szenarien zur Leistungsbewertung durch KI

Ob KI bei der Leistungsbewertung auf ähnliche Weise Nachsicht walten lässt wie Menschen, ist die Ausgangsfrage der neuen Studie des Exzellenzclusters ECONtribute. Den Anstoß dazu gab Prof. Rainer Michael Rilke von der WHU Otto Beisheim School of Management. Er hatte beobachtet, dass KI-Modelle bei der Beurteilung von Lebensläufen oft sehr milde Urteile abgeben. Die Forscher trieb die Frage um, ob LLMs die Logik menschlicher Texte aus ihren Trainingsdaten übernommen haben und wenn ja, wie sich dies umgehen lässt. Um das herauszufinden, wählten sie drei Szenarien, die sie über die OpenAI-Programmierschnittstelle am Sprachmodell GPT-5-mini testeten:

Szenario 1: Die KI sollte die Leistung von 500 CEOs großer US-Unternehmen (S&P 500) auf einer Skala von 1 bis 5 bewerten, ohne direkte Vergleichsmaßstäbe. Und tatsächlich schlug die "typisch menschliche Tendenz zur Milde" voll durch: Die KI vergab überwiegend mittlere Noten und zeigte eine deutliche Zurückhaltung bei negativen Urteilen. Selbst als die Forscher nachlegten und die KI beauftragten, die CEOs einzeln daraufhin zu prüfen, ob sie zu den schlechtesten 20 Prozent der Gruppe gehören, ließ sie weiter Nachsicht walten. Sie ordnete weniger als 0,3 Prozent der Managerinnen und Manager dieser Kategorie zu.

Szenario 2: Nun stand die Bewertung von Bewerbungen unterschiedlicher Qualitätsstufen an, die zuvor ebenfalls eine KI erstellt hatte. Dabei testeten die Forscher auch, wie die KI reagiert, wenn sie mehrere Bewerbungen gleichzeitig vergleichen und nach einer vorgegebenen Verteilung (Forced Ranking) einordnen sollte. Einzeln bewertet, wiederholte sich die Großzügigkeit bei der Bewertung. Doch als die KI mehrere Bewerbungen gleichzeitig bewertete, nahm die Differenzierungsfähigkeit deutlich zu. Wirklich präzise wurden die Urteile erst durch eine vorgegebene Verteilung.

Szenario 3: Im dritten experimentellen Setting gab es einen klaren, objektiven Leistungsstandard: Die KI sollte die Leistung von Clickworkern bewerten, die Captchas entschlüsselten. Dafür erhielt das LLM "verrauschte", aber objektive Informationen: eine Stichprobe mit einer von zehn bearbeiteten Seiten, die etwa aufgrund des Schweregrads der Aufgaben auch zufällig besser oder schlechter ausfallen konnten. In diesem spezifischen Kontext schätzte die KI die Leistung akkurater ein als menschliche Beurteiler. Obwohl ihr nur ein Bruchteil der Arbeit vorlag, konnte sie die Gesamtleistung daraus ableiten.

KI braucht klare Ankerpunkte

Die Forscher folgern daraus: Sprachmodelle wie ChatGPT übernehmen tatsächlich häufig menschliche Bewertungsmuster, insbesondere dann, wenn keine klaren Vergleichs- und Bewertungsmaßstäbe vorliegen. "Wie Menschen nutzen LLMs oft nicht die volle Bewertungsskala, sondern konzentrieren sich auf die besseren Noten, weil sie erlernte Bewertungsmuster reproduzieren", so Dirk Sliwka. "Doch sobald objektive Ankerpunkte und Bewertungsmaßstäbe vorhanden sind, bewerten KI-Systeme besser als Menschen."

Wo kein klarer, objektiver Maßstab existiert, half der Gruppenvergleich: Die Bewertungen streuten stärker, die Unterschiede wurden sichtbarer. Wie sich das auf die Nachsicht auswirkte, hing aber vom Kontext ab: Im CEO-Szenario hingen einzelne LLM-Urteile eher in der Mitte. Im Vergleich wurden die Ratings nicht nur breiter, sondern im Schnitt auch besser. Der Vergleich machte also eher großzügiger – und zugleich differenzierter. Anders im Bewerbungsszenario: Einzelurteile lagen schon sehr hoch. In der Gruppe wurde die Streuung zwar ebenfalls größer, der Durchschnitt aber niedriger. Der Vergleich machte hier kritischer – und damit ebenfalls differenzierter. "Vergleichende Evaluation schiebt Ratings nicht pauschal nach oben oder unten, sondern korrigiert die jeweils dominante Verzerrung", erklärt Dirk Sliwka.

Übertragbarkeit der Ergebnisse zur Leistungsbewertung

Inzwischen konnten die Forscher das Ergebnis auch mit Google Gemini replizieren und zeigen, dass sich andere Sprachmodelle aktuell ähnlich verhalten. Also endlich Schluss mit Bewertungen nach Nasenfaktor? Dank KI keine Benachteiligung mehr, weil jemand nicht den gleichen Fußballclub liebt, ein anderes Geschlecht hat oder die eigene Arbeit nicht gut genug zu verkaufen weiß? "Die Ergebnisse sind nicht unbedingt auf alle Job-Typen übertragbar", gibt Prof. Sliwka zu bedenken. Vorgängerstudien haben gezeigt, dass objektive Leistungsmessungen, etwa im Retail Banking, Asset Management oder im Vertrieb leichter möglich sind als in Jobs ohne klar messbare Erfolgsparameter, wie im Backoffice, HR oder bei hochkomplexen Führungsrollen. Weiche Faktoren wie Charisma oder strategisches Geschick lassen sich algorithmisch nur schwer erfassen. Selbst wenn KI auf sämtliche Kommunikationsdaten wie E-Mails, Chats und Meetings zugreifen könnte, was in Deutschland datenschutzrechtlich nicht denkbar ist, besteht die Gefahr der Manipulation. Beschäftigte könnten ihr Verhalten oder ihre Aufgabenbeschreibungen gezielt so optimieren, dass sie von der KI gut bewertet werden.

Leistungsbewertung durch KI: Was Unternehmen beachten sollten

Ob KI Leistung treffsicher bewertet, hängt vor allem davon ab, welche Daten das Sprachmodell bekommt – und wie man es anleitet. Google-Mitbegründer Sergey Brin berichtete schon im Frühjahr 2025, wie er ein KI-Modell nutzte, um Team-Abläufe und die Leistung von Mitarbeitenden zu bewerten. Das Tool hatte Zugriff auf interne Arbeitsdaten wie Chats und Code-Beiträge. Es erkannte Qualitäten, die für menschliche Vorgesetzte oft unsichtbar sind oder als selbstverständlich wahrgenommen werden. Die KI schlug eine junge Software-Entwicklerin für eine Beförderung vor, die niemand auf dem Schirm hatte. Was sie auszeichnete, war ihr Kommunikationsverhalten: Sie erkannte, wenn Diskussionen in Chats unproduktiv wurden oder vom Thema abdrifteten, und intervenierte dezent, um das Team zurück zum eigentlichen Ziel zu führen.

"KI-Bewertungen können Diskriminierung abbauen – besonders im Bewerbungsprozess", sagt Dirk Sliwka. Dort ist die Vergleichsgruppe klar, und niemand muss Entscheiderinnen und Entscheidern erst eine mögliche Benachteiligung nachweisen. In einem Discussion Paper gibt er gemeinsam mit Prof. Rilke Unternehmen die Empfehlung, möglichst viele klare Anhaltspunkte zu liefern. Außerdem sollten KI-Modelle mehrere Mitarbeitende gleichzeitig vergleichen – nicht jede Person isoliert bewerten. Es gelte, die gewünschten Ergebnisse zu präzisieren, etwa mit perzentilbasierten Skalen wie obere oder mittlere 20 Prozent statt nur Floskeln wie "übertrifft Erwartungen". "Wenn KI viele konkrete Indikatoren bekommt, entfällt die kognitive Überforderung, die beim Menschen oft zu pauschalen Bewertungen führt", so Sliwka. Im Optimalfall könnten sogar Forced Rankings überflüssig werden. Doch bisher fehlen weiterführende Feldstudien, die zeigen, wie Beschäftigte psychologisch reagieren, wenn sie wissen, dass sie von einer Maschine bewertet werden. Der Kölner Anreizforscher ist überzeugt: "Das persönliche Feedbackgespräch zwischen Führungskraft und Mitarbeiter ist als Quelle von Anerkennung und Motivation weiterhin schwer zu ersetzen."

Das könnte Sie auch interessieren:

Menschliche(re) Führung mit KI

Wenn Chat GPT die Bewerbung schreibt

Wo KI im Recruiting wirklich hilft

Podcast "neues lernen": KI in der Personalentwicklung