KI auf dem Prüfstand

Künstliche Intelligenz in Hochschul-Prüfungen — Bild: ESMT Was die Abschlussnoten von Studierenden betrifft, könnte mit der Weiterentwicklung von KI ein Bedeutungsverlust einhergehen.

Ein KI-Bot wie ChatGPT hat auf viele MBA-Prüfungsfragen im Handumdrehen eine Antwort parat. Auch wenn die Ergebnisse nicht immer verlässlich sind: Business Schools beschäftigen sich nun intensiv damit, welche Prüfungsformate sich künftig noch eignen. Eine Chance, dass Studierende mehr fürs Leben und weniger für die Prüfung lernen?

Man stelle sich eine Verarbeitungsanlage einer großen Cranberry-Genossenschaft vor. Das Werk erhält stündlich 1.500 Fässer Cranberrys, von denen 70 Prozent nass geerntete Beeren und 30 Prozent trocken geerntete Beeren sind. Es handelt sich dabei also um einen Produktmix, der Warenflussprobleme verursachen kann. Denn trocken und nass geerntete Beeren müssen unterschiedlich verarbeitet werden. Solche Fallbeispiele ziehen Business Schools typischerweise heran, um die Studierenden den Engpass in der Verarbeitung berechnen zu lassen.

So auch Christian Terwiesch, Wharton-Professor für Operations Management. Als einer der Ersten hat er diese und weitere Prüfungsfragen, die er normalerweise Studierenden stellt, ChatGPT 3 des Anbieters Open AI beantworten lassen. Zwischen Zwei minus und einer Zwei, so schnitt die KI bei diesem Test ab. Das Medienecho war gewaltig. Das System patze zwar auch. Im Fall der Cranberry-Genossenschaft erkannte ChatGPT etwa nicht, dass man die Kapazitäten für trockene und nasse Beeren unterschiedlich berechnen muss. Auf einen Hinweis des Professors, wie er ihn auch Studierenden in mündlichen Prüfungen gibt, wenn sie auf dem Schlauch stehen, gelang ihm das jedoch sehr wohl.

ChatGPT: Sprachlich top, rechnerisch flopp

Der KI-Chatbot offenbart noch einige Rechenschwierigkeiten. Das stellten so manche Professoren fest, die ähnliche Tests ihrer Prüfungsfragen durchführten. In der Finanzklausur von Johan Hombert, HEC Paris, erzielte die generative KI etwa nur 20 Prozent der Punktzahl, gegenüber 73 Prozent Durchschnittspunktzahl der Studierenden. Doch an anderen Business Schools machte ChatGPT eine gute Figur, beispielsweise bei Linus Dahlander von der ESMT in Berlin in einem Kurs zum Thema Innovation. "Die Antworten von GPT 3 waren besser als die meiner durchschnittlichen Studierenden", urteilte er.

Da generative KI mit Wahrscheinlichkeiten operiert, welches Wort als nächstes kommen könnte, und kein richtig oder falsch kennt, kann es vorkommen, dass das System "halluziniert" – also Fakten frei erfindet. Doch das sollte nicht darüber hinwegtäuschen, dass die Prüfungspraxis an Wirtschaftshochschulen mit dem Hype um die KI selbst auf dem Prüfstand steht. Zumal die Entwicklung von ChatGPT – inzwischen in der Version 4 erhältlich – erst am Anfang steht. Die Korrekturfähigkeit des Systems und das gute Abschneiden in Prüfungen "hat wichtige Auswirkungen auf die Ausbildung an Wirtschaftsschulen", so Christian Terwiesch in einem analysierenden Papier.

Mit ChatGPT Prüfungen meistern?

Die erste Reaktion mancher Schulen bestand darin, Studierenden zu verbieten, ChatGPT in Prüfungen zu nutzen. Dabei dürfte es nicht bleiben. Nicht nur, weil Studierende eventuell schummeln und der Einsatz von KI bisher schwer prüfbar ist. Die KI wirft vielmehr die Frage auf, in welchen Fällen Prüfungen sinnvoll sind und wie sie gestaltet sein sollten. Sind Prüfungsfragen heute zu schematisch und zu wenig kreativ? Es kommt auf die Art der Prüfung an. Folgende Prüfungsarten gilt es zu unterscheiden:

1. Prüfung als Kompetenznachweis

Die häufigste Form der Prüfung an Business Schools ist eine Art Zertifizierung. Sie dient dem Kompetenznachweis. Eine Person beweist, dass sie bestimmte Vorgehensweisen verstanden hat und sie auch anwenden kann. Diese Art der Prüfung – an Wirtschaftshochschulen häufig als "Case Study" präsentiert – spielt auch bei der Zulassung an Business Schools eine Rolle, aber vor allem beim Abschluss eines MBA- oder Master-Programms.

2. Prüfung als Standortbestimmung

Während des Studiums nutzen Lehrkräfte Prüfungen, um herauszufinden, ob Studierende dem Stoff gut folgen können. Dafür führen sie kleinere schriftliche Tests durch. Häufig findet diese Art der Prüfung aber auch mündlich statt, zum Beispiel in Form des "Cold Calling": Lehrende sprechen die Studierenden während des Unterrichts spontan an und fragen sie, wie sie ein Problem beurteilen oder wie sie an eine Aufgabe herangehen würden.

3. Prüfung als kreative Auseinandersetzung

Eine dritte Form der Prüfung dient dazu, den Lernstoff zu wiederholen und sich damit auseinanderzusetzen – beispielsweise als Hausaufgabe oder "Case Preparations". Hier geht es nicht darum, Wissen abzufragen, sondern den Studierenden Gründe zu liefern, warum sie das Gelernte vertiefen sollten.

"Bei Kompetenzprüfungen müssen wir ChatGPT oder andere intelligente Systeme verbannen", meint Wharton-Professor Christian Terwiesch. Denn dann wären Zertifikate nicht mehr aussagekräftig. Bei den anderen Prüfungsarten kann er sich verschiedene Einsatzszenarien von KI vorstellen. Darüber ist inzwischen an vielen Business Schools eine laufende Debatte entstanden. Wie sie je nach Prüfungsart oder Prüfungsfach mit ChatGPT & Co. umgehen, ist noch nicht abschließend klar. "Wir nehmen Technologien wie ChatGPT sehr ernst und beobachten die Entwicklungen in diesem Bereich sehr genau", sagt etwa Per Olsson, Dean of Faculty and Research an der ESMT Berlin. Man könne neue Technologien nicht von bestehenden Verfahren ausschließen und solle dies auch nicht tun. Dennoch handle es sich insbesondere bei ChatGPT um einen laufenden und neuen Prozess. "Das erfordert eine genauere Bewertung und weitere Diskussion, bevor wir eine Entscheidung treffen können, die sich umfassend auf unser Prüfungsverfahren, unsere Prüfungen und unser Studienprogramm auswirken wird."

"Wir nehmen Technologien wie ChatGPT sehr ernst und beobachten Entwicklungen in diesem Bereich sehr genau." Per Olsson, Dean of Faculty and Research ESMT Berlin

"In Bezug auf die Lehre überlassen wir die Einschätzung derzeit den Dozentinnen und Dozenten und das klappt auch sehr gut", berichtet Professor Jens Wüstemann, Präsident der Mannheim Business School. Schließlich beschäftigen sich alle Lehrenden mit dem Thema. Es herrsche Einigkeit darüber, dass Aufgabenstellungen, die grundsätzlich von einer KI beantwortet werden können, nicht mehr zeitgemäß sind. An der Mannheim Business School beziehen sich laut dem Präsidenten ohnehin viele Prüfungsleistungen auf Fragestellungen aus der Praxis, die häufig als Teamaufgaben daherkommen. Dabei stoße die KI bisher an ihre Grenzen und könne bestenfalls bei der Recherche oder Formulierung unterstützen. Dass ChatGPT nun die Thesis am Ende des MBA-Studiums schreiben könnte, muss man in Mannheim nicht befürchten. Denn zumindest in diesem Studiengang ist keine Abschlussarbeit zu schreiben. Studierende müssen vielmehr ein "Business Master Project" in Gruppen bearbeiten, in dem sie entweder für eine komplexe unternehmerische Fragestellung eine eigene Lösung entwickeln oder einen eigenen Businessplan erstellen.

Zulassung: Weg mit dem Motivationsschreiben

Aber im Zulassungsbereich hat die Mannheim Business School reagiert und ist von einem allgemeinen Motivationsschreiben, die eine KI problemlos generieren kann, zu anderen Methoden übergegangen. "So verlangen wir eine Selbstreflexion, in der Bewerberinnen und Bewerber überzeugend darlegen müssen, warum unser Programm und unsere Institution zu ihnen und ihrer Lebenssituation passen." In diese Richtung gehen auch andernorts die Reaktionen, zum Beispiel an der Goizueta Business School der Emory University. Die Zulassungsleiterin Melissa Rapp hat die Qualität von ChatGPT beim Verfassen von Aufsätzen laut dem Online-Portal Poets & Quants (P&Q) dazu veranlasst, künftig bei der MBA-Bewerbung mehr Wert auf ein Video-Interview zu legen.

Immersive Case Studies in Sicht

Künftig könnte mit ChatGPT auch die klassische "Case Study" ein Update bekommen. Lehrkräfte an Business Schools äußern sich dahingehend, dass sie mit immersiven „Case Studies“ experimentieren möchten. So ist es denkbar, dass diese sich zum Rollenspiel entwickeln. Die Idee: Studierende treten mit imaginären Charakteren der Fallbeispiel-Unternehmen in Austausch und erhalten personalisierte Antworten. "ChatGPT könnte auf E-Mails antworten, als wäre es Alicia, die Betriebsleiterin eines Werks", ließ sich der stellvertretende Dekan der Insead Business School Peter Zemsky diesbezüglich auf P&Q zitieren.

Weg mit "dummen" Fragen

Was die Abschlussnoten von Studierenden betrifft, könnte künftig mit der Weiterentwicklung von KI ein Bedeutungsverlust einhergehen. Schon heute ist es vielen Lehrkräften ein Dorn im Auge, dass sie formale Prüfungen durchführen und Noten vergeben müssen. Die Aussagekraft, ob jemand sich damit auch in der Praxis bewährt, scheint fraglich. So könnte KI zumindest dazu führen, die Prüfungen "menschlicher" zu gestalten. KI versagt bisher dort, wo systemisches Denken gefragt ist und nicht nur eine Neukombination von vorhandenem Wissen. Da scheint ChaptGPT in absehbarer Zeit nicht mithalten zu können – auch bei der Formulierung von Prüfungsfragen nicht. "Wenn ich eine Aufgabe generiere, dann sollte die schon zum Großteil korrekt sein", findet zumindest Wharton-Professor Christian Terwiesch. Variationen herstellen – das sei möglich. Doch da das System bisweilen Dinge frei erfinde, müsse man sehr viele Vorschläge durchgehen. "Die Zeitersparnis wäre gering."

Dieser Beitrag ist zuvor erschienen in neues lernen, Ausgabe 3/2023, das Fachmagazin für Personalentwicklung. Lesen Sie das gesamte Heft auch in der App personalmagazin - neues lernen.

Das könnte Sie auch interessieren:

"Manager benötigen eine gewisse Grundskepsis": Interview mit Wharton-Professor Christian Terwiesch

Sieben Tipps für Digital Leadership in Zeiten von KI

KI in Lernanwendungen: Echte Erfolge in Sicht