Prüfungsdesign & Generative Künstliche Intelligenz
1.) Das Spannungsfeld Prüfen & KI
Die zunehmende Verfügbarkeit von generativen KI-Anwendungen stellt Lehrende vor mehrere Herausforderungen beim Design von Prüfungen und Prüfungsaufgaben:
- Prüfungen und Prüfungsaufgaben sollen einer zeitgemäßen Prüfungskultur gerecht werden.
- Es besteht die Möglichkeit, dass Studierende KI-Anwendungen für Täuschungsversuche und Plagiate verwenden.
- Durch die starke Heterogenität die es unter der Studierendenschaft bezüglich Wissens- & Kompetenzstand und vor allem Zugang zu KI-Technologien gibt, ist es für Lehrende schwierig, Prüfungsgerechtigkeit zu gewährleisten.
Die genannten Herausforderungen können nicht nur auf Ebene der einzelnen Lehrpersonen und Lehrveranstaltungen gelöst werden, sondern bedürfen mitunter einer gesamtuniversitären Strategie. Dennoch liegt es an den Lehrenden, Künstliche Intelligenz bei der Gestaltung von Leistungsbeurteilungen und Prüfungen miteinzubeziehen und didaktisch sinnvolle Entscheidungen zu treffen. Die Ausführungen auf dieser Seite sollen Ihnen als Orientierung dazu dienen.
2.) Möglichkeiten zum Umgang mit KI im Kontext von Prüfungen
Bei der Konzeption von Prüfungen können Lehrende KI-Technologien in folgenden Formen berücksichtigen (vgl. Stony Brook University Center for Excellence in Learning and Teaching, 2024):
Ignorieren oder Verbieten
Ein Ignorieren oder Verbieten von KI-Technologien sind zwar theoretisch denkbare Szenarien, praktisch ist es aber nicht sinnvoll, diesen Zugang zu wählen. Ein Ignorieren ebnet Studierenden geradezu den Weg, generative Künstliche Intelligenz zum Lösen von Lern- und Prüfungsaufgaben zu nutzen. Ein generelles, unreflektiertes Verbieten wird einer zeitgemäßen Prüfungskultur nicht gerecht. Künstliche Intelligenz ist Teil unserer aller Lebensrealitäten und Fakt ist, dass Studierende KI-Werkzeuge für ihre Lern- und Arbeitsprozesse nutzen. Lehrpersonen sollten sich daher konstruktive Strategien zum Umgang mit KI-Technologien in der Lehre zurechtlegen und nicht die Augen davor verschließen.
Aussparen
Das bewusste Aussparen von KI bei Prüfungen bedeutet, dass die Prüfungsinhalte und/oder -modalitäten so gestaltet sind, dass die Verwendung von KI-Werkzeugen nicht nötig oder nicht möglich ist. KI wird beim Konzipieren zwar berücksichtigt, die Prüfung wird aber quasi „um die KI herum“ designt.
Kontrollieren
Beim Kontrollieren geht es darum, sicherzustellen, dass der mögliche Einsatz von KI-Werkzeugen erst gar nicht oder nur eingeschränkt passiert, indem etwa bei digitalen Prüfungen keine oder nur bestimmte KI-Systeme zugänglich gemacht werden.
Integrieren
Beim Integrieren ist der Einsatz von KI-Systemen bei der Prüfung erlaubt oder sogar nötig, um gewisse Aufgabenstellungen zu lösen. Der Grad der KI-Nutzung kann dabei unterschiedliche Formen annehmen.
Adaptieren
Der Zugang des Adaptierens bezieht sich auf ein Neudenken von Prüfungen, Prüfungsformaten und Leistungsbeurteilungskonzepten angesichts KI. Während die oben beschriebenen Zugänge davon ausgehen, dass die althergebrachten Prüfungsmodalitäten bestehen bleiben und KI entweder integriert oder in unterschiedlichen Formen umgangen wird, umfasst das Konzept des Adaptierens eine innovative Komponente, die echte Veränderungen beim Prüfen (sowohl für die Lehrperson als auch für die Studierenden) mit sich bringt. Dies passiert in der Regel über die Entscheidung für alternative Prüfungsformate, die in einem Fachgebiet/in einer Lehrveranstaltung bisher noch nicht zum Einsatz gekommen sind. Künstliche Intelligenz kann integriert oder ausgespart werden, je nachdem, was didaktisch sinnvoll ist.
3.) Prüfen mit oder ohne KI?
Anhand der oben vorgestellten Möglichkeiten, KI beim Prüfungsdesign zu begegnen, lassen sich zwei Formen des Prüfungsdesigns ableiten:
- Prüfungsdesign ohne KI (Ignorieren/Verbieten, Aussparen, Kontrollieren) und
- Prüfungsdesign mit KI (Kontrollieren, Integrieren, Adaptieren).
Welcher Ansatz für die eigenen Lehr-Lern-Settings zu bevorzugen ist, lässt sich über eine Analyse der Lernergebnisse feststellen. Folgend eine Entscheidungshilfe (basierend auf Monash University AI in Education Learning Circle, 2024 & Hanke, 2023):
4.) Prüfungsformate und -aufgaben für beide Prüfungsdesign-Ansätze
Die Analyse der Lernergebnisse liefert einen Anhaltspunkt dafür, ob Studierende bei Prüfungen mit generativer Künstlicher Intelligenz arbeiten sollen oder nicht. Die Umsetzung der Prüfungsdesign-Ansätze erfolgt über die Wahl geeigneter Prüfungsformate und das Stellen didaktisch sinnvoller Aufgaben. Wir können unterscheiden zwischen
KI-integrierende Prüfungsformate und -aufgaben
Die zielgerichtete Arbeit mit Anwendungen generativer KI ist bereits in einigen Lehr-Lern-Kontexten sinnvoll. Der Grad der Einbindung und Nutzung von KI-Werkzeugen kann dabei variieren und folgende Ausprägungen annehmen (vgl. Perkins et al., 2024):
- KI-gestützte Ideengewinnung und Strukturierung: Generative KI kann bei Prüfungen zum Brainstorming sowie zum Generieren von Ideen und Gliederungen verwendet werden. Auch die KI-basierte Literaturrecherche wird dieser Form der KI-Nutzung zugeordnet. KI-generierter Content ist als Abgabe nicht zulässig.
- KI-gestützte Redaktion: KI kann dafür verwendet werden, um die Qualität der erstellten studentischen Arbeiten zu verbessern. Es dürfen keine neuen Inhalte mit generativer Künstlicher Intelligenz erstellt und eingereicht werden. Beispiele für dieses Szenario wäre etwa die Nutzung von Schreibassistenten zur Verbesserung von Rechtschreibung/Grammatik/Wortwahl sowie Tools zur Bildbearbeitung.
- Angeleitete KI-gestützte Aufgabenbearbeitung: KI kann bzw. muss zur Bearbeitung von Aufgaben bzw. Teilaufgaben genutzt werden. Der KI-generierte Output wird von den Lernenden anschließend bearbeitet, d.h. evaluiert, diskutiert, kommentiert, richtiggestellt, etc. Auch der Vergleich von KI-generierten und von Menschen erstellten Inhalten könnte eine Aufgabenstellung sein. Lehrende beurteilen die kritische Auseinandersetzung mit den KI-generierten Inhalten und/oder die formulierten Prompts.
- Uneingeschränkte KI-gestützte Aufgabenbearbeitung: Generative KI wird wie ein Co-Pilot verwendet, um Aufgabenstellungen zu bearbeiten und Arbeitsergebnisse zu verbessern. Das Erproben und Vergleichen unterschiedlicher generativer KI-Tools kann ebenfalls im Zentrum der Aufgabe stehen. Lehrende können die zu verwendenden Tools vorgeben oder die Wahl den Studierenden überlassen. Das Arbeitsergebnis der Mensch-KI-Kollaboration (und damit implizit der Umgang mit KI-Tools und KI-generiertem Output) wird bewertet. Beispiele für dieses Szenario wären das KI-gestützte Erstellen von schriftlichen Arbeiten, Medien und Designs, das Schreiben von Software-Code oder die KI-gestützte Abwicklung von Projektarbeiten.
Sollen KI-integrierende Prüfungsaufgaben zum Einsatz kommen, müssen vor der Durchführung der Prüfung noch grundlegende Voraussetzungen geschaffen werden, um Prüfungsgerechtigkeit herzustellen.
- Einerseits muss gewährleistet werden, dass alle Prüflinge während der Prüfung Zugang zu nötigen und sinnvollen KI-Werkzeugen haben.
- Im Vorfeld müssen die Studierenden die Gelegenheit erhalten, den Umgang mit generativer KI im Allgemeinen bzw. den KI-Tools, die bei der Prüfung zum Einsatz kommen sollen im Konkreten, zu erlernen. Dies bedarf wiederum der nötigen Kenntnisse und Kompetenzen der Lehrenden, um die Studierenden bestmöglich auf die KI-Nutzung vorbereiten zu können.
- Lehrende müssen vor Lehrveranstaltungsbeginn transparent machen, wie und in welchem Ausmaß die Nutzung von generativer Künstlicher Intelligenz in die Leistungsbeurteilung miteinbezogen wird. Sie können dafür z. B. die von der Uni Graz zur Verfügung gestellten Textbausteine für ein KI-Statement in der Lehrveranstaltungsbeschreibung nutzen.
- Richtlinien zur Nutzung und von KI-Werkzeugen, zur Wahrung der akademischen Integrität/guten wissenschaftlichen Praxis, zur Kennzeichnung der Nutzung von generative KI-Technologien und zu ethischen Implikationen sollen den Studierenden kommuniziert und bereitgestellt werden.
KI-robuste Prüfungsformate und -aufgaben
Sogenannte KI-robuste Prüfungsformate und -aufgaben erschweren es Studierenden, generative künstliche Intelligenz unmittelbar zur Lösung der Aufgabenstellungen zu nutzen. Dazu zählen laut Williams, 2023; Charles Stuart University, 2024; Ifelebuege, 2023; Jochim/Lenz-Kesekamp, 2023; und Lee, 2023:
- Beaufsichtigte Klausuren/Closed-Book-Prüfungen
- Mündliche Prüfungen
- Mündliche Leistungen wie (Poster-)Präsentationen, Referate, Korreferate
- Praktische Prüfungen/Demonstrationen vor Ort
- Anwendungs- und Transferaufgaben
- Reflexionsaufgaben zu praktischen Erfahrungen bzw. Aufgaben
- Portfolios
- Prozessdokumentationen
- Gruppen-/Projektarbeiten
- Peer Assessment
- Produktion von Medien und anderen Artefakten
- Problembasierte Aufgabenstellungen/Fallbeispiele
Die oben gelisteten Prüfungsformate haben gemein, dass sie die höheren Taxonomiestufen nach Anderson und Krathwohl (2001) bedienen können und somit kompetenzorientiertes Prüfen ermöglichen. Bei der Zusammenarbeit mit anderen können Lernende zusätzlich persönliche und soziale Kompetenzen entwickeln. Für ein Prüfungsdesign ohne KI ergeben sich allerdings Einschränkungen, denn
- klassische Klausuren unter Aufsicht, die sich hauptsächlich geschlossener Fragen bedienen (Multiple- und Single-Choice-Fragen) eignen sich nicht zum kompetenzorientieren Prüfen, wenn in erster Linie das Erinnern und Verstehen von Informationen abgeprüft wird.
- mündliche Prüfungen erfordern viele Ressourcen bei geringerer Objektivität und Reliabilität.
- viele der oben gelisteten Prüfungsformate schließen den Einsatz von generativer Künstlicher Intelligenz nicht aus, wie z.B. als Formulierungshilfe bei Reflexionsaufgaben, Dokumentationen oder der Portfolioarbeit bzw. zur Textgenerierung für Referate.
- generative KI wäre für einige der gelisteten Formate eine sinnvolle und praxisnahe Arbeitshilfe, wie etwa zur Unterstützung/Organisation von Gruppen- und Projektarbeiten oder für die Medienproduktion.
Die Wahl der Prüfungsmodalitäten sollte vor diesem Hintergrund und mit Hinblick auf die Lernergebnisse getroffen werden.
KI-unsichere Prüfungsformate und aufgaben
Bei folgenden Prüfungsformaten und -aufgaben ist es für generative künstliche Intelligenz sehr einfach, geeignete Antworten und Lösungs- bzw. Textvorschläge zu generieren, die die Studierenden für Täuschungsversuche nutzen könnten. Aus diesem Grund werden sie in der Literatur als „KI-unsicher“ bezeichnet (vgl. Becker et al., 2023; Charles Stuart University, 2024; Ifelebuege, 2023; Nikolic et al., 2023; Williams, 2023):
- schriftliche (Abschluss-)Arbeiten
- Essays, Aufsätze und andere kurze Textformen
- unbeaufsichtigte Online-Tests und -Quizzes
- unbeaufsichtigte Multiple-Choice-Prüfungen
- unbeaufsichtigte Open-Book-Prüfungen
- asynchrone Prüfungsleistungen, z.B. Online-Aufgaben im Lernmanagementsystem
Wenn es aufgrund der Lernergebnisse wichtig ist, dass Lernende die definierten Kompetenzen völlig eigenständig und ohne die Hilfe von KI-Werkzeugen entwickeln und darbieten können, sind die genannten Prüfungsformate nicht geeignet. Die Prüfungsformate b) bis f) könnten aber als unbeurteilte Übungs- und Selbstüberprüfungsmöglichkeiten den Lernprozess unterstützen.
Ein Vorschlag, um die gelisteten Prüfungsformate „KI-sicherer“ zu machen, ist, sie mit „KI-robusten“ Prüfungsaufgaben zu kombinieren. Eine Befragung der Studierenden nach dem Lösen von (Online-) Aufgaben, eine mündliche Präsentation von schriftlich erarbeiteten Inhalten, das Erstellen einer Prozessdokumentation und/oder Abschlussgespräche in Kombination mit schriftlichen Arbeiten oder das Führen eines Lerntagebuchs während der gesamten Lehrveranstaltung sind mögliche Anregungen. Die als „KI-robuster“ einzustufenden Prüfungsleistungen könnten in weiterer Folge bei der Beurteilung stärker gewichtet werden.
Es ist zu bedenken, dass ein Erweitern des Leistungsbeurteilungskonzepts um weitere Teilleistungen den Arbeits- und Ressourcenaufwand sowohl für Lehrende als auch für Studierende steigert. Behalten Sie den Workload für die Studierenden im Auge und wägen Sie ab, ob Sie genug zeitliche Ressourcen im Kurs haben, um weitere Prüfungsleistungen abzunehmen.
Ist die Verwendung von generativer Künstlicher Intelligenz erwünscht oder gar nötig, um die Lernergebnisse zu erreichen, sind die gelisteten Prüfungsformate möglich. Nutzungsform und -ausmaß von generativer künstlicher Intelligenz sowie die Dokumentationsform müssen aber natürlich im Vorhinein definiert und kommuniziert werden.
5.) Prüfen & KI: allgemeine Empfehlungen
Aktuelle Diskurse zum Thema Prüfen und KI (vgl. insbesondere Ifelebuegu, 2023; Jochim & Lenz-Kesekamp, 2023; Nikolic et al., 2023, Williams, 2023) legen Lehrenden folgende prüfungsdidaktischen Empfehlungen nahe:
Formatives Assessment umsetzen
Die Begleitung von Arbeits- und Lernprozessen (die mehr oder weniger stark durch KI-Werkzeuge unterstützt werden können) statt des Abnehmens einer punktuellen summativen Prüfungsleistung am Ende des Semesters erscheint angesichts generativer KI-Tools immer sinnvoller. Lehrende erhalten auf diese Art einen besseren Einblick in den Wissens- und Kompetenzzuwachs (bezüglich der Lehr-Lern-Inhalte, aber auch bzgl. des Einsatzes von KI) der Studierenden. Missverständnisse, Defizite und falsche Annahmen können rechtzeitig erkannt und geklärt werden. Studierende erhalten wertvolles Feed-Up und Feed-Forward, um ihren Lernprozess entsprechend zu steuern, sodass Leistungsüberprüfungen dem Lernen dienlich sind (Assessment for Learning). Lehrende können ihre Lehre ebenfalls an die Bedürfnisse der Lernenden anpassen (vgl. Chan & Strasser, 2023).
Authentische, kompetenzorientierte Prüfungen konzipieren
Wiggins (1990) prägte den Begriff des authentischen Assessment, der Prüfungen beschreibt, die Lernende dazu veranlassen, ihr erworbenes Wissen effektiv anzuwenden. Dazu werden für die Arbeitswelt typische und exemplarische Problemstellungen an die Studierenden herangetragen. Diese sind so umfangreich, dass Studierende mehrere Teilaufgaben bearbeiten und dementsprechend mehrere Kompetenzen einsetzen müssen. In weiterer Folge sind Prüflinge dazu angehalten, ihr Handeln zu planen, zu begründen, zu reflektieren und wenn nötig anzupassen.
Authentische Prüfungsdesigns begünstigen einerseits tiefgreifende Beschäftigung mit Inhalten (deep learning) und erfordern andererseits die (Weiter-)Entwicklung übergeordneter Kompetenzen, über die KI-Werkzeuge nicht verfügen. Daher kann KI bei authentischen Prüfungsaufgaben nur eine eingeschränkte Rolle spielen.
Kompetenzorientierte Prüfungen verfolgen im Groben ein ähnliches Ziel wie authentische Assessments, wenn davon ausgegangen wird, dass „Kompetenz“ alle Handlungsdimensionen (Wissen, Einstellungen und Fertigkeiten) umfasst, die eine konkrete Handlungssituation erfordert. Problem- und Handlungsorientierung sind ebenfalls grundlegend für kompetenzorientierte Prüfungen, in denen unterschiedliche Kompetenzbereiche (z.B. Sachkompetenzen, Sozialkompetenzen, Selbstkompetenzen) zum Gegenstand gemacht werden können.
Kompetenzorientierte und authentische Prüfungen schließen den Einsatz von generativer KI keinesfalls aus, wenn die Anwendung von KI jene Kompetenz ist, die für die Lösung der Aufgabe oder des Problems nötig ist bzw. der Einsatz von KI dem Status quo der beruflichen Praxis entspricht. Die Aufgaben- und Problemstellungen sind aber so gestaltet, dass die Prüflinge immer mehrere Kompetenzen darbieten müssen, um diese erfolgreich bearbeiten zu können.
Zukunftskompetenzen fördern
Zu den oben bereits erwähnten übergreifenden Kompetenzen zählen unter anderem Kreativität & Problemlösen, Kollaboration, kritisches Denken und auch Kommunikation. Diese vier Kompetenzen werden häufig unter dem Begriff „21st Century Skills“ oder „Future Skills/Zukunftskompetenzen“ zusammengefasst. Die Förderung dieser Kompetenzen in der Hochschullehre und im Kontext von Prüfungen macht in zweierlei Hinsicht Sinn: Einerseits verfügen KI-Werkzeuge nicht über diese Kompetenzen. Insbesondere zwischenmenschliche Kollaboration und Kommunikation sind für KI nicht umsetzbar. Wenn Prüfungsaufgaben diese Kompetenzen erfordern, minimieren sich automatisch die Einsatzmöglichkeiten von KI-Tools. Andererseits sind es genau diese Kompetenzen, die die Lernenden brauchen, um einen kritisch-informierten und verantwortungsbewussten Umgang mit Künstlicher Intelligenz zu entwickeln.
Peer Learning integrieren
Peer-Learning, auch unter den Begriffen Peer-Feedback oder Peer-Assessment bekannt, bezieht sich auf Lernprozesse, die sich daraus ergeben, dass Lernende auf ähnlichem Wissens- und Kompetenzstand sich gegenseitig quantitatives und qualitatives Feedback auf ihre Leistungen und Arbeiten geben (vgl. Di Fuccia & Keenan, 2010; Saini et al., 2024; Zapata et al., 2024). Peer Learning hat erwiesenermaßen einen positiven Einfluss auf akademische Leistungen und fördert das Engagement und die Motivation im Lernprozess. Studierende erhalten die Möglichkeit, voneinander zu lernen, indem sie Ideen und Wissen austauschen. Darüber hinaus trägt Peer Learning dazu bei, dass Lernende überfachliche Kompetenzen entwickeln, wie z. B. Feedback zu geben und zu nehmen, kritisches und analytisches Denken, Inhalte zu evaluieren und zu präsentieren. Wie bereits oben ausgeführt, ist es ein zentrales Bildungsanliegen, Studierenden solche Selbst- und Sozialkompetenzen zu vermitteln. Die persönliche und zwischenmenschliche Komponente von Peer-Feedback wird von Studierenden gegenüber KI-generiertem Feedback vorgezogen, wenngleich KI-generiertes Feedback auf studentische Arbeiten eine sinnvolle Ergänzung darstellen kann (vgl. Zapata et al., 2024).
Praxis einbinden
Es liegt auf der Hand, dass KI-Technologien in praktischen Situationen und Kontexten des echten Lebens nur wenig Relevanz haben, da sie – im Unterschied zu Lernenden – vorhandenes Wissen nicht in die Praxis umsetzen können. Der Wert von erworbenen Kompetenzen und Erkenntnissen ist (menschlichen) Lernenden vorbehalten. Aus diesen Gründen ist es laut Montagnino (2023) empfehlenswert,
- praktische Anwendungen in die Lehre und die Prüfung zu integrieren,
- Praktiker:innen in die Lehre und evtl. Prüfungsleistung miteinzubinden und
- die Studierenden Praktika absolvieren zu lassen.
Transparenz vorleben
Es ist ganz zentral, dass die Lehrenden von Beginn an klar kommunizieren, ob und wie Künstliche Intelligenz im Rahmen einer Lehrveranstaltung verwendet werden darf und wie nicht. Täuschungsversuche passieren nämlich nicht immer bewusst und aus böser Absicht, sondern können auch aus Unwissenheit resultieren.
Darüber hinaus ist es sinnvoll, die Überlegungen zum Leistungsbeurteilungskonzept an die Studierenden zu kommunizieren (z. B. mittels Syllabus und dessen Besprechung). Dadurch können die Studierenden den Sinn von Lernaktivitäten und Prüfungsleistungen erkennen und verstehen, warum es wichtig ist, im Rahmen einer akademischen Ausbildung Leistungen eigenständig zu erbringen und Aufgabenstellungen nicht von generativen KI-Werkzeugen lösen zu lassen. Weitere Anregungen, wie Sie als Studierende für die Notwendigkeit von intellektueller Eigenleistung beim akademischen Schreiben sensibilisieren können, finden Sie in dieser Handreichung.
6.) Zusammenfassung
Auch wenn die an sich schon komplexe Aufgabe des Prüfens durch die zunehmende Verfügbarkeit von generativer Künstlicher Intelligenz noch herausfordernder wird, bleibt die grundlegende didaktische Herangehensweise die gleiche. Ausgangspunkt für das Prüfungsdesign sind und bleiben die Lernergebnisse. Anhand dieser können Lehrende zunächst die Relevanz von generativer Künstlicher Intelligenz in der Lehrveranstaltung ermitteln und in weiterer Folge evaluieren, ob die Prüfung generative Künstliche Intelligenz ausschließen (Prüfungsdesign ohne KI) oder in unterschiedlichem Grad integrieren sollte (Prüfungsdesign mit KI). Unterschiedliche Prüfungsformate eignen sich unterschiedlich gut, um diese beiden Ansätze umzusetzen.
Ziel für den Moment kann für Lehrende ein authentisches Prüfungsdesign sein, das Studierende im Sinne des Future-Skills-Ansatzes mit realistischen, kompetenzorientierten Aufgabenstellungen des 21. Jahrhunderts konfrontiert. Diese sollen von Studierenden hauptsächlich Problemlösekompetenz, kritisches Denken und die Demonstration der in der Lehrveranstaltung erworbenen Kompetenzen verlangen. Generative Künstliche Intelligenz kann – je nach Lernergebnissen und Rahmenbedingungen - in unterschiedlichem Ausmaß und durch die Lehrperson gut begleitet zum Einsatz kommen.