Wissenschaft und Forschung 05.02.2026

KI auf dem Prüfstand: Wie gut schneiden ChatGPT & Co. in der Zahnmedizin ab?



Künstliche Intelligenz wird zunehmend auch in der medizinischen Ausbildung getestet und erprobt, flächendeckend etabliert ist sie jedoch noch nicht. Was passiert, wenn wir ChatGPT-4o, Gemini & Co. nicht nur über Zahnseide oder Prävention plaudern lassen, sondern sie mit echten Prüfungsfragen aus dem Zahnmedizinstudium konfrontieren? Eine britische Studie hat genau das untersucht.

KI auf dem Prüfstand: Wie gut schneiden ChatGPT & Co. in der Zahnmedizin ab?

Foto: Lustre Art Group – stock.adobe.com

Über 400 Prüfungsfragen & ein Ziel: bestehen oder durchfallen?

Insgesamt 340 Multiple-Choice-Fragen, 80 Kurzantwort-Fragen und drei strukturierte mündliche Prüfungen aus realen UK-Curricula (Bachelor of Dental Surgery sowie Dental Hygiene and Therapy) wurden den drei LLMs GPT, Grok2und Gemini vorgesetzt. Zusätzlich sollten die Modelle 140 neue Prüfungsfragen selbst erstellen. Die große Frage dabei: Können diese Systeme tatsächlich Prüfungen bestehen und auch sinnvolle Prüfungen generieren? Alle drei LLMs konnten die Prüfungen grundsätzlich bestehen. Bei den Multiple-Choice-Aufgaben gab es keine signifikanten Leistungsunterschiede. GPT-4o und Grok2 überzeugten bei den SAPs, während Gemini hier ins Hintertreffen geriet, insbesondere bei den UK-Curricula.

Der eigentliche Härtetest kam jedoch beim Erstellen eigener Prüfungsfragen. Das Bestehen war möglich, die Rolle als Prüfer hingegen überforderte die Systeme. Die von den LLMs generierten Fragen litten häufig unter unklaren Formulierungen, veralteter Terminologie oder schlicht didaktischem Unverständnis. Es gab doppelte Verneinungen, zu komplexe oder zu triviale Antwortoptionen, Bewertungsschemata, die eher an ein Lehrbuchkapitel als an einen Prüfungsleitfaden erinnern. Besonders bei Fragen mit höherem Anspruch hatten die KIs große Schwierigkeiten. Die meisten generierten Fragen kratzten maximal an der Oberfläche, selten erreichten sie das für Prüfungen so zentrale Niveau der klinischen Anwendung. Keines der LLMs konnte laut den Autoren durchgängig prüfungstaugliches Material liefern. Besonders in Bereichen wie Parodontologie oder Materialkunde wurden viele Fragen als ungeeignet eingestuft. Das zeigt, die KI kann auf jeden Fall mitlernen aber eben immer (noch) nicht lehren. Und das ist auch gut so.

DOI https://doi.org/10.1038/s41415-025-8383-2

Mehr News aus Wissenschaft und Forschung

ePaper