Branchenmeldungen 15.05.2025
ChatGPT und Co übertreiben bei Fachtexten
Wunsch nach Genauigkeit
Die Forscher haben ChatGPT und DeepSeek getestet und Tausende von Chatbot-generierten Wissenschaftszusammenfassungen analysiert. Ergebnis: Die meisten Modelle liefern durchweg weiter gefasste Schlussfolgerungen als jene, die aus den Texten hervorgehen. Überraschenderweise verschärften Aufforderungen zur Genauigkeit das Problem, und neuere KI-Modelle schnitten schlechter ab als ältere. Bewertet worden ist, wie genau zehn führende Modelle Artikel aus renommierten Wissenschafts- und Medizinzeitschriften wie "Nature", "Science" und "Lancet" zusammenfassen.
Insgesamt wurden 4.900 von den Tools erstellte Texte ausgewertet. Mehr oder weniger übertrieben sie Aussagen aus den Originaltexten, oft auf subtile, aber wirkungsvolle Weise, indem sie beispielsweise vorsichtige Aussagen in der Vergangenheitsform wie "Die Behandlung war in dieser Studie wirksam" in eine pauschalere Aussage in der Gegenwartsform wie "Die Behandlung ist wirksam" umformulierten. Diese Änderungen könnten Leser zur irrigen Annahme verleiten, dass die Ergebnisse viel allgemeiner gültig sind, als dies tatsächlich der Fall ist, so die Warnung.
Chatbots verallgemeinern
Peters und Chin-Yee haben in der Folge auch von Chatbots und Menschen generierte Zusammenfassungen derselben Artikel miteinander verglichen. Chatbots neigten fast fünfmal häufiger zu weitreichenden Verallgemeinerungen als ihre menschlichen Kollegen. "Frühere Studien haben gezeigt, dass Überverallgemeinerungen in wissenschaftlichen Texten oft vorkommen. So ist es nicht überraschend, dass Modelle, die mit diesen Texten trainiert wurden, dieses Muster reproduzieren", so Chin-Yee. "Da Menschen KI-Antworten bevorzugen, die hilfreich und allgemein anwendbar klingen, könnten die Modelle durch Interaktionen lernen, flüssiges Schreiben und Verallgemeinerungen gegenüber Präzision zu bevorzugen", denkt Peters.
Quelle: pressetext