Poster

  • Visual Abstract

ChatGPT im klinischen Alltag? Eine Untersuchung zur Zuverlässigkeit der Antworten in Bezug auf die Leitlinie Oro- und Hypopharynxkarzinom

Abstract

ChatGPT ist ein marktführendes KI-Tool, das der Öffentlichkeit über eine Weboberfläche und eine mobile App zur Verfügung steht. Bei der Abfrage von Informationen aus dem Internet automatisiert es den Prozess der Datenselektion und -interpretation vollständig und generiert schnelle und spezifische Antworten auf gestellte Fragen.
In der hier vorgestellten Studie wurde untersucht, ob ChatGPT als geeignetes Tool dient, präzise und aktuelle medizinische Informationen bereitzustellen und so die tägliche klinische Arbeit in Ausbildung befindlicher Ärzte und Ärztinnen in der HNO zu unterstützen.

Methoden:
Zur Bewertung der Genauigkeit von ChatGPTs Antworten wurden 40 Fragen je an die Versionen 4o-mini (kostenlos), 4o und o1-preview gestellt. Die Fragen bezogen sich auf die S3-Leitlinie 2024 zur Diagnostik, Therapie, Prävention und Nachsorge von Oropharynx- und Hypopharynxkarzinomen. Für jede Frage wurden Mindestkriterien anhand der Leitlinie für eine zutreffende Antwort definiert. Die Antworten wurden dann als "Zutreffend", "Unvollständig" oder "Falsch" eingeteilt.

Ergebnisse:
Die Hälfte der Antworten der kostenlosen Version von ChatGPT war falsch, ein weiteres Viertel unvollständig. Bessere Ergebnisse wurden bei den kostenpflichtigen Versionen erzielt. Die bisher etablierte Version 4o lieferte jedoch noch immer 15% falsche Antworten. Auch durch die im September 2024 vorgestellte neue Version o1-preview konnte diese Quote nicht verringert werden.

Schlussfolgerung:
Die Studie zeigt, dass die manuelle Überprüfung und Validierung von Informationen, die von KI-Tools wie ChatGPT stammen, in der klinischen Arbeit nach wie vor unverzichtbar ist. Auch bei der o1-Version, die explizit für die Anwendung im medizinischen Bereich beworben wird, ist die Verlässlichkeit eingeschränkt.

Nein