Poster

  • Visual Abstract

Image- and text-based generation of surgical reports for FESS

Abstract

Introduction
The aim of the projekt is to develop a tool that generates semi-automatic surgical reports based on voice input and selected individual images from video recordings of FESS. The objective is to shorten documentation time and continuously improve the quality of the reports.
Material and methods
An introduced AI-based language model was further trained to process selected individual images by an automatic "cluster algorithm" in addition to textual surgical reports from FESS experts. The model was supplemented by a "text encoder" specifically pre-trained on medical texts. This "vision-language model" is based on the architecture of AI networks and generates OR reports recursively, based on the data records generated to date. The documentation was subsequently evaluated in terms of specificity, sensitivity and semantics using the text metrics ROUGE, BLEU and COSS.
Results
An OR report can be generated with the recent model in 300ms (-50ms). An expansion of the "text encoder" to 20 million text modules was achieved. The best result was reached with manually selected image data (ROUGE 0.67, BLEU 0.46, COSS 0.64). The addition of a domain-specific "text encoder" and manually selected surgical image data thus significantly improved report quality by 16% compared to pure text processing and by 8% compared to automatic image selection (p<.05).
Conclusion
The added value of the combined use of image and text data has been proven for text generation applications. This approach of selecting and processing relevant image data in addition to text achieves increasingly better results through the implementation of "vision language models". In the target scenario, this intraoperative acquisition can be expected to produce high-quality and efficient surgical documentation.

Einleitung
Ziel des Projektes ist die Weiterentwicklung eines Dokumentations-Tools, welches anhand von Spracheingaben sowie ausgewählten Einzelbildern von NNH-Operationen einen OP-Bericht generiert. Damit soll die Dokumentationszeit verkürzt und die Qualität der Berichte verbessert werden.

Material und Methoden
Ein bereits eingeführtes KI-basiertes Sprachmodell wurde weiter trainiert, um neben textuellen OP-Berichten von NNH-Experten ausgewählte Einzelbilder durch einen "Cluster-Algorithmus" zu verarbeiten. Das Modell konnte hierbei durch einen "Text-Encoder" ergänzt werden. Dieses "Vision-Language-Modell" basiert auf der Architektur künstlicher neuronaler Netze und generiert OP-Berichte rekursiv. Die Dokumentation wurde bzgl. Spezifität, Sensitivität und Semantik anhand der Text-Metriken ROUGE, BLEU und COSS bewertet.

Ergebnisse
Ein OP-Bericht kann mit dem aktualisierten Modell in 300ms erzeugt werden (-50ms). Eine Expansion des "Text-Encoder" gelang auf 20 Mio. Textbausteine. Das beste Ergebnis erzielten manuell ausgewählte Bilddaten (ROUGE 0.67, BLEU 0.46, COSS 0.64). Damit gelang durch die Erweiterung um einen domainenspezifischen "Text-Encoder" und manuell selektierte OP-Bilddaten eine signifikante Verbesserung der Bericht-Qualität um 16% im Vergleich zur reinen Textverarbeitung und um 8% zur automatischen Bildauswahl (p<.05).

Schlussfolgerung
Der Mehrwert einer kombinierten Nutzung von Bild- und Textdaten ist für die OP-Berichterstellung gegeben. Der semiautomatische Ansatz der Auswahl und Verarbeitung relevanter Bilddaten zusätzlich zu Texten erzielt durch die Implementierung von "Vision-Language-Modellen" zunehmend bessere Ergebnisse. Im Zielszenario ist durch diese intraoperative Erfassung eine hochwertige und effiziente OP-Dokumentation zu erwarten.

Die Autorinnen/Autoren geben an, dass kein Interessenkonflikt besteht.