Kliniken: KI scheitert an Verwaltungsaufgaben

Künstliche Intelligenz (KI) gilt als Hoffnungsträger für die Entlastung administrativer Prozesse im Krankenhaus. Doch eine aktuelle Studie aus den USA zeigt: Die heute verfügbaren Large-Language-Modelle (LLM) stoßen bei Routineaufgaben der Krankenhausverwaltung schnell an ihre Grenzen [1].

Im Rahmen der Untersuchung wurden neun der leistungsfähigsten LLM mit echten Patientendaten aus der Notaufnahme des New Yorker Klinikverbundes Mount Sinai Health System getestet. Die Aufgaben reichten von der Stammdatenprüfung über das Bettenmanagement bis hin zur Terminplanung. Das Ergebnis: Ohne zusätzliche Hilfsmittel lieferten die KI-Modelle bei einfachen Anfragen – etwa der Zählung stationär aufgenommener männlicher Patienten – häufig falsche Ergebnisse. Selbst das beste Modell, GPT-4o, erreichte zwar bei kleinen Datensätzen eine Genauigkeit von 95%, bei größeren Tabellen sank diese jedoch auf nur noch 60%. Erst nachdem die KI-Modelle angewiesen wurden, einen klassischen deterministischen Ansatz wie einen ausführbaren Code mittels der Programmiersprache Python zu erzeugen, konnten sie nahezu fehlerfreie Ergebnisse liefern. Die Studie kommt daher zu dem Schluss, dass für mathematische und administrative Aufgaben in der Krankenhausverwaltung klassische, deterministische Softwarelösungen weiterhin unverzichtbar sind. KI-Modelle können diese Prozesse nur dann zuverlässig unterstützen, wenn sie mit solchen Werkzeugen kombiniert werden.

1. Klang E et al (2026) Large language models are poor clinical administrators: An evaluation of structured queries in real-world electronic health records. PLOS Digital Health 5: e0001326