Zur Website der OTH Regensburg

MusteR-FM

Motivation

Minimal-invasive Eingriffe in der Chirurgie und der therapeutischen Endoskopie erzeugen große Mengen hochauflösender Videodaten. Diese Videos zeigen nicht nur einzelne anatomische Strukturen oder Instrumente, sondern dokumentieren den Verlauf eines Eingriffs über die Zeit. Für KI-Verfahren ist dies eine besondere Herausforderung: Chirurgische Abläufe sind lang, variabel und durch klinische Entscheidungen geprägt. Übergänge zwischen Phasen können subtil sein, gleichzeitig erschweren Blut, Rauch, Verdeckungen oder Bewegungsunschärfe eine zuverlässige Analyse.

Bisherige KI-Ansätze in der chirurgischen Bildanalyse sind meist auf eng umrissene Einzelaufgaben ausgerichtet. Für Forschung, klinische Entwicklung und spätere Assistenzsysteme werden jedoch Modelle benötigt, die breiter einsetzbar sind und unterschiedliche Datenquellen, Modalitäten und Eingriffsarten zusammenführen können. MusteR-FM setzt hier an und entwickelt ein multimodales KI-Basismodell für chirurgische und endoskopische Videodaten. Es soll eine gemeinsame Repräsentation klinischer Workflows lernen und damit eine belastbare Grundlage für weitere Anwendungen schaffen.

Innerhalb der Bayerischen KI-Basismodell-Initiative bringt MusteR-FM einen klinisch anspruchsvollen und gesellschaftlich relevanten Anwendungsbereich ein. Das Projekt verbindet medizinische Bildanalyse, multimodales Lernen und zeitliches Videoverstehen mit konkreten Fragestellungen aus Health und perspektivisch auch Robotics and Perception. Damit leistet MusteR-FM einen Beitrag dazu, KI-Basismodelle nicht nur methodisch weiterzuentwickeln, sondern sie in einem sensiblen, praxisnahen medizinischen Kontext erprobbar und nutzbar zu machen.

Ziele und Vorgehen

Ziel von MusteR-FM ist die Entwicklung eines wiederverwendbaren Foundation Models für minimal-invasive chirurgische und endoskopische Workflows. Das Modell soll zwei unterschiedliche klinische Bildwelten gemeinsam erschließen: laparoskopische Videos mit starrer Optik und großem Sichtfeld sowie flexible gastrointestinale Endoskopien in engen luminalen Strukturen. Dadurch entsteht eine gemeinsame Modellgrundlage, die über einzelne Datensätze und Eingriffsarten hinaus generalisieren kann.

Im Projekt wird eine multimodale spatio-temporale Modellarchitektur aufgebaut. Bestehende klinische Videodaten und Annotationen werden genutzt, um visuelle Informationen mit medizinisch-prozeduralen Beschreibungen, Phaseninformationen und Hinweisen zur Sichtqualität zu verknüpfen. Das Modell soll dadurch nicht nur Bildinhalte erfassen, sondern auch den zeitlichen Verlauf eines Eingriffs modellieren und Hinweise auf bevorstehende Workflow-Übergänge ableiten können.

Die Evaluation erfolgt anhand klinisch validierter laparoskopischer Daten sowie endoskopischer ESD-Videos aus den beteiligten klinischen Kooperationen. Ergänzend werden öffentlich verfügbare Datensätze einbezogen, um die Robustheit und Übertragbarkeit der gelernten Repräsentationen zu untersuchen. Die Ergebnisse sollen transparent dokumentiert und für die nicht-kommerzielle Forschung nutzbar gemacht werden. Vorgesehen sind unter anderem Modell- und Datenkarten, reproduzierbare Evaluationsprotokolle sowie eine offene Bereitstellung geeigneter Artefakte.

Das entstehende Basismodell bildet damit eine Grundlage für unterschiedliche nachgelagerte Aufgaben wie Workflow-Erkennung, Phasenklassifikation, Vorhersage nächster Prozessschritte, Objekterkennung, Segmentierung, Bildsuche, Qualitätssicherung und Trainingsunterstützung. Zugleich stärkt MusteR-FM die Verbindung zwischen universitärer KI-Forschung, klinischer Anwendung und bayerischem Medizintechnik-Transfer.

Förderung Für

OTH Regensburg

mit den klinischen Kooperationspartnern

Förderung DUrch

Bayerisches Staatsministerium für Wissenschaft und Kunst im Rahmen der Initiative Bayerisches KI-Basismodell.

Projektseite: https://www.ai-bay.eu/#

Zeitraum und Volumen

Gesamtprojekt: Mai 2026 bis April 2029 (Phase 1 und Phase 2)

Projektzeitraum MusteR-FM (Phase 1): August 2026 bis Oktober 2027

Volumen (Phase 1): ca. 105 T€