03. Mai 2024

Informatik-Studierende entwickeln KIs für die Forschung BMBF-Projekt BNTrAinee: Informatik-Studierende entwickeln KIs für die Forschung

BMBF-Projekt BNTrAinee trägt Know-how zu modernen Maschinenlern-Algorithmen in andere Fachdisziplinen

BMBF-Projekt BNTrAinee: Informatik-Studierende entwickeln KIs für die Forschung - Anzeigenseite aus der Kölnischen Zeitung. Für das Training der KI wurden die einzelnen Layout-Strukturen manuell erfasst und kategorisiert. Die Farben stehen dabei für die unterschiedlichen Elemente. © AG Selgert / Universität Bonn

Alle Bilder in Originalgröße herunterladen Der Abdruck im Zusammenhang mit der Nachricht ist kostenlos, dabei ist der angegebene Bildautor zu nennen.

Das an der Universität Bonn angesiedelte BMBF-Projekt BNTrAinee entwickelt KI-gestützte Lösungen für konkrete Forschungsfragen. Es vernetzt die Informatik der Universität mit ganz unterschiedlichen Fachrichtungen. Diese Kooperation trägt nun erste Früchte: Informatik-Studierende haben zusammen mit Historikerinnen und Historikern einen Algorithmus entwickelt, der bei der Auswertung alter Zeitungsartikel helfen kann.

Wenn von Künstlicher Intelligenz (KI) die Rede ist, sind damit meist lernfähige Computerprogramme gemeint. Diese werden mit einer großen Menge von Daten trainiert und erkennen darin dann bestimmte Regelmäßigkeiten. „Derartige Verfahren können die Bearbeitung von Aufgaben erleichtern, die sonst sehr zeit- und personalaufwändig wären“, erklärt der Informatiker Dr. Moritz Wolter von der Universität Bonn. „Es gibt daher viele Forschungsbereiche, die von ihnen enorm profitieren könnten. Wir versuchen, ihnen mit unserer Expertise zu helfen.“

Wolter ist einer der Koordinatoren des Projekts BNTrAinee des Digital Science Center der Universität Bonn, das diese Vernetzung über die Fächergrenzen hinweg vorantreiben soll. Es wird seit zwei Jahren vom Bundesministerium für Bildung und Forschung mit der stolzen Summe von 1,99 Millionen Euro gefördert. „Das Projekt bringt Studierende mit Wissenschaftlerinnen und Wissenschaftlern zusammen, die ein Problem haben, das sie mittels KI lösen wollen“, erklärt der Informatiker, der auch Mitglied im Transdisziplinären Forschungsbereich „Modelling“ der Universität Bonn ist.

Beide Seiten profitieren

Von dem Blick über den Tellerrand profitieren beide Seiten gleichermaßen. „Unsere Studentinnen und Studenten müssen für ihren Abschluss ohnehin eine Software programmieren“, sagt Dr. Elena Trunz, ebenfalls Koordinatorin von BNTrAInee. „In dem Projekt können sie das in einem richtigen Forschungsprojekt tun, mit der Genugtuung, dass das Ergebnis ihrer Arbeit danach tatsächlich genutzt wird. Die Anwenderinnen und Anwender - also die Forschenden und ihre Studierenden - wiederum lernen, wie sich KI und maschinelles Lernen für ihre Projekte gewinnbringend einsetzen lässt. Sie sehen zugleich auch, wo ihre Grenzen liegen.“

Beide Seiten lernen zudem, eine gemeinsame Sprache zu sprechen: Die angehenden Informatikerinnen und Informatiker müssen zunächst genau verstehen, bei welcher konkreten Fragestellung die KI unterstützen soll. Ihre Kundinnen und Kunden lernen dagegen, welche Daten die Algorithmen dafür benötigen und wie diese strukturiert sein müssen. Hinzu kommen Schulungen zur Arbeitsweise von lernfähigen Verfahren. Darin geht es auch um aktuelle Probleme aus der KI-Forschung - etwa die Frage, auf welcher Basis die Verfahren überhaupt ihre Schlüsse ziehen. Denn viele der Algorithmen sind eine „Black Box“: Sie liefern Ergebnisse, doch es ist unklar, wie sie dazu kommen. Das erschwert die Beurteilung, wie zuverlässig sie überhaupt arbeiten.

Welche Auswirkung haben Wirtschaftskrisen auf die Stellengesuche?

Einer, der große Hoffnung in lernfähige Algorithmen setzt, ist Dr. Felix Selgert. Der Wirtschaftshistoriker geht unter anderem der Frage nach, wie sich wirtschaftliche Umbrüche - etwa zur Zeit der Hyperinflation 1923 - in der Presse wiederspiegeln. „Ich interessiere mich zum Beispiel dafür, welche Rückschlüsse Zeitungsartikel auf die gesellschaftliche Stimmung zulassen“, sagt er. „Ein weiterer Schwerpunkt meiner Forschung liegt in der Auswertung von Inseraten, etwa von Stellenanzeigen oder Werbung.“

Sein Problem ist die schiere Menge an Material, die er auswerten müsste. Allein die Kölnische Zeitung erschien in den 1920er Jahren teilweise mehrmals täglich, 365 Tage im Jahr. Schon die Transkription eines einzigen Jahrgangs - also die Erstellung einer digitalen Abschrift - würde tausende von Arbeitsstunden kosten. „Althergebrachte Softwarelösungen zur optischen Texterkennung helfen da leider wenig weiter“, sagt er. „Sie haben zum Beispiel riesige Probleme mit dem Layout.“

Denn Papier war damals Mangelware. Entsprechend dicht waren die Zeitungsblätter bedruckt. Die Spalten wurden nicht durch Weißraum, sondern durch dünne Linien getrennt. „Normale“ Computerprogramme übersehen diese Trenner häufig. „Sie vermischen dann beispielsweise nebeneinander stehende Artikel miteinander“, sagt Selgert. Auch fällt es ihnen schwer, Überschriften oder Zwischenzeilen korrekt zu identifizieren und zu erkennen, zu welchem Text sie gehören.

Studierende aus der Informatik haben daher eine KI entwickelt, die das Layout der Seite erkennt und sie in ihre einzelnen Elemente zerlegt. In einem nächsten Schritt soll eine weitere selbstlernende Software zur Texterkennung zum Einsatz kommen. Sie befindet sich allerdings noch in der Entwicklung. „Endziel ist es, dass die KI alle Artikel und anderen Elemente einer gescannten Ausgabe im Volltext erfasst und automatisch kategorisiert“, erklärt Selgert, der auch Mitglied im Transdisziplinären Forschungsbereich „Individuals and Societies“ der Universität Bonn ist. „Bis dahin ist es aber noch ein weiter Weg.“

Bessere Krebsdiagnostik, mehr Datenschutz

Das Projekt ist nur ein Beispiel für die maßgeschneiderte Anpassung von KI-Algorithmen an ganz spezifische Forschungsfragen. Informatik-Studierende der Universität und Radiologen des Universitätsklinikums Bonn wollen zum Beispiel die Krebs-Diagnostik verbessern helfen. Dazu entwickeln sie Verfahren, die Mikroskopie-Aufnahmen von entnommenem Gewebe auswerten. In einem anderen Projekt geht es dagegen um einen besseren Datenschutz: Biologinnen und Biologen zeichnen oft Tierstimmen auf, um damit die Artenvielfalt in bestimmten Gebieten zu beurteilen. Als „Beifang“ sind auf den Aufnahmen manchmal auch menschliche Unterhaltungen zu hören. Der Algorithmus soll solche Passagen erkennen und automatisch entfernen.

Weitere Informationen

Zur Projektwebseite: https://trainee.cs.uni-bonn.de/

Kontakt

Dr. Moritz Wolter
High Performance Computing & Analytics Lab (HPC/A)
Universität Bonn
Tel.: +49 228 73 60938
E-Mail: moritz.wolter@uni-bonn.de

Dr. Elena Trunz
Institut für Informatik II - Visual Computing
Universität Bonn
Tel.: +49 228 73-54191
Email: trunz@cs.uni-bonn.de

Urheberrechte

Universität Bonn