Universität Bonn

Institut für Informatik

28. November 2024

OpenGPT-X veröffentlicht europäisches KI-Sprachmodell Teuken-7B – die Informatik Bonn gratuliert OpenGPT-X veröffentlicht europäisches KI-Sprachmodell Teuken-7B – die Informatik Bonn gratuliert

In dieser Abbildung ist die Sprachverteilung von Teuken-7B-v0.4 dargestellt. Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und ca. 40 Prozent englische Pretraining-Daten.
In dieser Abbildung ist die Sprachverteilung von Teuken-7B-v0.4 dargestellt. Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und ca. 40 Prozent englische Pretraining-Daten. © Fraunhofer IAIS
Alle Bilder in Originalgröße herunterladen Der Abdruck im Zusammenhang mit der Nachricht ist kostenlos, dabei ist der angegebene Bildautor zu nennen.

Das Forschungsprojekt OpenGPT-X hat ein großes KI-Sprachmodell namens Teuken-7B veröffentlicht. Es wurde von Grund auf mit allen 24 Amtssprachen der Europäischen Union trainiert und umfasst sieben Milliarden Parameter. Teuken-7B markiert einen wichtigen Meilenstein für Wissenschaft und Wirtschaft in Europa. Es bietet Forschenden und Unternehmen eine Open-Source-Alternative zu kommerziellen Modellen und ermöglicht dadurch transparentere und anpassbarere KI-Lösungen. Die Entwicklung des multilingualen Sprachmodells erfolgte unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS. Die Informatik Bonn gratuliert insbesondere Prof. Dr. Stefan Wrobel, IAIS-Institutsleiter und Professor der Abteilung III des Instituts für Informatik, zu diesem herausragenden Erfolg!

Multilinguales Training und Effizienz

Teuken-7B ist aktuell eines der wenigen KI-Sprachmodelle, die von Grund auf multilingual entwickelt wurden. Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten und erweist sich über mehrere Sprachen hinweg in seiner Leistung als stabil und zuverlässig. Dies bietet insbesondere internationalen Unternehmen mit mehrsprachigen  Kommunikationsbedarfen sowie Produkt- und Serviceangeboten einen Mehrwert. „Unser Modell hat seine Leistungsfähigkeit über eine große Bandbreite an Sprachen gezeigt, und wir hoffen, dass möglichst viele das Modell für eigene Arbeiten und Anwendungen adaptieren oder weiterentwickeln werden. So wollen wir sowohl innerhalb der wissenschaftlichen Community als auch gemeinsam mit Unternehmen unterschiedlicher Branchen einen Beitrag leisten, um den steigenden Bedarf nach transparenten und individuell anpassbaren Lösungen der generativen Künstlichen Intelligenz zu adressieren“, sagt Prof. Dr. Stefan Wrobel.

Ein speziell im OpenGPT-X Projekt entwickelter multilingualer Tokenizer führt zu einer Reduzierung der Trainingskosten im Vergleich zu anderen wie Llama3 oder Mistral. Damit können vor allem bei europäischen Sprachen mit langen Wörtern oder im Betrieb von mehrsprachigen KI-Anwendungen Effizienzsteigerungen erreicht werden.

Open-Source-Modell mit europäischer Perspektive

Als frei verfügbares Open-Source-Modell bietet Teuken-7B eine Alternative aus der öffentlichen Forschung für Wissenschaft und Unternehmen in Europa. Es unterstützt die Entwicklung von individuellen KI-Lösungen ohne Black-Box-Komponenten, was besonders für sicherheitskritische Anwendungen in Bereichen wie Automobilindustrie, Robotik, Medizin und Finanzwesen von Bedeutung ist. Hinsichtlich Datenschutz und Sicherheit ermöglicht das Modell die sichere Nutzung sensibler Unternehmens- und Forschungsdaten unter Einhaltung europäischer Datenschutz- und Sicherheitsbestimmungen. Nicht zuletzt stärkt ein europäisches Sprachmodell die digitale Souveränität, Wettbewerbsfähigkeit und Resilienz von Deutschland und Europa.

Das Projekt OpenGPT-X wurde vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) mit rund 14 Millionen Euro gefördert. Die zehn Projektpartner sind Fraunhofer IAIS, Fraunhofer IIS, Forschungszentrum Jülich, KI Bundesverband, TU Dresden, DFKI, IONOS, Aleph Alpha, ControlExpert und WDR.

Teuken-7B ist ab sofort über die Gaia-X Infrastruktur zugänglich und steht kostenfrei zum Download auf Hugging Face zur Verfügung.

Urheberrechte
Universität Bonn
Wird geladen