In dieser Abbildung ist die Sprachverteilung von Teuken-7B-v0.4 dargestellt. Neben Code enthält Teuken-7B-v0.4 ca. 50 Prozent nicht-englischen Text aus 23 europäischen Ländern und ca. 40 Prozent englische Pretraining-Daten. Zurück