banner

Unser Splitblog im März – Deep Mind Gemini 1.5

banner
4 min read

Unser Splitblog im März – Deep Mind Gemini 1.5

Heute wollen wir uns mit dem neuen KI-Model aus dem Hause Google beschäftigen. Hierbei handelt es sich um ein multimodales KI-Model, das verschiedene Arten von Informationen, wie zum Beispiel Texte, Bilder, Programmcodes und Audioinformationen und deren Kombinationen verarbeiten kann.

Ein Themenvorschlag unseres Entwicklers Mats, der federführend für die Entwicklung unseres Chatbots Kosmo verantwortlich ist

Vor wenigen Wochen stellte Google DeepMind Gemini 1.5 vor – ein Update der bisherigen KI-Modelle aus dem Hause Google.

Bahnbrechend ist besonders die Datenmenge, die Gemini 1.5 verarbeiten kann. Bis zu 1 Million Token können im Kontextfenster bereitgestellt werden. In internen Experimenten konnte die Datenmenge sogar auf 10 Millionen Token erhöht werden. Ein Token ist eine Art Basiseinheit, mit der beispielsweise Sätze in kleinere Einheiten (Tokens) aufgeteilt und so von dem Modell verarbeitet werden können. Es handelt sich bei einem Token also um eine Gruppe von Zeichen. Zum Vergleich: Chat GPT-4 Turbo kann 128000 Tokens verarbeiten (Stand Dezember 2023). Das entspricht in etwa einem 300 seitigem Buch. Würden mehr Seiten bereitgestellt, könnte das Modell auf die Informationen der ersten Seiten nicht mehr zugreifen. Bildlich gesprochen wüsste es am Ende eines Buches nicht mehr, wie dessen Autor heißt.

Gemini 1.5 kann bis zu einer Stunde Videomaterial, elf Stunden Audioaufnahmen, Texte mit bis zu 700000 Wörtern oder 30000 Zeilen Code erfassen und analysieren. Und, was noch erstaunlicher ist: es kann sich an die Inhalte „erinnern“ und diese mit neuen Informationen in Verbindung bringen.

Bei der Vorstellung des neuen Modells wurden Gemini 1.5 mit der Aufgabe betreut, das 402 Seiten lange Transkript der Apollo 11 Mission zu analysieren und darin drei humoristische Stellen zu finden. Tatsächlich gelang es dem Modell, innerhalb von etwa 30 Sekunden, drei unterhaltsame Momente herauszufinden. So sagte Command Module Pilot Michael Colins beispielsweise an einer Stelle: „Der Zar putzt gerade seine Zähne, also springe ich für ihn ein.“.

Ohne weitere Informationen luden die Forscher anschließend eine handgefertigte Zeichnung eines austretenden Stiefels hoch und fragten, welcher Moment auf dem Bild gezeigt wird. Die Antwort kam prompt: „Ein kleiner Schritt für einen Menschen, aber ein großer Schritt für die Menschheit.“ Gemini 1.5 kann also ohne konkrete Anweisungen komplexe Zusammenhänge herstellen und korrekt wiedergeben.

  1. Auch die Architektur des Modells ist fortschrittlich. Es handelt sich nicht mehr um einen einheitlichen, großen Modellansatz, sondern um eine Sammlung kleinerer, spezialisierter Transformer-Modelle. Man nennt diese Art der Architektur Mixture of Experts (MoE). Jedes dieser Transformer-Modelle ist sozusagen Experte auf seinem Gebiet und in der Lage bestimmte Datensegmente oder unterschiedliche Aufgaben zu bewältigen. Basierend auf den eingehenden Daten wird dynamisch das am besten geeignete Modell für den Einsatz ausgewählt. Für verschiedene Eingaben werden für die passenden Ausgaben also unterschiedliche Teilenetzwerke des Models aktivieret.

Dieses Vorgehen erhöht die Effizienz und die Qualität der gelieferten Ergebnisse enorm.

Aktuell ist Gemini 1.5 nur für ausgewählte Unternehmenskunden und Entwickelnde verfügbar. Wir sind gespannt auf die weitere Entwicklung.