Aujourd’hui, nous souhaitons aborder le nouveau modèle d’IA de Google. Il s’agit d’un modèle d’IA multimodal capable de traiter différents types d’informations, tels que des textes, des images, des codes de programmation et des informations audio, ainsi que leurs combinaisons.
Une suggestion de thème de notre développeur Mats, qui est le principal responsable du développement de notre chatbot Kosmo
Il y a quelques semaines, Google a présenté DeepMind Gemini 1.5 – une mise à jour des modèles d’IA existants de Google.
La quantité de données que Gemini 1.5 peut traiter est particulièrement révolutionnaire. Jusqu’à 1 million de tokens peuvent être mis à disposition dans la fenêtre contextuelle. Lors d’expériences internes, la quantité de données a même pu être augmentée à 10 millions de tokens. Un token est une sorte d’unité de base avec laquelle, par exemple, des phrases peuvent être divisées en unités plus petites (tokens) et ainsi traitées par le modèle. Un token est donc un groupe de caractères. À titre de comparaison, Chat GPT-4 Turbo peut traiter 128 000 tokens (état en décembre 2023). Cela correspond à environ un livre de 300 pages. Si davantage de pages étaient mises à disposition, le modèle ne pourrait plus accéder aux informations des premières pages. Pour imager, à la fin d’un livre, il ne saurait plus comment s’appelle son auteur.
Gemini 1.5 peut saisir et analyser jusqu’à une heure de matériel vidéo, onze heures d’enregistrements audio, des textes contenant jusqu’à 700 000 mots ou 30 000 lignes de code. Et, ce qui est encore plus étonnant : il peut se « souvenir » du contenu et le relier à de nouvelles informations.
Lors de la présentation du nouveau modèle, Gemini 1.5 a été chargé d’analyser la transcription de 402 pages de la mission Apollo 11 et d’y trouver trois passages humoristiques. En fait, le modèle a réussi à identifier trois moments amusants en l’espace de 30 secondes environ. Ainsi, le pilote du module de commande, Michael Collins, a déclaré à un moment donné : « Le tsar se brosse les dents, alors je le remplace. »
Sans autre information, les chercheurs ont ensuite téléchargé un dessin fait à la main d’une botte qui fuit et ont demandé quel moment était représenté sur l’image. La réponse est venue rapidement : « Un petit pas pour l’homme, mais un grand pas pour l’humanité. » Gemini 1.5 peut donc établir des liens complexes et les reproduire correctement sans instructions concrètes.
- L’architecture du modèle est également avancée. Il ne s’agit plus d’une approche de modèle uniforme et vaste, mais d’une collection de modèles de transformateurs plus petits et spécialisés. On appelle ce type d’architecture Mixture of Experts (MoE). Chacun de ces modèles de transformateurs est, pour ainsi dire, un expert dans son domaine et capable de gérer certains segments de données ou différentes tâches. Sur la base des données entrantes, le modèle le plus approprié pour l’utilisation est sélectionné de manière dynamique. Pour différentes entrées, différents sous-réseaux du modèle sont donc activés pour les sorties appropriées.
Cette approche augmente énormément l’efficacité et la qualité des résultats fournis.
Actuellement, Gemini 1.5 n’est disponible que pour certains clients commerciaux et développeurs. Nous sommes impatients de voir son évolution.