Nasz blog w marcu – Deep Mind Gemini 1.5

Dziś przyjrzymy się nowemu modelowi AI od Google. Jest to multimodalny model AI, który może przetwarzać różne rodzaje informacji, takie jak teksty, obrazy, kody programów i informacje audio oraz ich kombinacje.

Propozycja tematu od naszego programisty Matsa, który jest głównym odpowiedzialnym za rozwój naszego chatbota Kosmo

Kilka tygodni temu Google DeepMind zaprezentował Gemini 1.5 – aktualizację dotychczasowych modeli AI od Google.

Przełomowa jest szczególnie ilość danych, jaką Gemini 1.5 może przetwarzać. W oknie kontekstowym można udostępnić do 1 miliona tokenów. W wewnętrznych eksperymentach ilość danych można było nawet zwiększyć do 10 milionów tokenów. Token to rodzaj jednostki podstawowej, za pomocą której na przykład zdania są dzielone na mniejsze jednostki (tokeny) i w ten sposób mogą być przetwarzane przez model. Token jest więc grupą znaków. Dla porównania: Chat GPT-4 Turbo może przetwarzać 128000 tokenów (stan na grudzień 2023). Odpowiada to książce o objętości około 300 stron. Gdyby dostarczono więcej stron, model nie miałby już dostępu do informacji z pierwszych stron. Obrazowo mówiąc, na końcu książki nie pamiętałby już, kto jest jej autorem.

Gemini 1.5 może przechwytywać i analizować do godziny materiału wideo, jedenaście godzin nagrań audio, teksty zawierające do 700000 słów lub 30000 linii kodu. I co jeszcze bardziej zdumiewające: potrafi „zapamiętać” treści i powiązać je z nowymi informacjami.

Podczas prezentacji nowego modelu, Gemini 1.5 otrzymał zadanie przeanalizowania 402-stronicowego transkryptu misji Apollo 11 i znalezienia w nim trzech humorystycznych momentów. Rzeczywiście, model zdołał w ciągu około 30 sekund znaleźć trzy zabawne momenty. Na przykład, pilot modułu dowodzenia Michael Collins powiedział w jednym miejscu: „Car właśnie myje zęby, więc go zastąpię.”.

Bez dodatkowych informacji badacze następnie przesłali odręczny rysunek przedstawiający wystający but i zapytali, jaki moment przedstawia obraz. Odpowiedź przyszła natychmiast: „Mały krok dla człowieka, ale wielki krok dla ludzkości.” Gemini 1.5 potrafi więc bez konkretnych instrukcji tworzyć i poprawnie odtwarzać złożone powiązania.

  1. Architektura modelu jest również zaawansowana. Nie jest to już jednolite, duże podejście modelowe, ale zbiór mniejszych, wyspecjalizowanych modeli transformerowych. Ten rodzaj architektury nazywa się Mixture of Experts (MoE). Każdy z tych modeli transformerowych jest niejako ekspertem w swojej dziedzinie i jest w stanie obsługiwać określone segmenty danych lub różne zadania. Na podstawie przychodzących danych dynamicznie wybierany jest najlepiej dopasowany model do użycia. Dla różnych danych wejściowych aktywowane są więc różne podsieci modelu w celu uzyskania odpowiednich wyników.

To podejście znacznie zwiększa efektywność i jakość dostarczanych wyników.

Obecnie Gemini 1.5 jest dostępny tylko dla wybranych klientów korporacyjnych i programistów. Z niecierpliwością czekamy na dalszy rozwój.