Dziś przyjrzymy się nowemu modelowi AI od Google. Jest to multimodalny model AI, który może przetwarzać różne rodzaje informacji, takie jak teksty, obrazy, kody programów i informacje audio oraz ich kombinacje.
Propozycja tematu od naszego programisty Matsa, który jest głównym odpowiedzialnym za rozwój naszego chatbota Kosmo
Kilka tygodni temu Google DeepMind zaprezentował Gemini 1.5 – aktualizację dotychczasowych modeli AI od Google.
Przełomowa jest szczególnie ilość danych, jaką Gemini 1.5 może przetwarzać. W oknie kontekstowym można udostępnić do 1 miliona tokenów. W wewnętrznych eksperymentach ilość danych można było nawet zwiększyć do 10 milionów tokenów. Token to rodzaj jednostki podstawowej, za pomocą której na przykład zdania są dzielone na mniejsze jednostki (tokeny) i w ten sposób mogą być przetwarzane przez model. Token jest więc grupą znaków. Dla porównania: Chat GPT-4 Turbo może przetwarzać 128000 tokenów (stan na grudzień 2023). Odpowiada to książce o objętości około 300 stron. Gdyby dostarczono więcej stron, model nie miałby już dostępu do informacji z pierwszych stron. Obrazowo mówiąc, na końcu książki nie pamiętałby już, kto jest jej autorem.
Gemini 1.5 może przechwytywać i analizować do godziny materiału wideo, jedenaście godzin nagrań audio, teksty zawierające do 700000 słów lub 30000 linii kodu. I co jeszcze bardziej zdumiewające: potrafi „zapamiętać” treści i powiązać je z nowymi informacjami.
Podczas prezentacji nowego modelu, Gemini 1.5 otrzymał zadanie przeanalizowania 402-stronicowego transkryptu misji Apollo 11 i znalezienia w nim trzech humorystycznych momentów. Rzeczywiście, model zdołał w ciągu około 30 sekund znaleźć trzy zabawne momenty. Na przykład, pilot modułu dowodzenia Michael Collins powiedział w jednym miejscu: „Car właśnie myje zęby, więc go zastąpię.”.
Bez dodatkowych informacji badacze następnie przesłali odręczny rysunek przedstawiający wystający but i zapytali, jaki moment przedstawia obraz. Odpowiedź przyszła natychmiast: „Mały krok dla człowieka, ale wielki krok dla ludzkości.” Gemini 1.5 potrafi więc bez konkretnych instrukcji tworzyć i poprawnie odtwarzać złożone powiązania.
- Architektura modelu jest również zaawansowana. Nie jest to już jednolite, duże podejście modelowe, ale zbiór mniejszych, wyspecjalizowanych modeli transformerowych. Ten rodzaj architektury nazywa się Mixture of Experts (MoE). Każdy z tych modeli transformerowych jest niejako ekspertem w swojej dziedzinie i jest w stanie obsługiwać określone segmenty danych lub różne zadania. Na podstawie przychodzących danych dynamicznie wybierany jest najlepiej dopasowany model do użycia. Dla różnych danych wejściowych aktywowane są więc różne podsieci modelu w celu uzyskania odpowiednich wyników.
To podejście znacznie zwiększa efektywność i jakość dostarczanych wyników.
Obecnie Gemini 1.5 jest dostępny tylko dla wybranych klientów korporacyjnych i programistów. Z niecierpliwością czekamy na dalszy rozwój.