NASZ SPLITBLOG W KWIETNIU: DeepSeek-R1

Jak zawsze, w tym miejscu zajęliśmy się propozycjami tematów od naszego zespołu. Temat na ten miesiąc został zaproponowany przez naszą dyrektor zarządzającą Caro i dotyczy aktualnego szumu wokół DeepSeek-R1.

Kiedy przyjrzymy się chińskiemu modelowi językowemu DeepSeek-R1, od razu rzuca się w oczy jedna cecha: ogromna przewaga cenowa w porównaniu z innymi modelami. A wszystko to przy konkurencyjnej wydajności. Ta niska cena jest możliwa dzięki niezwykle wydajnej metodzie treningowej i architekturze modelu, które zostały zastosowane w tym modelu. DeepSeek-R1 wywołał prawdziwy szum i jest przedstawiany w mediach niemal jako skok kwantowy. Ale co się za tym kryje?

Wiele hałasu o nic?

W rzeczywistości DeepSeek-R1 nie jest nową technologią, a jedynie imponującym połączeniem znanych już technologii, takich jak podejście Mixture of Experts.

To innowacyjne połączenie umożliwia działanie modelu na stosunkowo niedrogim sprzęcie. Ponadto DeepSeek-R1 udoskonalił uczenie się przez wzmacnianie. Mówiąc najprościej, wyniki generowane przez DeepSeek-R1 są przenoszone do następnej wersji modelu, co prowadzi do ogromnej poprawy „inteligencji” tej następnej generacji. Na przykład OpenAI potrzebuje obecnie znacznie więcej wysiłku, aby znacząco ulepszyć własne modele. Dlatego też koncern jest pod coraz większą presją ze strony DeepSeek-R1 i publikacji związanych z nim szczegółów technicznych.

W całym tym zamieszaniu nie należy jednak zapominać, że w ostatnich latach niemal co tydzień pojawiały się innowacyjne rozwiązania w dziedzinie modeli językowych – ze strony firm, uniwersytetów lub podmiotów państwowych. Przykładem tego jest model Teuken7B. Ani podejście Open Source, ani baza DeepSeek-R1 nie są tak naprawdę nowatorskie.

Rozwój DeepSeek-R1 jest raczej reakcją na sankcje nałożone przez USA – Chinom brakuje wydajnego sprzętu.

DeepSeek-R1 z pewnością nie jest pierwszym modelem językowym Open Source, któremu udało się na krótki czas wspiąć na szczyt tabeli porównawczej.

DeepSeek-R1 może być używany przez każdego – nawet bez uruchamiania go na własnym sprzęcie. Jednakże, podobnie jak w przypadku innych modeli, wprowadzone dane są przekazywane producentowi. Ponadto należy pamiętać, że wiedza, na której się opiera, jest częściowo nacechowana politycznie. Jest to jednak okoliczność, którą zaobserwowano już w przypadku innych modeli. DeepSeek-R1 osiągnął więc przede wszystkim jedno: znalazł tani i wysoce wydajny sposób na trenowanie i ulepszanie złożonych modeli językowych. I pokazał tę drogę opinii publicznej. Można zatem założyć, że rozwój w tej dziedzinie nabierze jeszcze większego tempa dzięki publikacji DeepSeek-R1. Jednak prawdopodobnie nie wystarczy to, aby uzyskać trwałą przewagę nad konkurencją.