Wie immer beschäftigten wir uns an dieser Stelle mit Themenvorschlägen aus unserem Team. Der Themenwunsch für diesen Monat kommt von unserer Geschäftsführerin Caro und beschäftigt sich mit dem aktuellen Hype um DeepSeek-R1.
Wenn man sich mit dem chinesischen Sprachmodell DeepSeek-R1 beschäftigt, sticht vor allem eine Eigenschaft sofort ins Auge: der immense Preisvorteil gegenüber anderen Modellen. Und das bei konkurrenzfähiger Leistung. Ermöglicht wird dieser Kampfpreis durch eine extrem effiziente Trainingsmethode und Modellarchitektur, die für das Modell angewandt wurde. DeepSeek-R1 hat einen regelrechten Hype verursacht und wird in den Medien nahezu als Quantensprung dargestellt. Doch was steckt eigentlich dahinter?
Viel Lärm um nichts?
Tatsächlich handelt es sich bei DeepSeek-R1 nicht um eine neue Technologie, sondern lediglich um eine beeindruckende Kombination bereits bekannter Technologien, wie den Mixture of Experts Ansatz.
Diese innovative Kombination ermöglicht den Betrieb des Modells auf vergleichsweise günstiger Hardware. Und: DeepSeek-R1 hat das Reinforcement Learning perfektioniert. Vereinfacht ausgedrückt, werden dabei die von DeepSeek-R1 produzierten Ergebnisse in die nächste Modellversion übertragen und damit eine enorme Verbesserung der „Intelligenz“ jener nächsten Generation erreicht. OpenAI beispielsweise benötigt momentan sehr viel mehr Aufwand um die eigenen Modelle erheblich zu verbessern. Weshalb der Konzern durch DeepSeek-R1 und die Veröffentlichung der zugehörigen technischen Details zunehmend unter Druck gerät.
Bei all der Aufregung sollte aber nicht außer Acht gelassen werden, dass es in den letzten Jahren annähernd wöchentlich innovative Entwicklungen im Bereich der Sprachmodelle gegeben hat – von Unternehmen, Universitäten oder staatlich getriebenen Akteuren. Ein Beispiel hierfür ist das Modell Teuken7B. Weder der Open Source Ansatz noch die Basis von DeepSeek-R1 sind wirklich neuartig.
Vielmehr ist die Entwicklung von DeepSeek-R1 eine Reaktion auf die Sanktionen der USA – es mangelt China an leistungsfähiger Hardware.
DeepSeek-R1 ist bei weitem nicht das erste Open Source Sprachmodell, das es für einen kurzen Zeitraum an die Spitze der Vergleichstabelle geschafft hat.
Nutzbar ist DeepSeek-R1 für jeden – auch ohne den Betrieb auf der eigenen Hardware. Allerdings werden hier, wie bei anderen Modellen auch, die eingegebenen Daten an den Hersteller weitergegeben. Zudem sollte man sich im Klaren darüber sein, dass das hinterlegte Wissen in Teilen politisch gefärbt ist. Ein Umstand allerdings, der zum Teil ebenfalls bereits bei anderen Modellen beobachtet wurde. DeepSeek-R1 hat also vor allem eines geschafft: einen kostengünstigen und hocheffizienten Weg zu finden, komplexe Sprachmodelle zu trainieren und zu verbessern. Und es hat diesen Weg der Öffentlichkeit gezeigt. Man kann also davon ausgehen, dass die Entwicklung in diesem Bereich durch die Veröffentlichung von DeepSeek-R1 noch einmal zusätzlich an Fahrt aufnimmt. Für einen dauerhaften Vorteil gegenüber den Mitbewerbern wird es aber vermutlich nicht reichen.