NOTRE SPLITBLOG D’AVRIL : DeepSeek-R1

Comme toujours, nous avons abordé ici des suggestions de sujets de notre équipe. Le thème souhaité pour ce mois-ci vient de notre directrice générale, Caro, et porte sur le battage médiatique actuel autour de DeepSeek-R1.

Lorsque l’on s’intéresse au modèle linguistique chinois DeepSeek-R1, une caractéristique saute immédiatement aux yeux : l’immense avantage de prix par rapport aux autres modèles. Et ce, avec des performances compétitives. Ce prix de combat est rendu possible par une méthode d’entraînement et une architecture de modèle extrêmement efficaces, qui ont été appliquées au modèle. DeepSeek-R1 a provoqué un véritable engouement et est presque présenté dans les médias comme un bond en avant. Mais qu’y a-t-il réellement derrière ?

Beaucoup de bruit pour rien ?

En réalité, DeepSeek-R1 n’est pas une nouvelle technologie, mais simplement une combinaison impressionnante de technologies déjà connues, comme l’approche Mixture of Experts.

Cette combinaison innovante permet de faire fonctionner le modèle sur un matériel comparativement bon marché. Et : DeepSeek-R1 a perfectionné l’apprentissage par renforcement. En termes simples, les résultats produits par DeepSeek-R1 sont transférés dans la version suivante du modèle, ce qui permet d’améliorer considérablement l’« intelligence » de cette prochaine génération. OpenAI, par exemple, a actuellement besoin de beaucoup plus d’efforts pour améliorer considérablement ses propres modèles. C’est pourquoi le groupe subit une pression croissante de la part de DeepSeek-R1 et de la publication des détails techniques correspondants.

Malgré toute cette agitation, il ne faut pas oublier que, ces dernières années, il y a eu des développements innovants presque chaque semaine dans le domaine des modèles linguistiques – de la part d’entreprises, d’universités ou d’acteurs étatiques. Le modèle Teuken7B en est un exemple. Ni l’approche Open Source ni la base de DeepSeek-R1 ne sont vraiment nouvelles.

Le développement de DeepSeek-R1 est plutôt une réaction aux sanctions américaines – la Chine manque de matériel performant.

DeepSeek-R1 est loin d’être le premier modèle linguistique Open Source à avoir réussi à se hisser en tête du tableau comparatif pendant une courte période.

DeepSeek-R1 peut être utilisé par tous – même sans fonctionner sur son propre matériel. Toutefois, comme pour d’autres modèles, les données saisies sont transmises au fabricant. De plus, il faut être conscient que les connaissances sous-jacentes sont en partie colorées politiquement. Un fait qui a toutefois déjà été observé en partie sur d’autres modèles. DeepSeek-R1 a donc surtout réussi une chose : trouver une voie rentable et très efficace pour entraîner et améliorer des modèles linguistiques complexes. Et il a montré cette voie au public. On peut donc supposer que le développement dans ce domaine va encore s’accélérer grâce à la publication de DeepSeek-R1. Mais cela ne suffira probablement pas pour obtenir un avantage durable sur les concurrents.