L'abordabilité de Deepseek est un mythe: l'IA révolutionnaire a coûté 1,6 milliard de dollars pour développer

Auteur: Ryan Mar 16,2025

Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur du marché, contribuant même à une baisse significative du cours des actions de NVIDIA. Son succès provient d'une méthodologie d'architecture et de formation unique incorporant plusieurs technologies innovantes.

Prédiction multi-token (MTP): Contrairement à la prédiction traditionnelle mot par mot, MTP prévoit plusieurs mots simultanément, en analysant divers composants de phrases pour une précision et une efficacité améliorées.

Mélange d'experts (MOE): Cette architecture exploite plusieurs réseaux de neurones pour traiter les données d'entrée, accélérer la formation d'IA et augmenter les performances. Deepseek V3 utilise 256 réseaux de neurones, activant huit pour chaque tâche de traitement de jeton.

Attention latente multi-tête (MLA): Ce mécanisme se concentre sur les éléments cruciaux des phrases, extrait à plusieurs reprises les détails clés des fragments de texte pour minimiser la perte d'informations et capturer des nuances subtiles.

Deepseek a initialement réclamé un coût de formation remarquablement faible de seulement 6 millions de dollars pour son puissant modèle Deepseek V3 en utilisant seulement 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus substantielle: environ 50 000 GPU de trémie NVIDIA (dont 10 000 H800, 10 000 H100 et des GPU H20 supplémentaires) se sont répandus sur plusieurs centres de données. Cela se traduit par un investissement de serveur d'environ 1,6 milliard de dollars et les dépenses opérationnelles estimées à 944 millions de dollars.

Deepseek, une filiale du High Flyer de fonds spéculatifs chinois, possède ses centres de données, contrairement à de nombreuses startups qui s'appuient sur les services cloud. Cette propriété accorde un contrôle complet sur l'optimisation du modèle et la mise en œuvre plus rapide de l'innovation. Le statut autofinancé de l'entreprise améliore la flexibilité et la vitesse de prise de décision. En outre, Deepseek attire les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, recrutant principalement dans les grandes universités chinoises.

Alors que la réclamation de coûts de formation initiale de 6 millions de dollars de Deepseek semble irréaliste - ne référant qu'à l'utilisation pré-formation des GPU et excluant la recherche, le raffinement, le traitement des données et les infrastructures - la société a toujours investi plus de 500 millions de dollars dans le développement de l'IA. Sa structure Lean, cependant, permet une mise en œuvre efficace de l'innovation par rapport à des concurrents plus grands et plus bureaucratiques.

L'exemple de Deepseek présente une entreprise d'IA indépendante bien financée en concurrence avec succès avec les géants de l'industrie. Bien que la réclamation du "budget révolutionnaire" soit exagérée, le succès de l'entreprise est indéniable, alimenté par des investissements importants, des percées techniques et une équipe solide. Le contraste est frappant lors de la comparaison des coûts de formation: le modèle R1 de Deepseek a coûté 5 millions de dollars, tandis que ChatGPT-4 a coûté 100 millions de dollars, mettant en évidence la rentabilité relative de Deepseek. Même compte tenu de l'investissement substantiel, le coût de Deepseek reste nettement inférieur à ses concurrents.

Test de profondeurDeepseek v3En profondeurEn profondeur