La asequibilidad de Deepseek es un mito: la IA revolucionaria en realidad costó $ 1.6 mil millones para desarrollarse

Autor: Ryan Mar 16,2025

El nuevo chatbot de Deepseek cuenta con una introducción impresionante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso te sorprenda". Esta IA, un producto de la startup china Deepseek, se ha convertido rápidamente en un importante jugador del mercado, incluso contribuyendo a una caída significativa en el precio de las acciones de Nvidia. Su éxito proviene de una metodología única de arquitectura y capacitación que incorpora varias tecnologías innovadoras.

Predicción de múltiples token (MTP): a diferencia de la predicción tradicional de palabras por palabra, MTP pronostica múltiples palabras simultáneamente, analizando varios componentes de oraciones para una mayor precisión y eficiencia.

Mezcla de expertos (MOE): esta arquitectura aprovecha múltiples redes neuronales para procesar datos de entrada, acelerar la capacitación de IA y aumentar el rendimiento. Deepseek V3 utiliza 256 redes neuronales, activando ocho para cada tarea de procesamiento de tokens.

Atención latente múltiple (MLA): este mecanismo se centra en elementos de oraciones cruciales, extrayendo repetidamente detalles clave de fragmentos de texto para minimizar la pérdida de información y capturar matices sutiles.

Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de solo $ 6 millones por su poderoso modelo Deepseek V3 utilizando solo 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más sustancial: aproximadamente 50,000 GPU de la tolva nvidia (incluidas 10,000 H800, 10,000 H100 y GPU H20 adicionales) se extienden en múltiples centros de datos. Esto se traduce en una inversión de servidor de aproximadamente $ 1.6 mil millones y los gastos operativos estimados en $ 944 millones.

Deepseek, una subsidiaria del Fondo de cobertura chino High-Flyer, posee sus centros de datos, a diferencia de muchas nuevas empresas que dependen de los servicios en la nube. Esta propiedad otorga un control completo sobre la optimización del modelo y la implementación de innovación más rápida. El estado autofinanciado de la compañía mejora la flexibilidad y la velocidad de toma de decisiones. Además, Deepseek atrae a los mejores talentos, y algunos investigadores ganan más de $ 1.3 millones anuales, principalmente reclutando de las principales universidades chinas.

Si bien el reclamo inicial de costos de capacitación de $ 6 millones de Deepseek parece poco realista, referir solo al uso previo al uso de la GPU y excluir la investigación, el refinamiento, el procesamiento de datos e infraestructura, la compañía todavía ha invertido más de $ 500 millones en desarrollo de IA. Sin embargo, su estructura magra permite una implementación eficiente de innovación en comparación con competidores más grandes y burocráticos.

El ejemplo de Deepseek muestra una compañía de IA independiente bien financiada que compite con éxito con los gigantes de la industria. Si bien el reclamo del "presupuesto revolucionario" es exagerado, el éxito de la compañía es innegable, alimentado por una inversión significativa, avances técnicos y un equipo fuerte. El contraste es marcado al comparar los costos de capacitación: el modelo R1 de Deepseek costó $ 5 millones, mientras que ChatGPT-4 costó $ 100 millones, destacando la relativa eficiencia relativa de Deepseek. Incluso teniendo en cuenta la inversión sustancial, el costo de Deepseek sigue siendo significativamente más bajo que sus competidores.

Prueba de SpeeekDeepseek v3VeteranoVeterano