DeepSeek의 경제성은 신화입니다. 혁명 AI는 실제로 개발하는 데 16 억 달러가 들었습니다.

작가: Ryan Mar 16,2025

DeepSeek의 새로운 챗봇은 인상적인 소개를 자랑합니다. "안녕하세요, 나는 당신이 무엇이든 물어보고 당신을 놀라게 할 수있는 답을 얻을 수 있도록 만들어졌습니다." 중국 스타트 업 Deepseek의 제품인이 AI는 빠르게 주요 시장 플레이어가되어 Nvidia의 주가가 크게 하락하기까지했습니다. 성공은 몇 가지 혁신적인 기술을 통합 한 독특한 아키텍처 및 교육 방법론에서 비롯됩니다.

MTP (Multi-Token Prediction) : 전통적인 단어 별 예측과 달리 MTP는 여러 단어를 동시에 예측하여 정확도와 효율성을 높이기 위해 다양한 문장 구성 요소를 분석합니다.

전문가 (MOE)의 혼합 : 이 아키텍처는 여러 신경망을 활용하여 입력 데이터를 처리하고 AI 교육을 가속화하고 성능을 향상시킵니다. DeepSeek V3는 256 개의 신경망을 사용하여 각 토큰 처리 작업마다 8 개를 활성화합니다.

다중 헤드 잠재주의 (MLA) : 이 메커니즘은 중요한 문장 요소에 중점을 두어 텍스트 조각에서 주요 세부 정보를 반복적으로 추출하여 정보 손실을 최소화하고 미묘한 뉘앙스를 포착합니다.

DeepSeek은 처음에는 2048 GPU 만 사용하여 강력한 Deepseek V3 모델에 대해 6 백만 달러의 매우 낮은 교육 비용을 주장했습니다. 그러나 Semianalysis는 훨씬 더 실질적인 인프라를 나타 냈습니다. 약 50,000 NVIDIA HOPPER GPU (10,000 H800, 10,000 H100 및 추가 H20 GPU 포함)는 여러 데이터 센터에 퍼져 있습니다. 이는 약 16 억 달러의 서버 투자와 9 억 9,400 만 달러로 추정되는 운영 비용으로 이어집니다.

중국 헤지 펀드 High-Flyer의 자회사 인 Deepseek는 클라우드 서비스에 의존하는 많은 신생 기업과 달리 데이터 센터를 소유하고 있습니다. 이 소유권은 모델 최적화와 더 빠른 혁신 구현을 완전히 제어 할 수 있습니다. 회사의 자체 자금 지원 상태는 유연성과 의사 결정 속도를 향상시킵니다. 또한 Deepseek은 최고의 인재를 유치하며 일부 연구자들은 매년 130 만 달러가 넘는 중국 대학에서 채용됩니다.

DeepSeek의 초기 6 백만 달러의 교육 비용 청구는 비현실적인 것으로 보이지만 GPU 사용을 사전 훈련하고 연구, 개선, 데이터 처리 및 인프라를 제외하고 만보 고하지만 회사는 여전히 AI 개발에 5 억 달러 이상을 투자했습니다. 그러나 린 구조는 더 큰 관료적 경쟁자에 비해 효율적인 혁신 구현을 허용합니다.

DeepSeek의 예는 산업 거대 기업과 성공적으로 경쟁하는 잘 자금을 지원하는 독립 AI 회사를 보여줍니다. "혁신적인 예산"주장이 과장되지만 회사의 성공은 상당한 투자, 기술 혁신 및 강력한 팀으로 인해 부인할 수 없게됩니다. 교육 비용을 비교할 때 대비는 엄청납니다. DeepSeek의 R1 모델은 5 백만 달러, ChatGpt-4는 1 억 달러가 소외되어 DeepSeek의 상대 비용 효율성을 강조했습니다. 상당한 투자를 고려하더라도 DeepSeek의 비용은 경쟁 업체보다 훨씬 저렴합니다.

Deepseek 테스트Deepseek V3DeepseekDeepseek