中国のスタートアップ企業DeepSeekの最新大規模言語モデルが話題になっている。その最新モデル、DeepSeek V3が、2024年12月26日にリリースされた。6,710億のパラメータを持ち、各トークンで370億パラメータが活性化する革新的なMixture-of-Experts (MoE)アーキテクチャを採用している。
最大の特徴は以下の3点
- Multi-head Latent Attention技術による高速処理
- 改良型DeepSeekMoEアーキテクチャの採用
- Multi-Token Prediction機能による効率的な生成
しかも、驚異的な低コストで開発されたそうだ。わずか550万ドル(約5.58億円)という低コストだ。2,048個のNVIDIA H800 GPUを2ヶ月間使用し、総GPU時間は約279万時間だったという。OpenAIの開発コストと比べると何桁も違っている。安さの理由は、どこにも書かれていないのでよく分からない。
それでいて、OpenAIのGPT-4oやMetaのLlama 3.1を上回る性能を示し、特にコーディングや数学的推論において優れた結果を残していると報道された。さらに、DeepSeek V3はオープンソースだ。ChatGPTなどの従来のモデルを凌駕する自然言語処理能力を持ち、特にコード生成や数学的な問題解決において高い精度を発揮しているようだから、そのコードを使って多くの分野で実用化が進むかもしれない。
今後、小規模な企業や個人でもAI開発に参加できるようになり、DeepSeek V3を使ってAI技術の普及が加速することにつながるだろう。そこから、新たなアプリケーションが創出され、様々な分野でサービスや製品が生まれる可能性もある。これは、AI技術の民主化という点からも評価できる。
DeepSeek V3とChatGPTの比較
特徴 | DeepSeek V3 | ChatGPT |
強み | コード生成、数学的推論、低コスト | 自然な対話、多様な機能、継続的な改善 |
弱み | バイアス、フェイクニュース生成のリスク | 専門的な知識の不足、複雑なタスクへの対応が難しい場合がある |
開発状況 | オープンソースでコミュニティによる開発が活発 | Closed SourceでOpenAIによる開発が中心 |
DeepSeek V3とChatGPTは、それぞれ異なる強みを持つようだ。
コード生成や数学的な問題解決では、 DeepSeek V3に分があるようで、自然な対話、チャットボットの機能では ChatGPTということのようだ。しかし、 DeepSeek V3は、オープンソースであるため、自由にカスタマイズ可能なために、新しいサービス開発に活用される可能性がある。
ただし、問題はDeepSeek V3が中国製ということだ。TikTokのような中国製排除ということにならなければ良い。だが、ChatGPTのようにクローズドなシステムではないから、オープンソースとしてコードを利用する分には問題はないのかと素人は考える。