Moonshot AIが発表したKimi K2.5は、視覚と言語の理解を統合したネイティブマルチモーダルエージェントモデル。約15兆の混合視覚・テキストトークンで継続事前学習され、GPT-5.2、Claude Opus 4.5、Gemini 3 Proと肩を並べるパフォーマンスを示している。
視覚と言語のトークンで事前学習されており、視覚的知識、クロスモーダル推論、視覚入力に基づくエージェント的ツール使用に優れる。
UIデザインやビデオワークフローといった視覚仕様からコードを生成し、視覚データ処理のためのツールを自律的に編成できる。
単一エージェントスケーリングから、自己指向型・協調型のスウォーム実行スキームへの移行。複雑なタスクを並列サブタスクに分解し、動的にインスタンス化されたドメイン固有のエージェントによって実行する。
| 項目 | 値 |
|---|---|
| アーキテクチャ | Mixture-of-Experts (MoE) |
| 総パラメータ数 | 1T |
| アクティブパラメータ数 | 32B |
| レイヤー数 | 61(Denseレイヤー含む) |
| エキスパート数 | 384 |
| トークンごとに選択されるエキスパート | 8 |
| コンテキスト長 | 256K |
| ビジョンエンコーダ | MoonViT (400M params) |
| 語彙サイズ | 160K |
従来のシングルエージェントアプローチと異なり、K2.5は複雑なタスクを自動的に分解し、専門化されたサブエージェントを動的に生成・協調させる。例えば:
この手法により、単一エージェントモデルと比較して有意な性能向上を実現している。
Kimi-K2-Thinkingと同じネイティブint4量子化手法を採用し、効率的なデプロイメントを実現。
以下の推論エンジンで動作を推奨:
transformersの最小バージョン要件: 4.57.1
公式API: https://platform.moonshot.ai(OpenAI/Anthropic互換API)
Modified MIT Licenseでコードリポジトリとモデルウェイトの両方を公開。
Kimi K2.5は、オープンソースAIモデルとして極めて重要なマイルストーンである。以下の点で注目に値する:
多くのモデルが後付けでビジョン機能を追加している中、K2.5は最初から視覚と言語を統合して学習している。これにより、UIデザインからコード生成といった実践的なタスクが可能になっている。
単一の大型エージェントをスケールさせるのではなく、動的に専門化されたエージェント群を協調させるアプローチは、より人間的な問題解決手法に近い。BrowseCompやWideSearchでの性能向上がこの有効性を証明している。
GPT-5.2やClaude Opus 4.5といったクローズドソースモデルに匹敵する性能を、MITライセンスで公開している点は、AI民主化の観点から極めて重要。
256Kのコンテキスト長、INT4量子化対応、主要な推論エンジンサポートなど、実際にプロダクションで使えることを重視した設計になっている。
それでも、K2.5はオープンソースAIの新たな基準を打ち立てたと言える。特に、Agent Swarmという概念が今後のAI開発にどのような影響を与えるか、注目していきたい。
タグ: #AI #MultiModal #MoE #AgentSwarm #OpenSource #Moonshot #Kimi #Benchmark