ホーム / XiaomiとTileRTがAI推論革新!10倍速MiMo-V2.5-Pro-UltraSpeedで1000T/s実現

XiaomiとTileRTがAI推論革新!10倍速MiMo-V2.5-Pro-UltraSpeedで1000T/s実現

AI chip AI data acceleration - XiaomiとTileRTがAI推論革新!10倍速MiMo-V2.5-Pro-UltraSpeedで1000T/s実現

中国のテクノロジー大手Xiaomi(シャオミ)とAI推論最適化の専門企業TileRTが共同で、画期的な大規模AIモデル「MiMo-V2.5-Pro-UltraSpeed」を発表しました。この新モデルは、業界で初めてテキスト生成速度を1000トークン/秒(ピーク時1200トークン/秒)にまで引き上げることに成功。しかも、専用のAIチップを必要とせず、標準的な8基の汎用GPUノードでこの速度を達成するため、超高速AI推論導入の障壁を大幅に下げます。旧バージョンと比較して、価格は3倍ながら生成速度は驚異の10倍向上。期間限定でAPIサービスも提供され、AI分野に新たな活力を与えることが期待されています。

MiMo-V2.5-Pro-UltraSpeedの衝撃:AI推論の常識を覆す速度

XiaomiとTileRTが提携し発表した「MiMo-V2.5-Pro-UltraSpeed」は、兆単位のパラメータを持つ大規模モデルにおいて、前例のないテキスト生成速度を実現しました。単一の標準的な8基の汎用GPUノード上で、テキスト生成速度は初めて1000トークン/秒に達し、ピーク時には1200トークン/秒を記録します。このパフォーマンスは、専用のAIチップに依存せず達成されたもので、高速AI推論の実用化に向けた大きな一歩となります。

画期的なコストパフォーマンスと利用体制

MiMo-V2.5-Pro-UltraSpeedのAPIサービスは、期間限定で提供が開始されました。価格は旧バージョンMiMo-V2.5-Proの3倍ですが、生成速度が約10倍に向上しているため、極めて優れたコストパフォーマンスを誇ります。

高速推論リソースの制限により、APIサービスは申請制で提供されます。プラットフォームは、実用的なビジネスニーズを持つ企業やプロのAI開発者を優先して審査します。一般ユーザーは、専用ウェブページを通じて会話機能を無料で体験できますが、1アカウントあたり1日10回まで、1回の会話は最大30分、5分間操作がないと自動切断されるという制限が設けられています。これは、リソースの公平な分配と持続的なサービス提供を保証するための措置です。

速度の秘密:3つの革新技術

この飛躍的なパフォーマンスは、モデルとシステムの深度にわたる協調設計、特に以下の3つの主要な技術革新によって実現されました。

1. MoEモデルに特化したFP4量子化技術

MoE(Mixture-of-Experts)構造の特性を最大限に活用し、大部分のパラメータを占めるエキスパート層のみに無損失のFP4量子化を適用しました。残りのモジュールは元の精度を維持することで、メモリ消費と帯域幅の圧力を軽減しつつ、モデルの総合的な能力はほとんど変わらないという優位性を確保しています。

2. DFlashブロック並列推論デコード

従来の逐次デコード方式を打破し、DFlashブロック並列推論デコードを採用。一度にテキストのブロック全体を予測することが可能になりました。これにより、コード生成やデータ処理などのシナリオでは、1ラウンドあたり平均6~7個のトークンを確定でき、デコード効率を大幅に向上させています。

3. TileRT推論システムの再構築

TileRT推論システムは、GPU実行構造を根本的に再構築しました。永続的なカーネルと異種パイプラインを用いることで、演算切り替えによる遅延を排除し、GPUの計算リソースを継続的にフル稼働させることが可能になりました。これにより、ハードウェアの性能を最大限に引き出し、ボトルネックを解消しています。

新たなAIアプリケーションの可能性を拓く

この超高速推論能力は、AIアプリケーションのシナリオを再定義する可能性を秘めています。例えば、超高速なモデル並列推論や自動エラー修正をサポートすることで、論理推論の品質を大幅に向上させることができます。また、コード生成における待ち時間を劇的に短縮し、プログラマーの生産性を向上させます。

さらに、高頻度取引、リアルタイム不正検知、医療画像分析といったミッションクリティカルなリアルタイム意思決定シナリオにおいても、兆単位のパラメータを持つ大規模モデルの導入を促進します。これにより、これまで想像しえなかったレベルでのAI活用が現実のものとなるでしょう。

まとめ

XiaomiとTileRTによるMiMo-V2.5-Pro-UltraSpeedの発表は、AI推論技術における中国企業の高い技術力と革新性を示すものです。特に、専用チップに頼らないソフトウェアとアーキテクチャの最適化によってパフォーマンスを劇的に向上させた点は、AI技術の民主化を加速させ、より多くの企業や開発者が高性能AIにアクセスできるようになることを意味します。

この動きは、日本のAI市場にも大きな影響を与える可能性があります。高速かつ高効率な推論サービスが手頃な形で利用可能になることで、自社サービスへのAI導入や既存AI機能の高速化を検討する日本の企業にとって、新たなビジネスチャンスと同時に、国際的な競争激化という側面ももたらすでしょう。今後のAIアプリケーションの進化と、それに伴う産業の変化に注目が集まります。

元記事: pconline

Photo by Steve A Johnson on Pexels

メーリングリストに登録

毎週のニュースレターで最新情報をキャッチアップ。今すぐ登録して、大切な情報を逃さずチェック!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です