XiaomiがAIロボットモデルをオープンソース化！VLA「Xiaomi-Robotics-0」発表

中国のテクノロジー大手Xiaomi（シャオミ）が、AIロボット開発における画期的な発表を行いました。同社は、視覚言語動作（Visual-Language-Action, VLA）モデル「Xiaomi-Robotics-0」をオープンソースとして公開したのです。このモデルは、47億もの膨大なパラメータを誇り、視覚言語理解とリアルタイム動作実行能力を兼ね備えています。革新的な「知覚-決定-実行」アーキテクチャにより、複雑な物理インタラクションタスクでも高い性能を発揮。この画期的な進歩は、AIロボットの未来を大きく変える可能性を秘めています。すでに技術文書、ソースコード、モデルウェイトが公開され、世界の開発者コミュニティに大きな影響を与えることが期待されます。

Xiaomiの挑戦：AIロボットの新たな地平を切り拓く

Xiaomiは、視覚言語動作（Visual-Language-Action, VLA）モデル「Xiaomi-Robotics-0」をオープンソースとして公開しました。このモデルは、47億もの膨大なパラメータを擁し、AIロボットが人間の指示を理解し、リアルタイムで複雑な動作を実行する能力において、画期的な進歩を遂げています。

特に注目すべきは、モデルが採用する「知覚-決定-実行」という革新的な閉ループアーキテクチャです。これにより、シミュレーション環境だけでなく、実際のロボットによるタスク実行においても、卓越した性能を発揮します。特に複雑な物理的相互作用を伴うタスクでの優れた処理能力は、今後のAIロボットの応用範囲を大きく広げるでしょう。

「MoT」アーキテクチャが実現する高度な理解と動作制御

Xiaomi-Robotics-0の中核をなすのは、Mixture-of-Transformers（MoT）というハイブリッドアーキテクチャです。これは、「視覚言語脳（VLM）」と「動作エキスパート（Action Expert）」という二つの主要モジュールで構成されています。

VLMは、マルチモーダルな大規模モデルを基盤としており、「机を整理する」といった人間による曖昧な指示も正確に解析可能です。さらに、高解像度の視覚入力から空間的な関係情報を抽出し、周囲の環境を詳細に把握します。

一方、Action Expertは、多層のDiffusion Transformer（DiT）アーキテクチャを採用し、革新的な「動作ブロック」生成メカニズムとフローマッチング技術を組み合わせることで、ロボットの動作シーケンスを非常に滑らかかつ正確に実行します。この設計によって、モデルは複雑な意味理解と高頻度な動作制御という、一見相反する要素を両立させているのです。

「理解力維持」と「リアルタイム性」を両立させる独自技術

従来のVLAモデルが動作学習の過程で理解能力を失いがちであった問題を解決するため、Xiaomiは独自の「ハイブリッドトレーニング戦略」を開発しました。プレトレーニング段階で、マルチモーダルデータと動作データを同時に学習させることで、ロボットが操作スキルを習得しながらも、物体検出や視覚的なQ&Aといった認知能力を維持できるようにしています。

さらに、推論時の遅延による動作の途切れを防ぐため、「非同期推論モード」が導入されました。これにより、モデルの推論とロボットの実際の動作を分離し、過去の動作を新たな入力として活用する「Clean Action Prefix」メカニズムと、現在の視覚フィードバックを優先する「Λ-shape Attention Mask」を組み合わせることで、動作軌跡の時間的な連続性と、環境変化への迅速な適応能力を確保しています。

これらの技術革新により、なんとコンシューマーグレードのGPUでもリアルタイム推論が可能となり、動作応答遅延を60%以上も削減することに成功しました。

世界トップクラスの性能を実証

Xiaomi-Robotics-0は、その性能を世界的に有名なベンチマークテストで証明しています。LIBERO、CALVIN、SimplerEnvの3大シミュレーションベンチマークにおいて、全30項目の評価指標で第1位を獲得し、複数のSOTA（State-Of-The-Art）記録を塗り替えました。

実際のシーンでのテストでは、このモデルを搭載した双腕ロボットが、積み木の解体やタオルの折り畳みといったタスクで、驚くべき手と目の協調能力を発揮しました。剛体から柔軟な布地まで、異なる物理的特性を持つ物体を正確に扱う能力は特筆すべきものです。

特にマルチモーダル理解テストにおいては、具象インタラクション関連ベンチマークで他モデルを大きく上回り、視覚言語理解と動作制御が相乗的に最適化されていることを示しました。

まとめ：AIロボット開発の新たな時代へ

Xiaomiが「Xiaomi-Robotics-0」をオープンソース化したことは、AIロボット分野において非常に大きな意味を持ちます。GitHubやHugging Faceを通じて、技術文書、トレーニングコード、事前学習済みウェイトなど、モデル開発に必要なリソースが全て公開されており、世界中の開発者が自由にアクセスし、この先進的な技術を自身のプロジェクトに活用したり、さらに改善を加えたりすることが可能になります。

このオープンソース戦略は、AIロボットの研究開発を加速させ、より多くのイノベーションを生み出す土壌を作るでしょう。日本においても、産業用ロボットやサービスロボットの分野で高い技術力を持つ企業や研究機関が多いことから、Xiaomiのこの動きは、次世代ロボットの開発競争に新たな刺激を与え、連携や新たなアプリケーション開発の機会を生み出す可能性があります。Xiaomi-Robotics-0が、私たちの日常生活にAIロボットがより深く統合される未来を、現実のものとしていくかもしれません。

元記事: pcd

Photo by Kindel Media on Pexels