Home / テクノロジー / AI・アルゴリズム / 快手、6710億パラメータのマルチモーダルAI公開!視覚推論の新境地へ

快手、6710億パラメータのマルチモーダルAI公開!視覚推論の新境地へ

Multimodal AI Computer Vision - 快手、6710億パラメータのマルチモーダルAI公開!視覚推論の新境地へ

中国のテクノロジー大手「快手(Kuaishou)」が、最新のマルチモーダル大規模言語モデル「Keye-VL-671B-A37B」をオープンソース化しました。このモデルは驚異的な6710億パラメータを誇り、DeepSeek-V3-Terminusアーキテクチャを基盤としています。特に、視覚認識、クロスモーダルアライメント、そして複雑な推論能力において顕著な進歩を遂げており、今後のAI開発に新たな道を切り開く可能性を秘めています。

快手、新マルチモーダルAIモデル「Keye-VL-671B-A37B」をオープンソース化

快手が発表した「Keye-VL-671B-A37B」は、システム化された事前学習と後学習戦略を通じて、汎用的な視覚理解と動画理解の分野で、既存の競合製品を凌駕する性能を発揮しています。このモデルの登場は、AIが現実世界の複雑な情報をより深く、より正確に解釈し、活用する能力を大きく向上させるものとして注目されています。

驚異の視覚理解力:領収書認識から動画分析まで

「Keye-VL-671B-A37B」の画像認識テストでは、その驚くべき詳細な情報把握能力が示されました。例えば、3枚の領収書を識別するタスクにおいて、モデルは単にテキストや書式の違いを正確に認識するだけでなく、論理推論によってそのうち2枚が映画のチケットであり、残りの1枚は食品の引換券であると判別しました。これは、表面的な認識を超え、視覚的要素と意味的情報を正確に結びつけるモデルの深い理解能力の証です。

さらに、動画理解のテストでは、「青い二階建てバス」のような核心的な要素を正確に捉え、カメラの動きの軌跡やシーンの切り替わりといった詳細な変化を完全に再現する能力を示しました。

業界をリードする性能と効率的な学習戦略

性能比較データによると、この新モデルは26の主要ベンチマークテストのうち18項目でトップの成績を収めました。特に、STEM(科学・技術・工学・数学)、推論、動画理解といった複雑なタスク領域では、ByteDanceのSeed1.5-VL thinkやAlibabaのQwen3-VL 235B-A22Bといった最先端モデルをも凌駕しています。

この優位性は、モデル独自の3段階事前学習システムに起因しています。まず、初期段階で視覚モジュールと言語モジュールを固定し、特徴アライメントに注力します。次に、全パラメータを学習させ、最終段階ではアニーリング(焼きなまし)学習を通じてきめ細かい知覚能力を強化します。このプロセス全体で、わずか3000億(300B)個の高品質データセットのみを使用しており、他の何兆ものデータ規模を持つモデルと比較しても、はるかに高い学習効率を実現しています。

また、後学習フェーズでは、指示データとLong-Chain-of-Thought(長期思考連鎖、Long-CoT)データを特定の比率で融合させる革新的なハイブリッドデータ戦略を採用。これにより、指示応答能力を維持しつつ、複雑な推論の安定性を大幅に向上させています。快手の技術チームが開発した厳格なデータ選別プロセスは、重複する思考内容を効果的にフィルタリングし、思考連鎖データの質の高さを保証しています。

強化学習の段階では、AlibabaのQwen3シリーズから派生したGSPOアルゴリズムを採用し、シーケンス層モデリングを通じて学習の安定性を向上。さらに、専用の検証モデル(Verifier)を装備することで、推論の論理性を検証し、回答の精度を顕著に高めています。

まとめ

「Keye-VL-671B-A37B」は現在、Hugging FaceとGitHubプラットフォームでダウンロード可能であり、開発者は指定されたリンクから完全なコードライブラリにアクセスできます。本モデルの視覚エンコーダは、今年9月にオープンソース化されたKeye-VL-1.5モデル(80億パラメータ、128kトークン対応)の技術を継承しています。

技術文書によると、この新モデルはマルチモーダル数学データセットで平均精度を1.33%、オープンソースの知覚ベンチマークテストで1.45%向上させており、強力なクロスドメイン適応能力を示しています。快手は、OCR、画像、テーブルといった複雑なフォーマットをカバーする自動処理フローを構築し、データパイプラインを継続的に最適化してきました。これにより、モデルは視覚信号の中から重要な情報を正確に解析し、将来的なマルチモーダルAgent能力開発の基盤を築いています。

現在のバージョンは基本的なツール呼び出し能力を備えており、今後は実世界における自律的な推論とタスク実行能力を強化し、マルチモーダルシステムをより実用的な方向へと発展させていくとのことです。快手のこのオープンソース化は、AI分野における視覚推論とマルチモーダル理解の新たな地平を切り開き、日本のAI研究者や開発者にとっても大きなインスピレーションとなるでしょう。

元記事: pcd

Photo by Google DeepMind on Pexels

タグ付け処理あり:

メーリングリストに登録

毎週のニュースレターで最新情報をキャッチアップ。今すぐ登録して、大切な情報を逃さずチェック!

利用規約に同意します

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

AI特集

メーリングリストに登録

毎週のニュースレターで最新情報をキャッチアップ。今すぐ登録して、大切な情報を逃さずチェック!

利用規約に同意します

関連リンク

にほんブログ村 ニュースブログ ITニュースへ