中国のスマートフォン大手vivoが、AI技術の新たなフロンティアとして「感知能力(Perception Capability)」の重要性を提唱しています。同社の胡柏山総裁は、ボアオ・フォーラムで感動的なエピソードを披露。9年間失明していた男性が、AIの音声ガイドを通じて友人の顔を「見た」瞬間は、技術が視覚の壁を越える可能性を示しました。これは、AIが物理世界をリアルタイムで理解する能力がいかに重要であるかを浮き彫りにします。計算能力の均質化が進む現代において、vivoはこの「感知能力」を武器に、AI端末の新たな戦場を切り開こうとしています。
「感知能力」がAIの未来を左右する
ボアオ・フォーラムの壇上で、vivoの胡柏山総裁が共有したのは、心温まるだけでなく、AIの未来に対する深い洞察を与える物語でした。それは、9年間失明していた男性が、スマートフォンをかざし、AIの音声による「目の前にいるのは友人、章喜徳さんです。彼は腕を組み、微笑みを浮かべ、濃い色の長袖を着ています」という説明を通じて、初めて友人の顔を「見た」瞬間です。この出来事は、技術が視覚の障壁を乗り越え、物理的な世界を感覚的に把握するAIの可能性を示唆しています。
AIの「盲点」は計算能力ではなく「感知能力」
この感動的なシーンの背後には、AIが今日まで直面してきた深い課題が隠されています。それは、「スマートデバイスがいかに物理世界を真に感知するか」という問いです。
胡総裁は講演の中で、現在のAIの「盲点」は計算能力ではなく、まさにこの「感知能力」の欠如にあると指摘しました。大規模言語モデルが膨大なデジタルデータを処理し、テキストや画像、さらには動画を生成できる一方で、ユーザーの周囲にある物理的な環境をリアルタイムで感知する能力に限界があるというのです。ここで言う「感知」とは、クラウドに写真をアップロードして受動的に認識するのではなく、人間の視覚システムのように、エンドデバイスがリアルタイムで能動的かつ継続的に環境を認識することを指します。
彼は「感知能力を持たないAIは、まるで暗い部屋に閉じ込められた天才のようだ。計算能力がいくら強くても、その部屋の外の世界を見ることはできない」と例え、この問題の深刻さを強調しました。
vivoの「感知賽道」戦略
この認識に基づき、vivoは社内に「感知賽道(Perception Track)」と呼ばれる専門チームを正式に設立しました。視覚、聴覚、触覚といったマルチモーダルな感知をセンサーと大規模感知モデルと組み合わせることで、デバイスが物理世界からの信号を理解できる形に変換することを目指しています。
胡総裁は、将来的に大規模モデル間の性能差は徐々に縮小するものの、「感知データ」こそが真の差別化を生むと予測しています。例えば、家庭用ロボットは室内の環境データを蓄積し、スマートフォンのイメージング機能はユーザーの実際の生活シーンにおける視覚情報を収集します。これらの豊富な「シーンデータ」が、スマート体験の質を直接的に左右するというのがvivoの考えです。
AIの「目」となるイメージング技術とAgent戦略
vivoはイメージング技術をAIの「目」と位置づけています。同社は10年近くにわたるイメージング大規模モデルアルゴリズムの研究開発と、カスタムハードウェアモジュールを組み合わせることで、ソフトウェアとハードウェアの両面で独自の優位性を確立してきました。
スマホに搭載される「イメージングAgent」
胡総裁は、間もなく発表されるvivo X300 UltraおよびX300sには、初代「イメージングAgent」が搭載されることを明らかにしました。このAgentは、撮影対象、光の状態、距離に応じて自動的に画像処理を最適化し、一般ユーザーでもプロフェッショナルレベルの写真を簡単に撮影できるようにします。
多様なシナリオに拡張するAgent技術
このAgent技術は、イメージング領域に留まらず、さまざまなシナリオへの拡張が計画されています。例えば、折りたたみ式フラッグシップモデルのX Foldシリーズでは、会議内容の自動記録やスケジュールの計画をAIが行い、iQOOシリーズではゲーム性能を最適化し、プレイ中のハイライト瞬間を自動でキャプチャするといった機能が検討されています。
エンドデバイスへのこだわりと未来への挑戦
vivoは技術的なアプローチとして、「エンドデバイス優先」の戦略を堅持しています。エンドデバイスでの感知は、ネットワークを介したデータのやり取りを必要としないため、環境変化へのリアルタイムな応答が可能となり、同時にユーザーのプライバシー保護にも繋がります。
プライバシーとリアルタイム性を守る「エンドデバイスAI」
エンドデバイスの計算能力の制約を打破するため、vivoは2年前からパートナー企業と協力し、専用の計算チップを開発してきました。これは、今後のフラッグシップ製品に搭載される予定です。
胡総裁は、vivoのAgent設計が「ユーザーを理解し、人の心を理解するが、境界を越えない」という原則に基づいていることを強調しました。これにより、全ての重要なユーザーデータはローカルに保存され、機種変更時には一括で移行できるため、ユーザー独自の「デジタルDNA」を形成することが可能になります。
スマホの知見をロボットへ:未来を見据えたLabの挑戦
vivoの野心は、スマートフォン領域だけに留まりません。昨年設立された「ロボットLab」では、スマートフォンで培った感知能力をロボットの形態に拡張する研究が進められています。胡総裁は、ロボットはスマートフォンの後継ではなく、ゼロから始まる全く新しい挑戦であると明言しました。
2026年、vivoロボットLabの主要な任務は、ターゲットユーザーとコアシナリオを明確にすることです。例えば、ペットの餌やりや整理整頓といった、比較的許容誤差の高いタスクから着手し、段階的にシナリオデータを蓄積していく計画です。
まとめ
計算能力の進化が限界に近づく中、vivoはAIの新たな競争軸として「感知能力」を打ち出しました。物理世界をリアルタイムで「感じ」、ユーザーの体験を革新するAI Agentは、今後のスマートフォンや、さらにはロボットといった次世代デバイスの可能性を大きく広げるでしょう。
特に、ユーザーのプライバシーを重視し、エンドデバイスでの処理にこだわる姿勢は、現代のAI技術において重要な方向性を示しています。vivoが培ってきたイメージング技術と、新たな感知技術が融合することで、私たちの日常生活はより豊かでパーソナルなものへと変化していくに違いありません。この中国テック企業の挑戦が、日本のテクノロジー市場やユーザー体験にどのような影響を与えるのか、今後の動向に注目が集まります。
元記事: pcd
Photo by Shantanu Kumar on Pexels












