「天才少女」羅福莉氏が参画！Xiaomiと北京大学がMoEモデルの新解法を発表

中国の巨大テック企業Xiaomiと中国最高峰の学府である北京大学が共同で、AI分野の最先端技術に関する画期的な論文を学術プラットフォームarXivで発表し、テクノロジー業界で大きな注目を集めています。この論文は、大規模言語モデル（LLM）の効率と性能を向上させる上で重要な「MoE（Mixture-of-Experts）モデル」が抱える長年の課題に対し、新たな解決策を提示するものです。さらに特筆すべきは、この研究の主要著者の一人として、DeepSeekの「天才少女」と称される羅福莉（Luo Fuli）氏が名を連ねている点です。彼女は以前、Xiaomiの創業者である雷軍（Lei Jun）CEOが数千万元（日本円で数億円相当）の年俸で引き抜いたと報じられ、大きな話題となりました。本記事では、この注目の研究とその背後にある才能について深掘りしていきます。

「天才少女」、羅福莉氏が参画！Xiaomiと北京大学の共同研究に注目

今回arXivで公開された論文は、AIの未来を左右すると言われるMoEモデルの強化学習（Reinforcement Learning, RL）における安定性の問題を解決する新手法「Rollout Routing Replay (R3)」を提案しています。

この研究が特に注目を集める理由の一つが、著者リストに羅福莉氏の名前があることです。彼女は1995年生まれの若き研究者で、北京師範大学でコンピュータ科学を専攻し、北京大学計算言語学研究所で修士号を取得しました。卒業後はアリババのダーモ・アカデミー（Alibaba Damo Academy）に入社し、多言語事前学習モデルVECOの開発を主導し、AIプラットフォームAliceMindのオープンソース化にも貢献するなど、輝かしいキャリアを歩んできました。2022年にはDeepSeekに移籍し、MoE大規模モデルDeepSeek-V2の開発にも深く関わっています。

昨年終盤には、Xiaomiが羅福莉氏を破格の年俸で引き抜いたというニュースが中国のSNSを賑わせましたが、両者から公式な発表はありませんでした。今回の論文への羅福莉氏の参画は、彼女とXiaomi、そして北京大学との間で、最先端のAI研究を推進する協力関係が構築されていることを示唆しているのかもしれません。

MoEモデルの安定性を飛躍的に高める新手法「R3」とは

近年、強化学習（RL）は大規模言語モデル（LLM）の能力を向上させる上で不可欠な技術となっています。しかし、MoEモデルではそのルーティングメカニズムがトレーニング中に不安定性を引き起こし、時に学習プロセスが破綻（クラッシュ）するという深刻な課題がありました。既存の最適化アルゴリズムでは、この安定性の問題を十分に解決できていませんでした。

今回発表された論文は、この根本的な課題に焦点を当て、Rollout Routing Replay (R3)という革新的な手法を提案しています。R3の動作原理はシンプルでありながら非常に効果的です。シーケンス生成時、推論エンジンから取得したルーティング分布の情報を、直接トレーニングエンジンに「リプレイ（再生）」することで、トレーニング時と推論時におけるルーティング動作の乖離を大幅に縮小します。

実験結果は、R3の優位性を明確に示しています。従来のGRPOやTISといった強化学習最適化アルゴリズムと比較して、R3は総合的な性能で優れており、さらにトレーニング中にクラッシュすることなく、安定した学習プロセスを維持できることが確認されました。また、トレーニング速度を損なうことなく、極端なトークンの比率を桁違いに削減することにも成功しています。

R3の技術的貢献と将来性

研究チームは、R3手法を通じて主に三つの重要な貢献を成し遂げました。

MoEモデルにおけるルーティング分布の課題特定

まず、MoEモデルのトレーニングと推論におけるルーティング分布の不一致を体系的に特定し、これがトレーニングの不安定性に果たす役割を詳細に分析しました。これは、問題の根源を深く理解する上で不可欠なステップです。

Rollout Routing Replay (R3) の提案

次に、推論エンジン内で得られたルーティング分布をトレーニングエンジンで再利用するR3手法を提案しました。これにより、トレーニングと推論間のルーティング動作の不一致を効果的に調整し、安定性を向上させることが可能になりました。

広範なRL設定への適用と優位性の実証

R3は、オンラインポリシー（on-policy）とオフラインポリシー（mini-batch off-policy）の両方の強化学習シナリオに適用可能です。複数のRL設定でMoE強化学習にR3を適用した結果、GSPOやTISといった既存の強力な手法よりも、安定性と総合性能の両面で優れていることが実証されました。

R3の主な設計思想は、トレーニングの順伝播プロセス中に推論ルーティングマスクを再利用することにあります。このアプローチは、大規模言語モデルの進化において、より効率的で安定した学習環境を提供し、将来的なAIの応用範囲を大きく広げる可能性を秘めています。

まとめ：AIの未来を切り拓く中国の技術力と才能

Xiaomiと北京大学による共同研究、そして「天才少女」羅福莉氏の参画は、中国がAI技術開発の最前線でいかに強力なリーダーシップを発揮しているかを改めて示しています。MoEモデルの安定性という重要な課題を解決するR3のような革新的な手法は、今後の大規模言語モデルの進化に不可欠であり、より高性能で信頼性の高いAIシステムの実現に貢献するでしょう。

この技術がさらに普及すれば、AIチャットボットの応答品質向上や、より複雑なタスク処理能力の強化など、幅広い分野での恩恵が期待されます。日本においても、中国発のこのような最先端AI技術の動向を注視し、その活用や共同研究の可能性を探っていくことが、今後のデジタル競争力を高める上で重要となるでしょう。

元記事: pcd

Photo by Google DeepMind on Pexels