中国のAI分野から、新たな注目株「数創弧光(DataArc)」が登場しました。同社は設立間もないながら、シードラウンドとシード+ラウンドを連続で完了し、累計数千万元(日本円で数億円規模)を調達、投資後の企業評価額は数億元(数十億円規模)に達したと発表しました。大規模言語モデル(LLM)の進化を支える「合成データ技術」に特化し、特にデータが稀少な分野やプライバシー保護が求められる領域でのAI開発に革命をもたらそうとしています。粤港澳大湾区数字経済研究院(IDEA研究員)から生まれたこの革新的なスタートアップは、一体どのような技術で世界のAI市場を席巻しようとしているのでしょうか。その詳細に迫ります。
AI開発の課題を解決する「合成データ」の力
データ不足の壁を乗り越える革新技術
DataArcは2025年1月に設立され、粤港澳大湾区数字経済研究院(IDEA研究員)からインキュベートされたスタートアップです。同社が専門とするのは、大規模モデルにおける合成データ技術。近年、急速に発展する大規模言語モデル(LLM)の学習には膨大な高品質データが不可欠ですが、現実世界では「データ不足」が深刻な課題となっています。
特に、以下のような状況でDataArcの技術は真価を発揮します。
- 少言語データ:利用者数が少ない言語のデータは収集が困難。
- プライバシー敏感な業界:金融、医療など、機密性の高い個人情報を含むデータは共有が難しい。
- 少量サンプルシナリオ:特定の希少な事象に関するデータが少ない。
- ロングテール領域:多様なニーズに対応するためのニッチなデータが不足している。
DataArcは、これらの「データ不足」の空白を合成データ技術で埋め、リアルデータでは得られない、共有できない、カバーできない領域を補完します。これにより、データ不足を単なる障害ではなく、モデル能力の向上と事業成長のための具体的な機会へと転換させています。
評価額数十億円!国内外からの投資が示す期待
今回の連続資金調達は、DataArcの技術と将来性に対する高い期待を示しています。英諾天使基金、東方富海がリードインベスターとなり、君科丹木、数字未来、可迪之星といった財務投資機関に加え、深智城、頭部雲廠商といった産業投資家も参画しました。これは、単なる資金提供にとどまらず、技術と市場の両面からの強力なサポートを意味します。
調達資金は、主にコア技術の研究開発、製品ラインナップの拡充、そして国内外市場の開拓に充てられる予定です。大規模モデルの進化が続く中で、基盤となるデータ技術への投資が、今後のAI産業の競争力を左右すると考えられていることが伺えます。
世界トップクラスの知見が集結した創業チーム
IDEA研究員が牽引する技術とビジネスの両輪
DataArcの創業チームは全員がIDEA研究科学者であり、学術的な深さと産業界での実用経験を兼ね備えています。
- CEO 江旭輝博士:複合的なバックグラウンドを持ち、国家自然科学基金重点プロジェクトや国家重点研究開発計画の経験が豊富です。
- CTO 徐鉄晋博士:かつて華為技術(ファーウェイ)の「天才少年」計画に選出され、IDEAでは金融大規模モデルの研究開発総責任者を務めていました。
チームには、中国科学院、浙江大学、清華大学、ドイツのボン大学といった国内外の有名大学出身者が集結し、トップカンファレンス/ジャーナル論文100報以上の学術成果を誇ります。さらに、アリババ、テンセント、AIユニコーン企業、トップ投資銀行といった最前線の機関での豊富な実務経験も持ち合わせており、世界レベルの研究開発能力と成熟した商業化実現力を兼ね備えています。
また、米国および英国工学アカデミーのフェローであり、IDEA研究員の創院理事長を務める沈向洋(シェン・シャンヤン)氏がプロジェクト顧問として参画。同社の発展にトップレベルの戦略的サポートを提供しています。
グローバル戦略:国内での深化と海外展開
DataArcは「国内での深度検証、グローバル規模での複製」という二軸発展戦略を構築しています。
- 国内市場:金融、ハイエンド製造業といった、データの品質と安全性に対して極めて高い要求を持つ分野に注力。複数の大手銀行や大手ハードウェアメーカーと共同検証を進め、製品の信頼性、プライバシー規制への適合性、業界への適応度を継続的に磨き上げています。
- 海外市場:特に中東地域など、「少言語データが稀少で、AI需要が高い」地域に戦略的に焦点を当てています。自社開発の合成データフレームワークを用いることで、コーパス(言語資料)構築において宗教や文化的な要素を十分に考慮し、海外顧客に対してよりローカライズされたデータ供給チェーンとモデル最適化を提供しています。これは、グローバル市場、特に多様な文化圏でのAI展開において極めて重要なアプローチと言えるでしょう。
DataArcの製品と今後の展望
知識駆動型合成データが生み出す価値
DataArcは、知識駆動型合成データを核とした製品群をすでに形成しています。これには、以下の段階をカバーするデータ合成ソリューションが含まれます。
- 継続的事前学習
- 教師ありファインチューニング
- 強化学習ファインチューニング
さらに、合成後のデータ選別、品質評価、そしてアプリケーションへのフルリンク(データ生成から活用までの一連の流れ)も提供。これらの技術は「Living KB」と「SynData Platform」という標準製品として体系化され、企業に対してデータ生成から知識化、そして実際のビジネス価値創出までを支援しています。
まとめ
DataArcは、設立からわずか1年足らずで急速な成長を遂げ、AI開発における根本的な課題であるデータ不足に挑んでいます。特に、少言語市場やプライバシーが重視される業界での合成データ活用は、その応用範囲を大きく広げる可能性を秘めています。創業チームの強力なバックグラウンドと、明確な国内外戦略は、同社が今後もAI業界で重要なプレイヤーであり続けることを示唆しています。日本のAI開発者や企業にとっても、データ確保の新たな選択肢として、DataArcの合成データ技術は注目に値するでしょう。今後の技術進化と市場展開から目が離せません。
元記事: pedaily
Photo by Kindel Media on Pexels












