中国、AI計算能力の「大動脈」を国産化！中科曙光が次世代RDMAネットワーク「scaleFabric」を発表

AI計算能力の需要が世界的に高まる中、中国のスマートコンピューティングインフラ領域において画期的な進展がありました。中国の大手IT企業「中科曙光（Dawning）」は、国内初となる全スタック自社開発の400Gロスレス高速ネットワークシステム「scaleFabric」を発表しました。このシステムは、ネイティブRDMAアーキテクチャを基盤とし、IPコアから管理ソフトウェアまで100%の自律制御を実現。超大規模AIモデルの学習に不可欠な高性能ネットワークソリューションを提供します。数万GPU規模のAIクラスターが主流となる中、ネットワーク通信が学習効率のボトルネックとなっていましたが、scaleFabricは超低遅延、高帯域幅、ゼロパケットロスでこの課題を克服。長らく海外企業が独占してきたRDMA技術分野における、中国の国産化と技術的自立に向けた重要な一歩となります。

中国、AI時代の「算力大動脈」を国産化！中科曙光が次世代RDMAネットワーク「scaleFabric」を発表

世界中でAI技術の進化が加速し、それに伴い計算能力（コンピューティングパワー）への需要が爆発的に高まっています。特に、AI大規模言語モデルのトレーニングには、膨大なデータを高速に処理するための強力なインフラが不可欠です。

このような背景のもと、中国のハイテク企業である中科曙光（Dawning Information Industry Co., Ltd.）は、国内初の全スタック自社開発による400Gロスレス高速ネットワークシステム「scaleFabric」を発表し、大きな注目を集めています。このシステムは、AIクラスターの性能を飛躍的に向上させる「計算能力の大動脈」として期待されています。

AI大規模モデル学習を支える基盤技術

現在、数万GPU（Graphics Processing Unit）規模のスマートコンピューティングクラスターが、AI大規模モデルのトレーニングにおける主流となっています。しかし、分散学習のシナリオでは、ネットワーク通信のオーバーヘッドが全体の30%から50%にも達し、ネットワーク性能が計算能力システム全体の効率を直接左右する重大なボトルネックとなっていました。

ここで鍵となるのが、通信効率を向上させるRDMA（Remote Direct Memory Access）技術です。RDMAネットワークは、CPUを介さずにネットワークカードが直接メモリにアクセスすることで、ゼロパケットロス、高帯域幅、低遅延といった特徴を実現します。このため、世界のトップクラスのスーパーコンピューティングセンターでは広く採用されており、TOP500リストに名を連ねる高性能計算システムの約60%がInfiniBand（RDMA技術を用いたネットワーク）アーキテクチャを採用していると統計されています。

しかし、このRDMA技術のコア部分は長らく海外メーカーに独占されてきました。中国工程院の魏賀镔院士は、「高速ネットワークは計算能力インフラの『神経中枢』であり、その自律制御性は国家の計算能力の安全と発展の質に直結する。大規模モデルの学習がネットワークに要求する超低遅延、超高帯域幅、ロスレス伝送といった厳しい要件に対応するため、自社でRDMA技術を開発することは業界の共通認識となっている」と述べ、今回のブレークスルーの重要性を強調しています。

「scaleFabric」が突破した技術的壁

中科曙光の「scaleFabric」システムは、RDMA技術における複数の技術的障壁を打ち破り、完全な自社開発技術システムを構築しました。その範囲は、112G SerDes IPコア、スイッチチップ、ネットワークカード、スイッチ機器といった基幹ハードウェアから、ドライバーや管理ソフトウェアに至るまで、全スタックをカバーしています。

驚異的な性能と拡張性

scaleFabricは、以下のような突出した性能指標と拡張性を誇ります。

ネットワークカード（NIC）：400GシリーズのNICはPCIe 5.0インターフェースを採用し、400Gbpsのポート帯域幅と、0.9マイクロ秒という驚異的なエンドツーエンド遅延を実現しています。
スイッチ機器：シングルポート帯域幅は800Gbps、システム全体の交換容量は双方向64Tbpsに達し、スイッチ遅延は約260ナノ秒という超高速処理を実現。800G×40ポートまたは400G×80ポートの拡張に対応し、数万GPUクラスターの通信需要を十分に満たします。

さらに、安定性と拡張性においても優れた性能を発揮します。信用ベースのロスレスフロー制御メカニズムを採用することで、輻輳によるパケットロスを根本から回避。リンク障害回復時間は1ミリ秒未満と極めて短く、システム全体の信頼性を高めています。

約1万GPU規模のクラスターで10ヶ月以上にわたる安定稼働検証を経て、その実力が証明されました。スイッチ機器のポート密度はNVIDIAのNDRと比較して25%向上、NICの最大QP（Queue Pair）数も100%向上しています。単一ネットワークの相互接続規模は従来のInfiniBandの2.33倍に達し、最大11.4万GPUクラスターのデプロイをサポート可能。同時に、ネットワークの総コストを30%削減するという経済的なメリットも提供します。

実用化と今後の展望

「scaleFabric」はすでに中国の国家スーパーコンピューティング相互接続ネットワーク鄭州コアノードに展開され、総規模3万GPUの「scaleXスマートコンピューティングクラスター」3セットの安定稼働を支えています。中科曙光の李韜シニアバイスプレジデントは、「このシステムはクロスPOD（Power Over Ethernet Distributed）ネットワーク構築や大規模並列トレーニングタスクを成功裏にサポートし、ハイエンドスマートコンピューティングシナリオにおける国産ネイティブRDMA技術の実現可能性を検証した」と述べています。

今回のブレークスルーは、中国がスマートコンピューティング相互接続分野で独自の技術路線を確立したことを意味します。中科曙光は、コンピューティング、ストレージ、ネットワーク分野における長年の蓄積を活かし、「計算・ストレージ・ネットワーク」の協調発展を可能にする完全な計算能力基盤を構築。AIインフラにシステムレベルのサポートを提供しています。

「AI+」戦略の推進に伴い、計算能力インフラはアップグレードサイクルに突入しています。国産ネイティブRDMAネットワークの本格的な実用化は、中国のスマートコンピューティング産業チェーンにおける重要な空白を埋めるものであり、技術的自立を追求する中国の強い意志を示すものと言えるでしょう。

まとめ

中科曙光が発表した「scaleFabric」は、AI計算能力の飛躍的な向上を支える画期的な国産RDMA高速ネットワークシステムです。超低遅延、高帯域幅、そして最大11.4万GPUをサポートする拡張性は、AI大規模モデル学習のボトルネックを解消し、その効率を劇的に改善します。海外技術への依存度が高い高性能ネットワーク分野において、中国が完全に自社開発したこのシステムは、国の計算能力の安全保障と発展において極めて重要な意味を持ちます。

この動きは、中国が最先端技術分野での自立を強く推進していることを示しており、グローバルなテクノロジー競争の構図にも影響を与える可能性があります。日本企業も、中国の技術動向を注視し、AIインフラ競争の新たな展開に備える必要があるでしょう。

元記事: pcd

Photo by Brett Sayles on Pexels