データの未来: 400g 光モジュール

Dec 22, 2025|

 

400G光モジュールこれは、100G の以前のバージョンに比べて単に帯域幅が段階的に向上しただけではなく、データセンター アーキテクチャの基本的な変曲点を表しています。このテクノロジーの中核では、8 つの電気レーンにわたってそれぞれ 50Gbps の PAM4 (4- レベルのパルス振幅変調) シグナリングを活用し、最新の AI/ML クラスターやハイパースケール環境の計算密度要件に対応する総スループットを実現します。 NRZ バイナリ エンコーディングからマルチ-レベルの振幅変調への移行により、固有の SNR ペナルティが導入され、-理論上約 9.5dB の劣化が発生します。これには、本番リンク全体で許容可能なビット エラー レートを維持するために、高度な DSP 実装と RS(544,514) などの必須の前方誤り訂正スキームが必要です。

400g Optical Module

 

誰も正直に語らないフォームファクター戦争

 

光ネットワーキングのカンファレンスに参加すると、技術的な比較として QSFP{0}}DD と OSFP の議論が行われます。そうではありません。それは仕様書に着飾った政治闘争だ。

QSFP-DD は、最初の 400G スイッチが出荷される前に、ボリュームの戦いに勝利しました。 QSFP28 ケージとの下位互換性により、理論的にはすべてのネットワーク オペレータが既存のインフラストラクチャを取り壊さずにアップグレードできることになります。これは「理論上」大変な作業を行っていることになります-私は、エンジニアが週末中ずっと、物理的に適合していても電気的に誤動作する倍密度モジュールを従来のスイッチ ファームウェアに認識させることに費やしているのを見てきました。-

OSFP は、4 レーン用に構築されたケージに 8 レーンを無理に組み込むのではなく、より大きなモジュール、より優れたサーマル、400G 向けにゼロから設計するという、率直な提案で Arista 陣営から生まれました。統合されたヒートシンクは、汗をかくことなく 15-20 ワットを処理します。 QSFP-DD は 12 ワットですか?高密度導入ではすでに熱限界を超えています。

とにかく業界は QSFP-DD を選択しました。互換性が勝ちます。いつもそうだ。

しかし、フォームファクターの比較記事では決して言及されていないことがここにあります。それは、熱容量の違いは規模が大きくなると劇的に増大するということです。 QSFP-DD モジュールを完全に装備した 32- ポート 400G スイッチは、光学系だけで約 640 ワットを消費します。それは、スイッチ ASIC、コントロール プレーン、ファン、電源の前です。 1RU シャーシでは合計 1.5 ~ 2 キロワットになります。これらのモジュールをジャンクション温度制限以下に保つために必要なエアフロー エンジニアリングは、航空宇宙設計の限界に達しています。

 

PAM4 によりすべてが難しくなりました

 

スペクトル効率が 2 倍になった PAM4 は誰もが賞賛します。それが生み出したエンジニアリングの悪夢については誰も言及しません。

NRZはシンプルでした。 2 つの電圧レベル。信号は 1 または 0 のいずれかを表します。アイ ダイアグラムには開口部が 1 つあります。きれいであれば、あなたは金色です。

PAM4 は、4 つの振幅レベルを使用してシンボルごとに 2 ビットを送信します。 3 つの重ねられた目の開口部。各目は、同等の NRZ 目の高さのおよそ 3 分の 1 です。-ノイズマージンが崩壊します。突然、PCB 痕跡のすべてのミリメートルが重要になります。すべてのビアが反射を引き起こします。ホスト ASIC と光モジュール ケージの間のあらゆるインピーダンスの不連続が信頼性の問題になります。

特定のポートでランダムな CRC エラーが発生する 400G 展開のデバッグに 6 か月を費やしました。根本的な原因は?ホストボード上の-仕様をわずかに満たしていない-コネクタにより、最も低い PAM4 アイが破損するのに十分なリターン ロスが発生しました。 100G トラフィックにはまったく問題ありません。 400Gでは壊滅的。

業界の対応はFECの義務化でした。前方誤り訂正なしでは 400G PAM4 光ファイバーを実行することはできません。-生の BER が単に使用可能なしきい値を超えているだけです。 RS(544,514) により、約 300 ナノ秒の遅延が追加されます。大きくはありません。ただし、MPI ジョブを実行している HPC クラスターにはそのことを伝えます。MPI ジョブでは、マイクロ秒単位のテール レイテンシーがジョブの完了時間に影響します。

 

400g Optical Module

 

シリコンフォトニクスは私たちを救うはずだった

 

シリコンフォトニクスのピッチは紙の上では完璧に聞こえます。数十年にわたるCMOSファブへの投資を活用します。変調器、光検出器、導波路を単一チップに統合します。個別の InP および GaAs コンポーネントでは不可能な規模の経済を実現します。消費電力が 20 ~ 30% 低下します。最終的にコストは同等に達し、その後従来のアプローチを下回ります。

インテルは 300 万台以上の 100G シリコン フォトニック トランシーバーを出荷しました。アリババは、2020 年からクラウド ネットワーク全体に 400G DR4 シリコン フォトニック モジュールを導入しました。このテクノロジーは機能します。

しかし、シリコンフォトニクスには汚い秘密がある。それは、依然として光源をシリコンにすることができないということである。

外部レーザー-通常はリン化インジウム ダイ-がシリコン PIC に結合されるか、ファイバーを介して接続される必要があります。このハイブリッド統合により、製造がさらに複雑になります。収量が低下します。誰もが約束したコスト上の利点は、次の世代に押し出され続けています。

400G向けにシリコンフォトニクスを倍増させる企業の中には、非常に高額な賭けをしている非常に賢い人々も含まれている。 CiscoによるLuxteraとAcaciaの買収額は総額32億6000万ドルとなった。それは研究開発予算ではありません。それが戦略的なインフラ投資です。

市場シェアのデータは、より複雑なストーリーを伝えます。 LightCounting によると、長年にわたる誇大宣伝にもかかわらず、シリコン フォトニック モジュールは依然として 400G 出荷合計の 10% 未満に過ぎません。従来の EML- ベースのトランシーバーが DR4 および FR4 アプリケーションの主流を占めています。テクノロジーの移行は、プレスリリースが示唆するよりもゆっくりと起こっています。

 

スペックシートに隠されている到達範囲

 

400G 光ファイバーの IEEE 命名規則は、実際にモジュールを購入してみるまでは役に立つと思われます。

400G-SR8: マルチモード ファイバーで 100 メートル。 850nm で 8 つの平行レーン。 -ラック内接続には問題ありません。それ以外はひどい。

400G-DR4: シングルモード ファイバーで 500 メートル-。 1310nm で 4 つの平行レーン。ほとんどのデータセンター相互接続の主力製品。

400G-FR4: 2 キロメートル、シングル-モード、CWDM 波長が 1 つのファイバー ペアに多重化されています。高価な外部変調レーザーを使用します。

400G-LR4: 10 キロメートル。 FR4 と同じ波長方式ですが、光増幅により到達距離を延長します。

十分シンプルです。ただし、メーカーがこれらの指定を常に使用して緩急を付けている場合を除きます。

「DR4 互換」モジュールが実験室条件下では 500 メートルに達し、実際のファイバープラントではコネクター損失がわずかに増加して 300 メートルで障害が発生するのを見てきました。仕様には、7dB リンク バジェットで 500 メートルと記載されています。どこでも元の接続を仮定すると、計算は完璧に機能します。実際には、汚れたコネクタ、不完全なスプライス、およびケーブル管理図面に示されているよりも天井を通るわずかに長い経路をたどったファイバー配線が含まれています。

FR4 の到達距離 2 km は、キャンパス内の建物を接続していてファイバー パスの長さが 2.3 キロメートルであることに気づくまでは、十分な距離のように思えます。ここで、3 倍のコストの LR4 モジュールが必要になるか、増幅で創造性を発揮するか、このリンクが実際には機能しないことを受け入れるかです。

 

DR4 と FR4 の決定

 

これは実際のデプロイメントにとって重要ですが、誰もそれをうまく説明しません。

DR4 は、送信に 4 本の平行ファイバー、受信に 4 本の平行ファイバーを使用します。合計8本のファイバー。 4 つの未使用ポジションを持つ MPO-12 コネクタ。最大到達距離は500メートル。消費電力は通常 8 ~ 10 ワットです。モジュールのコストは同等の FR4 の約 60% です。

FR4 は波長分割多重化を使用して、4 つのレーンすべてを単一のファイバー ペアに配置します。デュプレックス LC コネクタ。最大到達距離は2キロメートル。消費電力は通常 10 ~ 12 ワットです。 EML レーザーは安くないため、プレミアム価格が設定されています。

ファイバートポロジーがすべてを決定します。

指定した構造化ケーブルを備えたグリーンフィールド データ センターですか?平行ファイバーは理にかなっています。列間に MPO トランク ケーブルを配線します。どこでも DR4 を使用してください。光コストが低いため、余分なファイバーが相殺されます。

既存の二相ファイバープラントを使用したブラウンフィールド環境ですか? FR4 または新しいケーブルを引っ張っています。

いくつかの並列実行といくつかの二重レガシー プラントを含む混合環境ですか?互換性の悪夢へようこそ。最終的には、両方のモジュール タイプ、異なるコネクタ スタイル、そして誰かが間違ったパッチ コードを使用し、「リンク ダウン」アラートのトラブルシューティングに 4 時間を費やした少なくとも 1 つのキャビネットが存在することになります。

 

ブレークアウトクエスチョン

 

400G-DR4 モジュールには 4 つの 100G レーンが含まれています。各レーンは光レイヤーで独立して動作します。これにより、ブレークアウト ファイバー アセンブリを使用して 1 つの 400G スイッチ ポートを 4 つの個別の 100G デバイスに接続するブレークアウト{6}}が可能になります。

経済学は説得力があるように思えます。 400G ポート 1 つ。 4 台の 100G サーバー。追加のスイッチ ポートは必要ありません。

現実はさらに複雑です。

スイッチ ASIC は、常に任意のブレークアウト構成をサポートするとは限りません。一部のプラットフォームでは特定のファームウェアが必要です。特定のポート グループでのみブレークアウトを許可するものもあります。ハードウェアでブレークアウトを実装しているものはいくつかありますが、ソフトウェア スタックは構成オプションを公開していません。

さらに悪いことに、ブレークアウト ケーブルはサポートの悪夢を生み出します。問題は 400G モジュール、ブレークアウト アセンブリ、または 4 つの 100G デバイス ポートのいずれかにありますか?トラブルシューティングには、ケーブルを交換し、各脚を個別にテストし、問題が再現されることを祈る必要があります。

特に複雑さを避けるために、組織があらゆる場所でネイティブ 100G を標準化しているのを見てきました。光学系はもっと高価です。スイッチ ポートの密度が低下します。しかし、操作のシンプルさが勝ります。

 

400g Optical Module

 

消費電力の現実

 

すべての 400G モジュールのデータシートには消費電力が記載されています。この数値は技術的には正確ですが、実際には役に立ちません。

QSFP-DD DR4 の仕様は通常 8.5 ワットです。これは、通常の動作条件下でスイッチの 3.3V レールから供給されるモジュールです。これには、スイッチ ASIC が 8 つの 50G PAM4 レーンを駆動するために消費する追加電力は含まれません。これには、より強力なファン、追加のエアフロー、場合によっては補助冷却などの熱管理のオーバーヘッドは考慮されていません。{9}}

スイッチあたり 32 ポートの場合、8 ワット モジュールと 12 ワット モジュールの差は 128 ワットになります。ラックの列全体に対する配電を計画する場合、これは簡単ではありません。

100G から 400G に移行しても、ポートあたりの消費電力は 4 倍にはなりません。{2}}統合と DSP の改善による効率の向上が役立ちます。しかし、スイッチあたりの総電力は確実に増加しました。 100G 密度を中心に電気および冷却インフラストラクチャを計画していたデータセンターは、全人口で 400G にアップグレードする際に容量の制約を発見しています。

 

互換性はバイナリではありません

 

ベンダーは「すべての主要なスイッチ プラットフォームと互換性がある」と主張することを好みます。この記述は技術的には擁護可能ですが、事実上誤解を招きます。

光モジュールの互換性は、物理的な適合性や電気信号以上のものに依存します。 DOM (Digital Optical Monitoring) プロトコルはベンダーによって異なります。 CMIS (共通管理インターフェイス仕様) 実装には十分な柔軟性があるため、2 つの「準拠」実装がきれいに相互運用できない可能性があります。一部のスイッチはベンダー ID コードをチェックし、認識されていないモジュールの点灯を完全に拒否します。

「互換性のある」400G 光モジュールのグレー マーケットが爆発的に拡大したのは、ブランド モジュールの価格がサードパーティ製モジュールの 3-5 倍であるためです。-それらの代替案の中には、問題なく動作するものもあります。特定のトラフィック パターンまたは数週間の実行後にのみ現れる微妙な問題を引き起こすものもあります。

私が個人的にサードパーティ製の 400G DR4 モジュールをテストしたところ、ラボでの適合性測定はすべて合格しましたが、本番環境の負荷下ではトラフィックの 2% で修正不可能な FEC エラーが発生しました。{0}継続的な高帯域幅動作中のモジュール内部の温度が、光学コンポーネントが処理できる温度を超えました。-モジュールは機能しました。そうならないまでは。

 

800G が 400G にとって何を意味するか

 

800G への移行はすでに進行中です。ハイパースケーラーは現在 800G を導入しています。残りの業界も18~24か月以内に続くだろう。

これにより 400G が廃止されるわけではありません-モジュールは何年も出荷されます-が、経済性は変わります。

800G は、400G の 8 つの 50G レーンの代わりに 8 つの 100G レーンを使用します。同じ PAM4 変調で、レーンあたりのシンボル レートが高くなります。物理は難しくなります。熱エンベロープはモジュールあたり 20 ~ 25 ワットに達します。 OSFP のサーマルヘッドルームの利点は、これらの電力レベルでより重要になります。

さらに重要なのは、800G モジュールはデュアル 400G 構成に分割できることです。 1 つの 800G-2xDR4 モジュールは、2 つの独立した 400G リンクを提供します。 400G と 800G の要件が混在する環境では、このブレークアウト機能により在庫管理が簡素化されます。

私が話を聞いたデータセンター オペレーターは、リーフ-スパイン接続については 400G を維持している一方、帯域幅密度が最も重要な GPU クラスタ相互接続については 800G を評価しています。すべての通信パターンを使用した AI トレーニング ワークロードは、従来の南北トラフィックでは決して起こらなかった方法で、400G リンクに真のストレスを与えます。--

 

共同パッケージ化された光学分野の可能性

 

業界の誰もが CPO の登場を知っています。光トランシーバーはスイッチ ASIC と直接統合されています。プラグ可能なモジュールがまったくありません。消費電力はビットあたり 15 ピコジュールからおそらく 5 ピコジュールに低下し、テクノロジーが成熟すると、1 ピコジュールを下回る可能性があります。

NVIDIA は、2025/2026 ハードウェアの CPO 計画を発表しました。 Meta と Microsoft はプロトタイプを実証しました。 OIF はインターフェースを標準化しています。

問題はCPOが起こるかどうかではない。現在の計画サイクルにとって重要なのは、それが十分な速さで起こるかどうかです。

私の読んだところによると、ほとんどの導入では、少なくとも 2028 年まではプラグ可能な光学系が主流になるということです。 CPO は、ハイパースケーラーのカスタム ビルドに以前に登場する可能性があります。ホットスワップ可能なモジュールの運用上の柔軟性-、スイッチをシャットダウンせずに障害が発生した光ファイバーを交換できる機能-は、N+1 の冗長性がどこにもない環境では非常に重要です。{6}}

今すぐプラグイン可能な 400G および 800G を計画してください。 3 年間の CPO 評価の予算。ベンダーのロードマップのスライドによって、製造の現実がサポートできないスケジュールを加速させないようにしてください。

 

実際に役立つ実践的なガイダンス

 

新しいビルドの場合: パラレル ファイバー インフラストラクチャを備えた DR4 で標準化します。 FR4 に比べてコスト削減は、数千のモジュールにわたって複合化されます。仕様書で 8 ワットと約束されている場合でも、モジュールあたり 10 ワットの電力と冷却を計画してください。

アップグレードの場合: 既存のファイバー プラントを徹底的に監査します。すべてのセグメントで実際に測定された損失を把握します。光学部品が到着する前に、400 メートルの DR4 制限違反を発見します。

AI クラスターの場合: 800G がすでに正しい答えです。帯域幅の需要は、プレミアムを正当化します。ワークロードが 18 か月以内に 400G を超える場合は、中途半端に 400G まで引き上げないでください。

すべての皆様へ: 大量導入の前に、サードパーティの光学系を広範囲にテストしてください。-コスト削減は現実的です。失敗も同様です。在庫に投資する前に、現実的な負荷の下で特定のスイッチ プラットフォームを検証してください。

テクノロジーは機能します。 2024 年に 2,000 万個の 400G および 800G モジュールが出荷されるのには理由があります。しかし、100G からの移行には、仕様書やマーケティング資料では都合よく省略されている詳細に注意を払う必要があります。物理学では、導入のタイムラインは考慮されません。

 

お問い合わせを送る