データの未来: 400g 光モジュール

Dec 22, 2025|

の400G光モジュールこれは、100G の以前のバージョンに比べて単に帯域幅が段階的に向上しただけではなく、データセンターアーキテクチャの基本的な変曲点を表しています。このテクノロジーの中核では、8 つの電気レーンにわたってそれぞれ 50Gbps の PAM4 (4- レベルのパルス振幅変調) シグナリングを活用し、最新の AI/ML クラスターやハイパースケール環境の計算密度要件に対応する総スループットを実現します。 NRZ バイナリエンコーディングからマルチ-レベルの振幅変調への移行により、固有の SNR ペナルティが導入され、-理論上約 9.5dB の劣化が発生します。これには、本番リンク全体で許容可能なビットエラーレートを維持するために、高度な DSP 実装と RS(544,514) などの必須の前方誤り訂正スキームが必要です。

光ネットワーキングのカンファレンスに参加すると、技術的な比較として QSFP{0}}DD と OSFP の議論が行われます。そうではありません。それは仕様書に着飾った政治闘争だ。

QSFP-DD は、最初の 400G スイッチが出荷される前に、ボリュームの戦いに勝利しました。 QSFP28 ケージとの下位互換性により、理論的にはすべてのネットワークオペレータが既存のインフラストラクチャを取り壊さずにアップグレードできることになります。これは「理論上」大変な作業を行っていることになります-私は、エンジニアが週末中ずっと、物理的に適合していても電気的に誤動作する倍密度モジュールを従来のスイッチファームウェアに認識させることに費やしているのを見てきました。-

OSFP は、4 レーン用に構築されたケージに 8 レーンを無理に組み込むのではなく、より大きなモジュール、より優れたサーマル、400G 向けにゼロから設計するという、率直な提案で Arista 陣営から生まれました。統合されたヒートシンクは、汗をかくことなく 15-20 ワットを処理します。 QSFP-DD は 12 ワットですか?高密度導入ではすでに熱限界を超えています。

とにかく業界は QSFP-DD を選択しました。互換性が勝ちます。いつもそうだ。

しかし、フォームファクターの比較記事では決して言及されていないことがここにあります。それは、熱容量の違いは規模が大きくなると劇的に増大するということです。 QSFP-DD モジュールを完全に装備した 32- ポート 400G スイッチは、光学系だけで約 640 ワットを消費します。それは、スイッチ ASIC、コントロールプレーン、ファン、電源の前です。 1RU シャーシでは合計 1.5 ～ 2 キロワットになります。これらのモジュールをジャンクション温度制限以下に保つために必要なエアフローエンジニアリングは、航空宇宙設計の限界に達しています。

スペクトル効率が 2 倍になった PAM4 は誰もが賞賛します。それが生み出したエンジニアリングの悪夢については誰も言及しません。

NRZはシンプルでした。 2 つの電圧レベル。信号は 1 または 0 のいずれかを表します。アイダイアグラムには開口部が 1 つあります。きれいであれば、あなたは金色です。

PAM4 は、4 つの振幅レベルを使用してシンボルごとに 2 ビットを送信します。 3 つの重ねられた目の開口部。各目は、同等の NRZ 目の高さのおよそ 3 分の 1 です。-ノイズマージンが崩壊します。突然、PCB 痕跡のすべてのミリメートルが重要になります。すべてのビアが反射を引き起こします。ホスト ASIC と光モジュールケージの間のあらゆるインピーダンスの不連続が信頼性の問題になります。

特定のポートでランダムな CRC エラーが発生する 400G 展開のデバッグに 6 か月を費やしました。根本的な原因は？ホストボード上の-仕様をわずかに満たしていない-コネクタにより、最も低い PAM4 アイが破損するのに十分なリターンロスが発生しました。 100G トラフィックにはまったく問題ありません。 400Gでは壊滅的。

業界の対応はFECの義務化でした。前方誤り訂正なしでは 400G PAM4 光ファイバーを実行することはできません。-生の BER が単に使用可能なしきい値を超えているだけです。 RS(544,514) により、約 300 ナノ秒の遅延が追加されます。大きくはありません。ただし、MPI ジョブを実行している HPC クラスターにはそのことを伝えます。MPI ジョブでは、マイクロ秒単位のテールレイテンシーがジョブの完了時間に影響します。

400g Optical Module

シリコンフォトニクスのピッチは紙の上では完璧に聞こえます。数十年にわたるCMOSファブへの投資を活用します。変調器、光検出器、導波路を単一チップに統合します。個別の InP および GaAs コンポーネントでは不可能な規模の経済を実現します。消費電力が 20 ～ 30% 低下します。最終的にコストは同等に達し、その後従来のアプローチを下回ります。

インテルは 300 万台以上の 100G シリコンフォトニックトランシーバーを出荷しました。アリババは、2020 年からクラウドネットワーク全体に 400G DR4 シリコンフォトニックモジュールを導入しました。このテクノロジーは機能します。

しかし、シリコンフォトニクスには汚い秘密がある。それは、依然として光源をシリコンにすることができないということである。

外部レーザー-通常はリン化インジウムダイ-がシリコン PIC に結合されるか、ファイバーを介して接続される必要があります。このハイブリッド統合により、製造がさらに複雑になります。収量が低下します。誰もが約束したコスト上の利点は、次の世代に押し出され続けています。

400G向けにシリコンフォトニクスを倍増させる企業の中には、非常に高額な賭けをしている非常に賢い人々も含まれている。 CiscoによるLuxteraとAcaciaの買収額は総額32億6000万ドルとなった。それは研究開発予算ではありません。それが戦略的なインフラ投資です。

市場シェアのデータは、より複雑なストーリーを伝えます。 LightCounting によると、長年にわたる誇大宣伝にもかかわらず、シリコンフォトニックモジュールは依然として 400G 出荷合計の 10% 未満に過ぎません。従来の EML- ベースのトランシーバーが DR4 および FR4 アプリケーションの主流を占めています。テクノロジーの移行は、プレスリリースが示唆するよりもゆっくりと起こっています。

400G 光ファイバーの IEEE 命名規則は、実際にモジュールを購入してみるまでは役に立つと思われます。

400G-SR8: マルチモードファイバーで 100 メートル。 850nm で 8 つの平行レーン。 -ラック内接続には問題ありません。それ以外はひどい。

400G-DR4: シングルモードファイバーで 500 メートル-。 1310nm で 4 つの平行レーン。ほとんどのデータセンター相互接続の主力製品。

400G-FR4: 2 キロメートル、シングル-モード、CWDM 波長が 1 つのファイバーペアに多重化されています。高価な外部変調レーザーを使用します。

400G-LR4: 10 キロメートル。 FR4 と同じ波長方式ですが、光増幅により到達距離を延長します。

十分シンプルです。ただし、メーカーがこれらの指定を常に使用して緩急を付けている場合を除きます。

「DR4 互換」モジュールが実験室条件下では 500 メートルに達し、実際のファイバープラントではコネクター損失がわずかに増加して 300 メートルで障害が発生するのを見てきました。仕様には、7dB リンクバジェットで 500 メートルと記載されています。どこでも元の接続を仮定すると、計算は完璧に機能します。実際には、汚れたコネクタ、不完全なスプライス、およびケーブル管理図面に示されているよりも天井を通るわずかに長い経路をたどったファイバー配線が含まれています。

FR4 の到達距離 2 km は、キャンパス内の建物を接続していてファイバーパスの長さが 2.3 キロメートルであることに気づくまでは、十分な距離のように思えます。ここで、3 倍のコストの LR4 モジュールが必要になるか、増幅で創造性を発揮するか、このリンクが実際には機能しないことを受け入れるかです。

これは実際のデプロイメントにとって重要ですが、誰もそれをうまく説明しません。

DR4 は、送信に 4 本の平行ファイバー、受信に 4 本の平行ファイバーを使用します。合計8本のファイバー。 4 つの未使用ポジションを持つ MPO-12 コネクタ。最大到達距離は500メートル。消費電力は通常 8 ～ 10 ワットです。モジュールのコストは同等の FR4 の約 60% です。

FR4 は波長分割多重化を使用して、4 つのレーンすべてを単一のファイバーペアに配置します。デュプレックス LC コネクタ。最大到達距離は2キロメートル。消費電力は通常 10 ～ 12 ワットです。 EML レーザーは安くないため、プレミアム価格が設定されています。

ファイバートポロジーがすべてを決定します。

指定した構造化ケーブルを備えたグリーンフィールドデータセンターですか?平行ファイバーは理にかなっています。列間に MPO トランクケーブルを配線します。どこでも DR4 を使用してください。光コストが低いため、余分なファイバーが相殺されます。

既存の二相ファイバープラントを使用したブラウンフィールド環境ですか? FR4 または新しいケーブルを引っ張っています。

いくつかの並列実行といくつかの二重レガシープラントを含む混合環境ですか?互換性の悪夢へようこそ。最終的には、両方のモジュールタイプ、異なるコネクタスタイル、そして誰かが間違ったパッチコードを使用し、「リンクダウン」アラートのトラブルシューティングに 4 時間を費やした少なくとも 1 つのキャビネットが存在することになります。

400G-DR4 モジュールには 4 つの 100G レーンが含まれています。各レーンは光レイヤーで独立して動作します。これにより、ブレークアウトファイバーアセンブリを使用して 1 つの 400G スイッチポートを 4 つの個別の 100G デバイスに接続するブレークアウト{6}}が可能になります。

経済学は説得力があるように思えます。 400G ポート 1 つ。 4 台の 100G サーバー。追加のスイッチポートは必要ありません。

現実はさらに複雑です。

スイッチ ASIC は、常に任意のブレークアウト構成をサポートするとは限りません。一部のプラットフォームでは特定のファームウェアが必要です。特定のポートグループでのみブレークアウトを許可するものもあります。ハードウェアでブレークアウトを実装しているものはいくつかありますが、ソフトウェアスタックは構成オプションを公開していません。

さらに悪いことに、ブレークアウトケーブルはサポートの悪夢を生み出します。問題は 400G モジュール、ブレークアウトアセンブリ、または 4 つの 100G デバイスポートのいずれかにありますか?トラブルシューティングには、ケーブルを交換し、各脚を個別にテストし、問題が再現されることを祈る必要があります。

特に複雑さを避けるために、組織があらゆる場所でネイティブ 100G を標準化しているのを見てきました。光学系はもっと高価です。スイッチポートの密度が低下します。しかし、操作のシンプルさが勝ります。

400g Optical Module

すべての 400G モジュールのデータシートには消費電力が記載されています。この数値は技術的には正確ですが、実際には役に立ちません。

QSFP-DD DR4 の仕様は通常 8.5 ワットです。これは、通常の動作条件下でスイッチの 3.3V レールから供給されるモジュールです。これには、スイッチ ASIC が 8 つの 50G PAM4 レーンを駆動するために消費する追加電力は含まれません。これには、より強力なファン、追加のエアフロー、場合によっては補助冷却などの熱管理のオーバーヘッドは考慮されていません。{9}}

スイッチあたり 32 ポートの場合、8 ワットモジュールと 12 ワットモジュールの差は 128 ワットになります。ラックの列全体に対する配電を計画する場合、これは簡単ではありません。

100G から 400G に移行しても、ポートあたりの消費電力は 4 倍にはなりません。{2}}統合と DSP の改善による効率の向上が役立ちます。しかし、スイッチあたりの総電力は確実に増加しました。 100G 密度を中心に電気および冷却インフラストラクチャを計画していたデータセンターは、全人口で 400G にアップグレードする際に容量の制約を発見しています。

ベンダーは「すべての主要なスイッチプラットフォームと互換性がある」と主張することを好みます。この記述は技術的には擁護可能ですが、事実上誤解を招きます。

光モジュールの互換性は、物理的な適合性や電気信号以上のものに依存します。 DOM (Digital Optical Monitoring) プロトコルはベンダーによって異なります。 CMIS (共通管理インターフェイス仕様) 実装には十分な柔軟性があるため、2 つの「準拠」実装がきれいに相互運用できない可能性があります。一部のスイッチはベンダー ID コードをチェックし、認識されていないモジュールの点灯を完全に拒否します。

「互換性のある」400G 光モジュールのグレーマーケットが爆発的に拡大したのは、ブランドモジュールの価格がサードパーティ製モジュールの 3-5 倍であるためです。-それらの代替案の中には、問題なく動作するものもあります。特定のトラフィックパターンまたは数週間の実行後にのみ現れる微妙な問題を引き起こすものもあります。

私が個人的にサードパーティ製の 400G DR4 モジュールをテストしたところ、ラボでの適合性測定はすべて合格しましたが、本番環境の負荷下ではトラフィックの 2% で修正不可能な FEC エラーが発生しました。{0}継続的な高帯域幅動作中のモジュール内部の温度が、光学コンポーネントが処理できる温度を超えました。-モジュールは機能しました。そうならないまでは。

800G への移行はすでに進行中です。ハイパースケーラーは現在 800G を導入しています。残りの業界も18～24か月以内に続くだろう。

これにより 400G が廃止されるわけではありません-モジュールは何年も出荷されます-が、経済性は変わります。

800G は、400G の 8 つの 50G レーンの代わりに 8 つの 100G レーンを使用します。同じ PAM4 変調で、レーンあたりのシンボルレートが高くなります。物理は難しくなります。熱エンベロープはモジュールあたり 20 ～ 25 ワットに達します。 OSFP のサーマルヘッドルームの利点は、これらの電力レベルでより重要になります。

さらに重要なのは、800G モジュールはデュアル 400G 構成に分割できることです。 1 つの 800G-2xDR4 モジュールは、2 つの独立した 400G リンクを提供します。 400G と 800G の要件が混在する環境では、このブレークアウト機能により在庫管理が簡素化されます。

私が話を聞いたデータセンターオペレーターは、リーフ-スパイン接続については 400G を維持している一方、帯域幅密度が最も重要な GPU クラスタ相互接続については 800G を評価しています。すべての通信パターンを使用した AI トレーニングワークロードは、従来の南北トラフィックでは決して起こらなかった方法で、400G リンクに真のストレスを与えます。--

業界の誰もが CPO の登場を知っています。光トランシーバーはスイッチ ASIC と直接統合されています。プラグ可能なモジュールがまったくありません。消費電力はビットあたり 15 ピコジュールからおそらく 5 ピコジュールに低下し、テクノロジーが成熟すると、1 ピコジュールを下回る可能性があります。

NVIDIA は、2025/2026 ハードウェアの CPO 計画を発表しました。 Meta と Microsoft はプロトタイプを実証しました。 OIF はインターフェースを標準化しています。

問題はCPOが起こるかどうかではない。現在の計画サイクルにとって重要なのは、それが十分な速さで起こるかどうかです。

私の読んだところによると、ほとんどの導入では、少なくとも 2028 年まではプラグ可能な光学系が主流になるということです。 CPO は、ハイパースケーラーのカスタムビルドに以前に登場する可能性があります。ホットスワップ可能なモジュールの運用上の柔軟性-、スイッチをシャットダウンせずに障害が発生した光ファイバーを交換できる機能-は、N+1 の冗長性がどこにもない環境では非常に重要です。{6}}

今すぐプラグイン可能な 400G および 800G を計画してください。 3 年間の CPO 評価の予算。ベンダーのロードマップのスライドによって、製造の現実がサポートできないスケジュールを加速させないようにしてください。

新しいビルドの場合: パラレルファイバーインフラストラクチャを備えた DR4 で標準化します。 FR4 に比べてコスト削減は、数千のモジュールにわたって複合化されます。仕様書で 8 ワットと約束されている場合でも、モジュールあたり 10 ワットの電力と冷却を計画してください。

アップグレードの場合: 既存のファイバープラントを徹底的に監査します。すべてのセグメントで実際に測定された損失を把握します。光学部品が到着する前に、400 メートルの DR4 制限違反を発見します。

AI クラスターの場合: 800G がすでに正しい答えです。帯域幅の需要は、プレミアムを正当化します。ワークロードが 18 か月以内に 400G を超える場合は、中途半端に 400G まで引き上げないでください。

すべての皆様へ: 大量導入の前に、サードパーティの光学系を広範囲にテストしてください。-コスト削減は現実的です。失敗も同様です。在庫に投資する前に、現実的な負荷の下で特定のスイッチプラットフォームを検証してください。

テクノロジーは機能します。 2024 年に 2,000 万個の 400G および 800G モジュールが出荷されるのには理由があります。しかし、100G からの移行には、仕様書やマーケティング資料では都合よく省略されている詳細に注意を払う必要があります。物理学では、導入のタイムラインは考慮されません。

← 上一条: 光ファイバーモジュールは世界中で製造されています

次条: SFP モジュール完全ガイド: 種類、仕様、用途 →

お問い合わせを送る

データの未来: 400g 光モジュール

誰も正直に語らないフォームファクター戦争

PAM4 によりすべてが難しくなりました

シリコンフォトニクスは私たちを救うはずだった

スペックシートに隠されている到達範囲

DR4 と FR4 の決定

ブレークアウトクエスチョン

消費電力の現実

互換性はバイナリではありません

800G が 400G にとって何を意味するか

共同パッケージ化された光学分野の可能性

実際に役立つ実践的なガイダンス