最新のネットワークにおける 400G 光モジュール
Dec 17, 2025|
の400G光モジュールこれはエンジニアリングの実用主義の勝利であると同時に、運用上の絶え間ない悩みの種でもあります。その核心は、光を使ってガラスに毎秒 4,000 億ビットを送信するという単純なことです。実装は、複数のフォーム ファクター、変調方式、波長構成、および「互換性」が実際に何を意味するかについてのベンダーの解釈にまたがって広がります。 PAM4 変調は、シンボルあたり 1 ビットではなく 2 ビットをエンコードすることで、ボーレートを 2 倍にすることなくスループットを効果的に 2 倍にすることで、業界をこの速度のしきい値に引き上げました。-しかし、この決定は、モジュール内で 12 ワットを消費する DSP シリコンから、PAM4 が本質的に生成するビット エラーの増加を修正するためにスクランブルをかけるホスト プラットフォームの FEC エンジンに至るまで、導入スタックのすべての層に波及する結果をもたらしました。

誰も勝てなかったフォームファクター戦争
QSFP-DD と OSFP は、2 人とも 400G を望んでいること以外は何も合意できなかった 2 人の兄弟のように、標準プロセスから誕生しました。業界はそれぞれ 50Gbps の 8 つの電気レーンを必要としており、2 つの異なるコンソーシアムが 2 つの異なる方法でこの問題を解決することを決定しました。
QSFP-DD が互換性の議論で勝利しました。十分に目を細めてピンの 2 列目を気にしない場合は、既存の QSFP28 ケージに適合します。何万ものポートが展開されており、CFO が座礁資産について鋭い質問をする場合、下位互換性は重要です。
OSFPは熱に関する議論に勝利した。わずかに大きいハウジングと統合されたヒートシンクにより、隣接するポートを調理することなく、これらのモジュールが消費する 15- 20 ワットを実際に放散できます。エアフロー設計が 100G パワー エンベロープを想定しているため、隅の QSFP-DD ポートが中央のポートよりも一貫して 8 度高く動作するラインカードを見たことがあります。
どちらも実際には勝てませんでした。ほとんどのハイパースケーラーは、インベントリを簡素化するために QSFP-DD を導入しました。ほとんどの通信導入では、コヒーレント モジュールに熱ヘッドルームが必要だったので、OSFP が導入されました。他の人は、スイッチ ベンダーが出荷したものを選択して次に進みました。
QSFP112 の亜種は誰もが混乱するため、言及する価値があります。 100G の 4 つのレーン-は同じ 400G 集約、レーン数は少なく、新しい SerDes。これは、DSP ギアボックスを複雑にすることなく、サーバー-から-へのリンクを必要とする NIC 接続にとって重要です。他のベンダーが主張するほど重要ではありません。
PAM4 はすべてを変えました (そしていくつかの機能を破壊しました)
400G を販売しているときに、誰も適切に説明していないことは次のとおりです。PAM4 シグナリングはノイズ耐性と引き換えに帯域幅効率を犠牲にしており、そのトレードオフは無料ではありません。
NRZ エンコードでは 2 つの信号レベルが使用されました。高いか低いか。 1 かゼロ。受信機はこれら 2 つの状態を区別するだけでよく、アイ ダイアグラムにより快適なマージンが得られました。 PAM4 は 4 つのレベル -00、01、10、11- を使用します。これは、受信機が 3 分の 1 の電圧分離で 3 つのしきい値交差を区別する必要があることを意味します。理論上の 9.54dB SNR ペナルティはまったく理論的ではありません。これは、FEC 以前の BER カウンターに毎日表示されます。
400G モジュール内の DSP は、これを補うために素晴らしい仕事をします。フィードフォワード等化、判定フィードバック等化、クロックとデータ リカバリ-はすべてレーンあたり 53.125 GBaud で実行されます。{2}機能しているときは、目に見えません。それが機能しない場合は、修正可能なエラーが大量に発生し、時折修正できないエラーが発生しますが、問題がモジュール、ファイバー、ホスト、または宇宙背景放射のいずれであるかを把握できれば幸いです。

昨年、私は DR4 リンク上の断続的なエラー状態を追跡するのに 2 週間を費やしましたが、それは周囲温度が 31 度を超えた場合にのみ現れる DSP ファームウェアのバグであることが判明しました。ベンダーは、私たちが訴訟を起こしてから 3 か月後にこの問題を認めました。この問題を修正したファームウェア アップデートにより、古いスイッチ プラットフォームの 1 つとの相互運用性も損なわれました。
FEC の状況がこれをさらに悪化させます。標準規格の専門家向けの KP4 FEC-RS(544,514)- は、コードワードごとに最大 15 個のシンボル エラーを修正できます。これがどのくらいの頻度で必要になるか理解するまでは、これは寛大なように思えます。 FEC なしで 400G を実行することは、単に推奨できないだけではありません。ほとんどのユースケースでは不可能です。コーディング ゲインにより約 7dB のマージンが得られますが、PAM4 はこれをすぐに消費します。
波長のバリエーション: 届くだけではない
リーチの仕様はストーリーの一部にすぎません。
400G-SR8 は、8 本の平行ファイバーで 850nm VCSEL を使用し、OM4 で 100 メートルをターゲットとしています。安いですよ。マルチモードです。 8 本の TX ファイバーと 8 本の RX ファイバーを備えた MPO-16 コネクタが必要です。ラック内または隣接するラック間では、これは正常に機能します。誰かが「もう少し」実行することについて尋ねた瞬間、850nm でのモード分散は交渉できないことを思い出させてください。
400G-DR4 は、定格 500 メートルの 4 本の並列シングルモード ファイバー上で 1310nm で動作します。-。 MPO-12 コネクタは外側の 8 本のファイバを使用し、4 本は未使用のまま残します。-これは、導入ごとにおよそ 1 回、ケーブル設置業者を混乱させるという事実があります。 DR4 は、500 メートルでほとんどのデータセンター ジオメトリを余裕でカバーできるため、シングルモード プラントにおけるリーフ-スパイン接続の主力製品となっています。
400G-FR4 は、デュプレックス LC を介して単一のファイバー ペアに多重化された CWDM4 波長 (1271、1291、1311、1331nm) を使用します。 2キロ到達。ここで、キャンパスの相互接続として 400G が経済的であると感じ始めます。建物間に 8 本のファイバー MPO トランクを引く必要がないからです。{11}}
400G-LR4 は、より高い発射出力と優れた受信機により、同じ CWDM4 アプローチを 10 キロメートルまで延長します。 FR4 から LR4 への価格の高騰は、100G-LR4 の価格設定からメンタル モデルを更新していない調達部門をいまだに驚かせています。
一貫したゾウ
400G-ZR は、同じフォーム ファクタをまとった根本的に異なるテクノロジーを表しているため、独自のセクションを設ける価値があります。
これまで説明してきたことはすべて、直接検出光学系を使用しています。{0}光が入り、フォトダイオードが光を変換し、DSP がそれをクリーンアップします。コヒーレント光学は、2 つの偏波にわたる振幅と位相の両方の情報を同時にエンコードし、局部発振器と高度なデジタル信号処理を使用して受信機ですべてを復元します。結果: プラグイン可能なモジュールで、増幅されていないファイバーの 120+ キロメートルにわたって 400 Gbps。
OIF 400ZR 規格では、二重偏波による 60 GBaud での 16QAM 変調を指定しています。連結された FEC (軟判定内部ハミング、硬判定外側階段) は、約 10.8dB の正味符号化ゲインを提供します。-全体で 15-20 ワットを消費し、QSFP-DD モジュールが発熱するほどの熱を発生します。
その熱負荷向けに設計されていないスイッチに ZR モジュールが取り付けられているのを見てきました。スイッチ シャーシの吸気センサーが冷気を測定したため、スイッチ シャーシは正常温度を報告しました。このモジュールは、エアフローが不十分な他の 2 つの ZR モジュールの間に挟まれていたため、73 度を報告しました。リンクは、FEC 補正が上昇しても-かろうじて機能しました-が、プレ FEC BER がしきい値を超える傾向になり、パケットがドロップし始めるまで、誰も気づきませんでした。{6}}
ZR+ および MZR のバリアントは、相互運用性を犠牲にしてさらに到達範囲を広げます。起動電力、受信感度、FEC アルゴリズムに対するベンダー固有の機能強化により、リンクを 400 km を超えて延長できますが、商品ではなくソリューションを購入することになります。

第三者からの質問-
私はこの会話を約600回行いました。
「サードパーティの 400G 光ファイバーを使用できますか?{0}」
技術的にはそうです。 MSA 仕様は、まさにマルチベンダーの相互運用性を可能にするために存在しています。-メーカー X の準拠した QSFP-DD は、メーカー Y の QSFP-DD と同じように動作するはずです。IEEE 標準は、光パラメータと電気パラメータを定義しています。 CMIS (共通管理インターフェイス仕様) は、ホストがモジュールと通信する方法を標準化します。
実際には状況によります。
シスコの認証メカニズムは、古いプラットフォームの率直な「エラーでポートを無効にする」アプローチから、警告を記録するものの必ずしも機能を無効にするわけではない、より洗練されたベンダー検証に進化しました。サービスがサポートされていない-トランシーバー コマンドは避難ハッチのままです。 Arista はより寛容な傾向がありますが、サードパーティ モジュールに起因する可能性のある問題のサポートを拒否します。{4}}ジュニパーのスタンスはプラットフォームとソフトウェアのバージョンによって異なり、互換性マトリックスを参照する必要があります。
私はラボ環境でためらうことなくサードパーティ製の光学機器を使用しています。-午前 2 時に何か障害が発生したときに収益トラフィックを運ぶ本番パスの場合はどうすればよいでしょうか?すぐに「サポートされているトランシーバーに交換する」ことに切り替えるのではなく、TAC に電話して実際にサポートしてもらいたいと考えています。
数万単位でモジュールを購入し、サプライヤーを独自に評価して認定できる光学エンジニアを雇用するハイパースケーラーにとって、コストの計算はこの計算を変更します。技術リソースが限られている流通チャネルを通じて何百ものモジュールを購入する企業にとっては、計算が異なります。
熱的現実
400G QSFP-DD モジュールは、バリアントとベンダーに応じて 10 ~ 15 ワットの間の電力を消費します。 400G コヒーレント ZR モジュールは 15-20 ワットを消費します。すでに AI クラスタに導入されている 800G QSFP-DD800 モジュール-は 18~25 ワットを消費します。
これらを 64 個を 2RU スイッチに配置すると、スイッチ ASIC、メモリ、ファン、電源を考慮する前に、光学系だけで 640 ワットを消費することになります。熱設計の問題は、一世代で「適切」から「重大」に移行しました。
認定テスト中に、熱画像カメラがフル負荷の 400G スパイン スイッチを掃引しているのを見ました。{0}最もホットなモジュールは、あなたが期待していたものではありませんでした。 ASIC 排気の風下にあるコーナー位置は、新鮮な空気が入るフェイスプレート センター モジュールよりも高温になりました。{4}}標準的な DDM 温度測定値は、同一であると思われるポート間で 17 度のばらつきを示しました。
モジュールの仕様は 0 度から 70 度までの動作を保証していますが、70 度でのパフォーマンス曲線は 25 度での場合と同じではありません。レーザーのしきい値電流が増加します。斜面効率が低下します。波長ドリフト-。CWDM4 および DWDM システムの場合、波長ドリフトは隣接チャネルとのクロストークを意味します。
空冷システムは限界に近づいています。-スイッチの液体冷却は依然として珍しいものですが、GPU と光学系が同じ熱バジェットをめぐって競合する AI/ML クラスターではますます必要性が高まっています。

現実を試す
IEEE 標準では、準拠ポイントが定義されています。特定のリンクが機能することは保証されません。
TDECQ (Transmitter and Dispersion Eye Closure Quaternary) は OMA (Optical Modulation Amplitude) と同等の PAM4 ですが、より複雑です。これは、受信機のパフォーマンスを予測する方法で送信機の品質を特徴付けることを試みます。測定には基準受信機と数学的変換が必要ですが、これらは試験装置のベンダーごとに異なり、標準化委員会で終わりのない議論が巻き起こります。
-PreFEC BER テストの重要性はこれまで以上に高まっています。ビット エラーの「指紋」-ランダムかバーストか、均一に分布しているか特定の PAM4 シンボルに集中しているか-によって、FEC が実際にビット エラーを修正できるかどうかが決まります。真のランダムエラーは、リード-のソロモン符号とうまく機能します。クロック回復の問題や DSP の誤動作によるバースト エラーは、生の BER が許容範囲に見える場合でも、FEC を圧倒する可能性があります。
私は、FEC 後だけでなく、すべての 400G リンクから FEC 前の統計を要求することを学びました。{0}{2} 2×10⁻⁴ で pre{6}}FEC BER を実行しているときに、post{6}}FEC BER が 0.00 を示すリンクは、マージンがほとんど残っていないことがわかるまでは問題なく見えます。少し汚れたコネクタや老朽化したレーザーを追加すると、そのリンクは警告なしに FEC の崖から転倒します。
コネクタの汚れ
400G では、汚染の問題が深刻になります。変調された目のマージンは少なくなります。低速では見えなかった粒子が、問題になるほどに減衰するようになりました。
シングルモード ファイバ コアの直径は 9 マイクロメートルです。- MTP/MPO-12 コネクタは、8 つのアクティブなファイバー パス (4 つの TX、4 つの RX) と未使用の 4 つのファイバー パスを伝送します。すべての交配サイクルには汚染の危険があります。端面が汚れると、挿入損失が発生し、リンク バジェットが圧迫される危険があります。
必要な清掃規則は交渉の余地はありませんが、一貫して遵守されることはほとんどありません。{0}ワンクリック クリーナー、-静電気の心配があるドライ ワイプ、蒸発させずにすぐに乾拭きする必要があるイソプロピル アルコールを使用したウェット クリーニング-、どの方法にも支持者と批判者がいます。誰もが同意することは、接続する前にファイバースコープで検査し、汚れている場合は清掃して再度検査することです。
導入チームが午後中ずっと断続的な 400G-DR4 リンクのトラブルシューティングに取り組んでいるのを見ました。複数のモジュール交換。構成のレビュー。最後に検査範囲を壊したところ、誰もチェックしようとは思わなかったバルクヘッドアダプター上の建設破片を発見しました。 4 時間のトラブルシューティングでは解決できなかった問題を、クリーニング ツールを使用して 20 秒で解決できました。

これが計画にとって何を意味するか
現在、新しいデータセンター ファブリックを導入する場合、スパイン レイヤのベースラインは 400G ですが、リーフ スパイン アップリンクでは 400G がベースラインとなります。{1}ビットあたりのコストは、400G モジュールからの 4×100G ブレークアウトが個々の 100G モジュールよりも安価になるまで低下しました。建物内で 30 メートルを超えるものは DR4。キャンパス相互接続用の FR4。サイト間を移動する場合は LR4 または ZR。
初めての 400G 導入を検討している企業の場合、スイッチング プラットフォームは成熟し、モジュールのサプライ チェーンは安定しており、価格設定では各発注書で経営陣の承認を得る必要はなくなりました。-リーフ-スパインの更新から始めて、ケーブル配線インフラストラクチャがより厳しい汚染耐性に対応できることを証明し、管理ツールが実際に必要になる前に FEC 統計の収集を開始する必要があることを理解します。
これを読んでいるハイパースケーラーであれば、すでに GPU クラスターの 400G を超えており、1.6T が実際にどのようにデプロイされるのか疑問に思っていることでしょう。熱の問題はうまくいきます。 2年後にあなたの論文を読みます。
モジュール自体の信頼性は非常に高くなりました。コネクタの汚染、FEC モードの設定ミス、昨日の電力エンベロープを想定した熱設計、PAM4 シグナル インテグリティの問題のトラブルシューティング方法をまだ学習しているサポート組織など、問題は他のあらゆる場所に存在します。 -コネクタを掃除し、温度を測定し、FEC 予算を理解する-という地味な基本事項が、仕様書に関する議論よりも重要です。


