NVIDIA Quantum 加速量子纠错研究进程

噪声是量子计算的著名对手。量子位对最细微的环境干扰很敏感，会迅速导致错误累积，并使最简单的量子算法的结果过于杂乱而没有意义。

量子纠错 (QEC) 使用许多噪声物理量子位来编码逻辑量子位，从而有效避免噪声，从而规避此问题。通过对噪声物理量子位的某些子集反复执行测量来识别误差，从而产生所谓的误差综合征。然后，可以对这些综合征进行解码，以推断错误的性质和位置，以便跟踪并最终修复这些错误，从而使量子算法能够在不损坏的情况下完成。

识别高效的错误纠正协议并了解如何大规模实施这些协议，仍然是实现有用的量子计算必须解决的巨大挑战。前面描述的解码操作是一项主要挑战，因为它必须在紧张的时间窗口内准确执行。增加代码的复杂性可以提高对错误的保护，但会给解码步骤带来更大的压力。

解码意味着，实际且可扩展的量子纠错需要在硬件架构中仔细集成经典计算资源和量子计算资源，该架构将 QPU 和 GPU 紧密合，同时利用基于内核的编程模型来确保性能。它还需要能够在量子纠错研究的许多其他方面充分利用加速计算的库，包括代码生成、测试和合成数据生成。

在 GTC 25 上，NVIDIA 宣布推出一系列工具，用于加速所有这些任务，并促进整个生态系统的 QEC 研究。

腾出时间进行解码

在 QPU 和 AI 超级计算机之间传输数据所需的额外时间进一步压缩了用于解码的有限时间窗口。如果超级计算机和 QPU 之间的延迟过大，解码器就没有时间识别和跟踪错误，从而导致错误纠正过程完全失败。

NVIDIA 和 Quantum Machines 开发了 NVIDIA DGX Quantum 参考架构来解决这一问题 (图 1) 。DGX Quantum 使 GPU 能够以低于 4 微秒的超低往返延迟连接到量子硬件，因此可用于校准、控制、解码和其他关键任务。

DGX Quantum 系统将 NVIDIA Grace Hopper 超级芯片与 Quantum Machines 的 OPX 控制系统相结合，在 QPU 和 AI 超级计算机之间提供可扩展的模块化连接。

A diagram shows the modular DGX Quantum nodes, each connecting a QPU to the GPU supercomputer using a system that combined Quantum Machines’ OPX control system and NVIDIA Grace Hopper superchips. — *图 1. DGX Quantum 系统*

在 GTC 25 大会上，NVIDIA 和 Quantum Machines 宣布了第一批 DGX Quantum Alpha 客户，他们将从 4 月开始接收发货。麻省理工学院、Fraunhofer IAF、Diraq、Academia Sinica 和 Ecole Normale Supérieure de Lyon 的先驱研究人员将率先展示紧密合的 GPU-QPU 系统如何加速量子计算发展。

SEEQC 等量子公司也在致力于开发 QPU 与 GPU 紧密合的解决方案。SEEQC 设计了其 Single Flux Quantum QPU 控制器和 NVIDIA GPUs 之间的全数字链路。通过消除关键的模拟到数字障碍，连接 QPU 和 AI 超级计算机的带宽要求从 TB/s 降低到 GB/s，消除了对高带宽协议的需求。

在 GTC 25 上，SEEQC 宣布推出首个使用此协议的端到端工作流，支持解码在模拟 QPU 上运行的五量子位重复代码。使用基于 GPU 的神经网络解码器，往返延迟（模拟 QPU 到 GPU 的往返延迟）仅为 6 μs，完全在有效 QEC 的可接受范围内。

扩展 CUDA-Q QEC 工具箱

NVIDIA 在 GTC 25 上宣布推出 CUDA-Q QEC v 0.2，其中包括用于生成和加速量子低密度奇偶校验 (qLDPC) 代码解码的新工具。

qLDPC 代码是一类前景良好的 QEC 代码，可更高效地编码逻辑单元，同时还能承受相对较高的物理量子位噪声值。缺点是，qLDPC 代码往往需要复杂的量子位连接方案，而这更难解码。这也是我们不断探索具有更优特性的新 qLDPC 代码的动力所在。

CUDA-Q QEC 现已与 Infleqtion 库集成，用于生成新的 qLDPC 代码及其关联的奇偶校验矩阵。您现在可以将这些代码直接输入到 CUDA-Q QEC 中，从而简化复杂的 QEC 实验，以评估每个生成代码的优点。

这些实验的瓶颈仍然是解码步骤。虽然 QEC 代码的某些子集存在高效的解码算法，但在实践中解决一般的 qLDPC 解码问题成本过高。

优秀的启发式解码方法 (例如 Belief Propagation 和 Order Statistics Decoding (BP+OSD)) 可以随着纠错码大小的增加，仅使用三次缩放的解码时间来解码 qLDPC 代码。

BP+OSD 解码器分为两个阶段 (图 2) 。BP 部分是一种传播本地量子位信息的迭代过程，通常足以解码与少量错误对应的症状。更复杂的症状需要 OSD，它执行矩阵分解，对最有可能发生的错误进行排序。

A diagram shows that syndromes corresponding to few errors are decoded using only BP, while many errors require one or more rounds of OSD. — *图 2. BP+OSD 解码器工作流程*

BP+OSD 是评估新 qLDPC 代码的速度和准确性性能的必要条件，因此 state-of-the-art 的解码器实现对于加速候选代码的评估至关重要。

在 GTC 25 上，NVIDIA 宣布推出加速的 BP+OSD 解码器，现已在 CUDA-Q QEC v0.2 中推出。在 High-threshold 和 low-overhead 容错量子内存的 [[144,12,12]] 代码上进行测试后，BP+OSD 解码器可针对在 NVIDIA Grace Hopper Superchip 上运行的两种不同电路级错误概率 (图 3) 提供数量级的加速。

更重要的是，NVIDIA 实现对平均综合症的解码时间大约为几毫秒，这更接近一些商用 QPU 的一致性时间。

A bar chart compares the industry-standard and NVIDIA CUDA-Q QEC implementations of a BP+OSD decoder. The comparison is shown for two circuit noise levels and the NVIDIA decoder is around 30x times faster. — *图 3. NVIDIA CUDA-Q QEC BP+OSD 解码器比较 12 轮纠错 (单综合征、非批量) 的平均解码延迟*

在高吞吐量场景中，使用批量解码更有效地利用 CPU 和 GPU 可以额外将速度提高 40 倍以上。

通过结合使用 Infleqtion 的代码生成器和 NVIDIA 加速的 BP+OSD 解码器，CUDA-Q QEC 成为您高效识别和测试新 qLDPC 代码的强大工具。这意味着您可以将更多时间用于实现 QEC 突破，而无需准备和等待实验。

使用 CUDA-Q 生成大量噪声数据

要克服噪声，必须通过收集和分析捕获量子噪声复杂性的大量数据来理解噪声。模拟提供了一种基于近似噪声模型生成这些数据的快速且廉价的方法，在许多情况下，研究系统超出了当今实验的范围。模拟是实验的重要补充，通过结合这两种方法，可以获得强大而又经济高效的研究量子噪声的方法。

CUDA-Q 版本 0.10 通过引入世界上功能最强大的加速噪声状态向量和基于张量网络的量子电路模拟器来解决这一问题。现在，您可以运行多 GPU、多节点模拟，以生成噪声数据，所需时间和成本仅为使用物理 QPU 或甚至其他模拟器所需时间和成本的一小部分。

NVIDIA 研究人员利用这些功能，通过对预先选定的噪声运行进行战略批处理，进一步加快了速度，因此可以从噪声（Kraus）算子的每个组合中获取多个数据点（图 4）。

CUDA-Q 的状态向量模拟器运行 QuEra 的 35 量子位 magic state distillation 电路 (来自 Experimental Demonstration of Logical Magic State Distillation) ，在 NVIDIA Eos 超级计算机上的 1.2K H100 GPU 节点小时内生成了 1T 次噪点数据。