转：Chiplet时代来临，Die-to-Die接口成新挑战

原文转载自：Chiplet时代来临，Die-to-Die接口成新挑战 (qq.com)

现在超大规模数据中心、人工智能和网络应用芯片正在追求更高的数据速率和更复杂的功能。随着芯片的尺寸越来越接近掩膜版极限，开发者不得不将芯片分成多个较小的Die，这些Die封装在多芯片模块（MCM）中，在多芯片模块中，较小的Die通过Die-to-Die互连进行链接，这些互连必须具有极低功耗，而且每个Die的边缘都具有高带宽，以此来实现高良率并降低总体成本。合适的Die-to-Die接口是影响芯片性能的重要因素。Die-to-Die接口也成为行业趋势的关键因素。

了解Die-to-Die接口

Die-to-Die接口是在同一个封装内的两个芯片裸片间提供数据接口的功能块。为了实现功效和高带宽，它们利用了连接裸片的极短通道的特征。这些接口通常由一个PHY和一个控制器模块组成，在两个裸片的内部互连结构之间提供无缝连接。

Die-to-Die PHY使用高速SerDes架构或高密度并行架构实现，这些架构经过优化以支持多种先进的2D、2.5D和 3D封装技术。

那么，Die-to-Die接口如何工作？Die-to-Die接口就像任何其他芯片到芯片接口一样，在两个芯片之间建立可靠的数据链接。它在芯片运行期间建立和维护链路，同时向应用程序提供连接到内部互连结构的标准化并行接口。通过添加错误检测和纠正机制（例如前向纠错 (FEC) 和/或循环冗余码 (CRC) 和重试）来保证链路可靠性。

接口在逻辑上分为物理层、链路层和事务层。其中物理层架构可以是基于 SerDes 的或基于并行的。基于SerDes的架构包括并行到串行(串行到并行)数据转换、阻抗匹配电路和时钟数据恢复或时钟转发功能。支持NRZ信令或PAM-4信令，带宽可达112Gbps。SerDes体系结构的主要作用是在简单的2D封装(如有机基板)中最小化I/O互连的数量。

基于并行的体系结构包括许多低速、简单的并行收发器，每个收发器由一个驱动程序和一个具有转发时钟技术的接收器组成，以进一步简化体系结构。支持DDR信令。并行架构的主要作用是在密集的2.5D封装中最小化功耗，比如硅插入器。

Die之间的接口必须满足以下多个需求：

首先是电源效率。多芯片系统实现应该与等效的单片实现一样节能。Die-to-Die链路使用短距离、低损耗的通道，没有明显的不连续性。PHY 架构利用良好的信道特性来降低PHY复杂性并节省功耗。

其次是低延迟。将服务器或加速器 SoC 划分为多个芯片不应导致不统一的内存架构，因为访问具有显着不同延迟的不同芯片中的内存。Die-to-Die接口实施简化的协议并直接连接到芯片互连结构以最大限度地减少延迟。

高带宽效率。高级服务器、加速器和网络交换机需要在芯片之间传输大量数据。Die-to-Die接口必须能够支持所有所需的带宽，同时减少芯片边缘占用。通常使用两种替代方法来实现此目标，通过部署具有每通道非常高的数据速率（高达 112 Gbps）的 PHY 来最小化所需通道的数量，或者通过使用更细的Bump来增加 PHY 的密度) 在大量并行化以实现所需带宽的低数据速率通道（高达 8 Gbps/通道）。

强壮的链接。Die-to-Die 链接必须没有错误。接口必须有足够强大的低延迟错误检测和纠正机制，以检测所有错误并以低延迟代价纠正它们。这些机制通常包括 FEC 和重传协议。

*不同应用对Die-to-Die接口的要求*

针对HPC、网络、超大规模数据中心和人工智能 (AI)等应用，Die-to-Die接口主要有4个不同的用例。

扩展SoC通过连接Die，以实现Die间紧密耦合的性能，从而提高计算能力，并为服务器和AI加速器创建多个SKU，如图a)。拆分SoC可以制作规模非常巨大的SoC，同时也提高良品率，降低成本，并通过将大型单体SoC分成较小的裸晶组装在一起，从而延伸了摩尔定律，如图b)。“聚合”使不同的裸晶实现多种不同功能，以充分利用每个功能的最佳工艺节点。这种方法还有助于在FPGA、汽车和5G基站等应用中降低功耗，并减小面积，如图c)。“分解”使中央数字芯片与I/O芯片分开，便于中央芯片向先进工艺迁移。而I/O芯片维持保守节点，以降低产品演进的风险和成本，支持重复使用，并加快上市速度，如图d）。

（a）

（b）

（c）

（d）

（图源：新思科技）

在高性能计算和人工智能应用中，大的芯片被分为两个或多个同质Die；在网络应用中，I/O和互连内核被分为单独的Die。在这些不同种类芯片中， Die-to-Die的互连必须不影响整体系统性能，并且要求低延迟、低功耗和高吞吐量。对于多Die SoC 设计人员来说，需要关注链路延迟、跨链路的数据一致性、可接受的误码率 (BER) 及其控制机制、带宽和分支以及Die到Die接口协议这些Die-to-Die接口的要求。

例如针对高性能计算 (HPC) 的多裸片SoC 的一个常见用例是在同一封装中组装多个同质die，如下图所示，一个互连网格连接每个die中的所有 CPU 集群和共享内存组。Die-to-Die链路连接两个Die中的网状互连，如同它们是同一互连的一部分。在这其中，至关重要的是，一个Die中的 CPU 能够以最小的延迟访问另一个die中的内存，同时支持缓存一致性。通常，利用CXL或CCIX 流量的优势来降低链路延迟。

采用同质die组装的多die SoC 图示（图源：新思科技）

在 IO 访问这样的应用中，为了灵活性和效率，数字处理存在于 IO 功能之外的一个单独的模块中（IO示例可以是电子SerDes、光学、无线电、传感器或其他），通常没有一致性要求，对链接延迟更宽容。在这些情况下，IO 流量通常通过标准协议路由，如 AXI 接口。

类似情况如 GPU 和连接到 CPU 集群的一些异构计算类的加速器这样的并行架构，可能只需要IO一致性（如果加速器Die没有缓存），或者根本不需要一致性，如下图所示。

具有并行异构架构的多Die SoC（图源：新思科技）

链路错误也是一大重要关注的点。为了避免因链路错误导致数据损坏，进而对系统运行造成灾难性影响，Die-to-Die链路必须实现允许错误检测和纠正的功能。根据系统要求和原始 PHY BER，有两个主要选项可用于检测和纠正传输错误，这些选项可单独使用或结合使用：

与错误检测功能结合的重试机制能够纠正所有检测到的传输错误。一个错误检测码，如奇偶校验或循环冗余检查 (CRC) 码被添加到发送的数据，以便接收端可以验证接收的数据，在检测到错误时，请求重新发送数据。

前向纠错 (FEC) 是与数据一起传输的更复杂的代码，能够检测和纠正错误位。根据 FEC 算法的复杂度，检测和纠正的错误数量可能更高。只是，FEC 编码和解码的延迟增加了复杂性。

与其他芯片到芯片链路一样，Die-to-Die链路的协议栈可以分割成与开放系统互连 (OSI) 模型栈定义一致的不同协议层，如下图所示。PHY 层由物理介质无关 (PMA) 和物理介质相关 (PMD) 组成。PHY 层处理与通道的电气接口。逻辑层位于 PHY 层的上方，将 PHY 层的信令特性与链路层隔离，辅助数据流构建和恢复。当他们在一起定义和验证时，每一层都会得到优化，即使每一层都有预定义的接口。

Die-to-Die协议栈

链路层管理链路将处理错误检测和纠正机制，保证一个端到端无错误的链路。链路层还处理流控，调节发送方和接收方之间的数据通信量。传输层从应用层接收读写请求，从链路层创建和接收请求包。

Die-to-Die链路的特性使其不同于传统的芯片到芯片链路。例如，在封装多Die SoC 时，链路的两端是已知且固定的。因此，Die-to-Die链路特性可以提前确定，通过软件或寄存器在开机时进行设置，避免链路发现和协商步骤的复杂性。最好是，Die-to-Die链路是一个连接两个Die的互连结构的简单“隧道”，而没有特定的已定义协议。为减少延迟并保证互操作性，理想的做法是将链接紧密优化，以便与die上互连结构进行操作。例如，Arm Neoverse 平台定义了支持缓存一致性的专用接口，可用于低延迟的Die-to-Die解决方案。或者，更通用的应用接口（例如 AXI）可用于附接到任何片上互连结构。

新思科技的Die-to-Die IP一网打尽这些需求

针对这些应用方面的不同需求，Synopsys 设计和开发了完整的DesignWare Die-to-Die IP 解决方案产品组合，为HPC、AI和网络等应用提供了SoC所需的高带宽和低延时。完整的解决方案可以提供一个基础架构，并且不需要重写代码或开发桥接。该IP解决方案包括：

DesignWare Die-to-Die控制器IP：它与DesignWare USR/XSR PHY IP集成，为端到端的Die-to-Die链接提供了业内最低的延时，并通过错误恢复机制实现更高的数据完整性和链接可靠性。控制器IP支持AMBA CXS和AXI协议，可实现相干及非相干的数据通信。它还与Arm Neoverse相干网格网络集成，以增强多芯片、内存扩展和加速器解决方案的性能。

DesignWare Die-to-Die PHY IP：包括USR/XSR PHY IP，采用每通道高达112 Gbps的高速SerDes PHY技术，适用于极短和超短距离链路，并采用高带宽互连(HBI) PHY IP，以低延迟为高密度2.5D封装SoC提供每引脚8 Gbps的Die-to-Die连接。

Die-to-Die控制器和PHY IP是新思科技多裸片解决方案的一部分，其中还包括满足HPC SoC HBM要求的DesignWare HBM IP和用于高级多裸片系统设计与集成的3DIC Compiler统一平台。这种多裸片解决方案有助于加快设计需要高级封装的SoC。

由于计算密集型、工作负载繁重的HPC应用日渐增多，从单体芯片到Die-to-Die架构的演进势头肯定会持续。根据持续发展的标准规范开发和设计的高带宽、低延迟IP，对确保超大规模数据中心等多种应用都至关重要。

打赏

支付宝

微信

2022年寒假摄影小结

学习笔记-2022.1.17

本文作者：Parker Luxu

永久链接：http://parkerluxu.space/2022/02/09/Chiplet%E6%97%B6%E4%BB%A3%E6%9D%A5%E4%B8%B4%EF%BC%8CDie-to-Die%E6%8E%A5%E5%8F%A3%E6%88%90%E6%96%B0%E6%8C%91%E6%88%98/