驱动云@@/边缘侧算力建设的@@高性能互联接口方案@@ | 电子@@创新@@188足彩外围@@app 网@@

judy -- 周五@@, 09/22/2023 - 16:37

9月@@14-15日@@，2023全球@@AI芯片@@峰会@@（GACS 2023）在@@深圳正式举行@@。奎芯@@科技@@应邀出席大会@@，副总裁王晓阳发表主题为@@《驱动云@@/边缘侧算力建设的@@高性能互联接口方案@@》的@@演讲@@。在@@演讲中@@，王晓阳分享了@@AIGC产业算力需求引发的@@芯片@@互联趋势@@，并对算力芯片@@瓶颈进行了分析@@，提出了奎芯@@内存互联解决方案和@@@@Chiplet方案落地案例@@。

AIGC引爆的@@芯片@@互联趋势@@

最近@@几年@@AI模型快速发展@@，模型规模每年差不多@@10倍@@速度增长@@，当令人惊讶的@@@@1750亿参数的@@@@GPT3已成为过去式@@，迎来更大体量的@@万亿参数时@@代@@，AI系统算力需求也随之增加@@，几乎每季度翻倍@@增长@@。最近@@几年@@体系结构讨论最多的@@问题之一就是如何破解两堵墙@@@@：内存墙@@和@@@@I/O墙@@。多年来通过工艺进步@@，计算架构设计@@革新等@@方法@@，理论算力的@@增长速度是惊人的@@@@，但是内存带宽@@@@，互联带宽@@的@@增长却相对缓慢@@，造成了巨大的@@落差@@，最近@@业界也在@@尝试很多方法来缩小这些差距比如@@：增加缓存@@，多级缓存架构@@，堆叠缓存@@；尽量提高@@单节点算力减少互联的@@@@overhead；用高速的@@芯片@@互联和@@系统互联的@@@@SerDes做芯片@@互联等@@等@@@@。

英伟达@@GH200非常重点的@@强调@@HBM带宽@@，LPDDR容量@@，以及@@NVLINK的@@速度@@。AMD发布的@@@@MI300X对算力指标提都不提@@，只提内存容量@@@@@@、内存带宽@@以及@@互联带宽@@@@。因此可以看到@@在@@@@LLM的@@游戏规则下@@，内存容量@@@@、内存带宽@@以及@@互联带宽@@@@成了最核心的@@竞争力@@，而@@算力的@@重要性相对下降@@。

算力芯片@@瓶颈分析@@

目前@@主流@@AI大芯片@@采用@@@@HBM为主@@，它的@@价格相对其他内存要贵@@，但单位带宽@@成本较低@@。

HBM使用有诸多限制@@，其一是因为@@HBM的@@颗粒@@必须和@@@@SOC的@@Die要对齐@@，合封在@@一起@@，所以它是一个@@紧耦合的@@状态@@，会带来如下限制@@：在@@HBM数量方面@@，SoC与@@HBM必须保持贴合@@，导致@@HBM颗粒@@数量受限于芯片@@边缘长度@@；在@@热管理方面@@，DRAM的@@温度敏感性会限制@@SoC的@@工作频率@@，从而@@影响性能@@，而@@SoC与@@HBM之间的@@热交互对测试提出了更高的@@要求@@；在@@设计@@实施方面@@，HBM IP的@@布局和@@适配性相对不够灵活@@；另外@@，工艺限制要求@@SoC与@@HBM HOST IP必须采用@@相同的@@工艺制程@@；最后@@，需要注意的@@是@@SoC的@@面积占用问题@@，在@@12纳米工艺下每个@@@@HBM HOST IP大约占据@@30mm2，限制了计算单元的@@面积@@。

其二是主流@@HBM的@@应用还是以先进封装为主@@@@，包括@@Silicon interposer 或@@者@@Silicon Bridge等@@，也带来了不少限制@@：Interposer尺寸受限制@@，最大只能有@@3到@@4个@@曝光面积@@；2.5D封装的@@成本较高@@，与@@标准封装相比价格高出@@4倍@@，近@@期台积电的@@@@@@CoWoS单价上涨了@@20%；采用@@uBump作为连接点时@@@@，测试覆盖率有限@@，当封装中包含超过@@6个@@HBM和@@2个@@ASIC时@@，良率明显下降@@；最后@@，CoWoS产能有限@@，台积电的@@@@CoWoS产能紧缺@@，国内@@2.5D封装技术@@还不够成熟@@。

奎芯@@基于@@UCIe接口的@@@@HBM互联方案@@

针对这些问题@@，奎芯@@科技@@打造一站式解决方案@@—M2LINK，用于将@@@@HBM和@@SoC解耦@@。基本做法是利用@@一颗@@Chiplet将@@HBM接口协议@@转成@@UCIE接口协议@@，然后用@@RDL interposer 把@@Chiplet和@@HBM内存封装成一个@@标准模组@@@@@@，最后@@通过普通基板来和@@主@@SoC进行封装@@。这样主@@SoC和@@标准模组@@@@间距离预计可以拉远到@@@@2.5cm，克服了原先主@@SoC和@@HBM紧耦合和@@绑定的@@限制@@，同时@@@@也无需受限于先进封装的@@高成本和@@@@Si Interposer的@@有限尺寸@@。除此之外还有诸多好处@@，比如以@@UCIe IP取代@@HBM IP，节省了主芯片@@面积@@，主芯片@@成本降低@@；单位边长可以连接更多的@@@@HBM标准模组@@@@，内存容量@@@@和@@带宽@@都可以得到@@提升等@@等@@@@。

以目前@@主流@@芯片@@为例@@，SoC近@@HBM的@@边长为@@30mm的@@话@@，可以摆放@@6个@@HBM颗粒@@，利用@@M2LINK方案的@@话@@@@，双边共可以摆放@@@@8个@@HBM模组@@，同等@@大小的@@@@SoC可利用@@面积增大@@44%，内存容量@@@@带宽@@增加@@1/3, 最大封装面积可以增加一倍@@以上@@。

奎芯@@Chiplet落地解决方案@@

奎芯@@科技@@作为国内@@领先的@@互联@@IP产品及@@Chiplet产品供应商@@，国产自研内存及互联解决方案@@，奎芯@@LPDDR5X接口速率可达@@@@8533Mbps，业界领先@@。奎芯@@D2D接口则具有高速率@@、低功耗@@、低延迟等@@优势@@。而@@奎芯@@@@HBM接口可支持国产工艺@@ PHY+ Controller 全套方案@@，速率可达@@6.4Gbps。目前@@，奎芯@@已经有@@70件知识产权申请@@，以及@@16件荣誉奖项@@。

奎芯@@科技@@基于@@对于整个@@封装供应链的@@整合能力@@，目前@@和@@客户一起打造一款标准的@@带@@HBM3的@@2.5D全国产封装大芯片@@@@，将@@会提供包含@@HBM IP, interposer设计@@，2.5D封装的@@设计@@的@@完整@@的@@@@turn key solution。

同时@@@@，奎芯@@科技@@基于@@D2D（UCIe）解耦@@SoC和@@HBM HOST的@@思路不仅适用于云端训练和@@推理的@@大算力芯片@@@@，在@@端侧已经有具体实践的@@案例@@，目前@@在@@给客户打造的@@是一款低功耗@@计算产品的@@@@IO die。对于此场景@@，客户希望计算部分用最先进的@@制程@@，考虑到@@昂贵的@@成本@@，客户还是希望解耦@@内存接口放到@@成熟工艺上实现@@，因此我们给客户打造一颗包含@@ LPDDR host 的@@完整@@IO die, 实现内存接口解耦@@@@，降低成本@@，为客户未来产品升级增加灵活性@@。

奎芯@@科技@@致力于建立开放生态的@@一站式@@Chiplet服务平台@@，提供接口@@IP，Chiplet，系统设计@@和@@先进封装设计@@等@@服务@@，配套强大的@@供应链资源及高效的@@系统整合服务@@，为客户提供完整的@@一站式解决方案@@。

来源@@：奎芯@@科技@@