驱动云@@/边缘侧算力建设的@@高性能互联接口方案@@

9月@@14-15日@@,2023全球@@AI芯片@@峰会@@(GACS 2023)在@@深圳正式举行@@。奎芯@@科技@@应邀出席大会@@,副总裁王晓阳发表主题为@@《驱动云@@/边缘侧算力建设的@@高性能互联接口方案@@》的@@演讲@@。在@@演讲中@@,王晓阳分享了@@AIGC产业算力需求引发的@@芯片@@互联趋势@@,并对算力芯片@@瓶颈进行了分析@@,提出了奎芯@@内存互联解决方案和@@@@Chiplet方案落地案例@@。

AIGC引爆的@@芯片@@互联趋势@@

最近@@几年@@AI模型快速发展@@,模型规模每年差不多@@10倍@@速度增长@@,当令人惊讶的@@@@1750亿参数的@@@@GPT3已成为过去式@@,迎来更大体量的@@万亿参数时@@代@@,AI系统算力需求也随之增加@@,几乎每季度翻倍@@增长@@。最近@@几年@@体系结构讨论最多的@@问题之一就是如何破解两堵墙@@@@:内存墙@@和@@@@I/O墙@@。多年来通过工艺进步@@,计算架构设计@@革新等@@方法@@,理论算力的@@增长速度是惊人的@@@@,但是内存带宽@@@@,互联带宽@@的@@增长却相对缓慢@@,造成了巨大的@@落差@@,最近@@业界也在@@尝试很多方法来缩小这些差距比如@@:增加缓存@@,多级缓存架构@@,堆叠缓存@@;尽量提高@@单节点算力减少互联的@@@@overhead;用高速的@@芯片@@互联和@@系统互联的@@@@SerDes做芯片@@互联等@@等@@@@。

英伟达@@GH200非常重点的@@强调@@HBM带宽@@,LPDDR容量@@,以及@@NVLINK的@@速度@@。AMD发布的@@@@MI300X对算力指标提都不提@@,只提内存容量@@@@@@、内存带宽@@以及@@互联带宽@@@@。因此可以看到@@在@@@@LLM的@@游戏规则下@@,内存容量@@@@、内存带宽@@以及@@互联带宽@@@@成了最核心的@@竞争力@@,而@@算力的@@重要性相对下降@@。

算力芯片@@瓶颈分析@@

目前@@主流@@AI大芯片@@采用@@@@HBM为主@@,它的@@价格相对其他内存要贵@@,但单位带宽@@成本较低@@。

HBM使用有诸多限制@@,其一是因为@@HBM的@@颗粒@@必须和@@@@SOC的@@Die要对齐@@,合封在@@一起@@,所以它是一个@@紧耦合的@@状态@@,会带来如下限制@@:在@@HBM数量方面@@,SoC与@@HBM必须保持贴合@@,导致@@HBM颗粒@@数量受限于芯片@@边缘长度@@;在@@热管理方面@@,DRAM的@@温度敏感性会限制@@SoC的@@工作频率@@,从而@@影响性能@@,而@@SoC与@@HBM之间的@@热交互对测试提出了更高的@@要求@@;在@@设计@@实施方面@@,HBM IP的@@布局和@@适配性相对不够灵活@@;另外@@,工艺限制要求@@SoC与@@HBM HOST IP必须采用@@相同的@@工艺制程@@;最后@@,需要注意的@@是@@SoC的@@面积占用问题@@,在@@12纳米工艺下每个@@@@HBM HOST IP大约占据@@30mm2,限制了计算单元的@@面积@@。

其二是主流@@HBM的@@应用还是以先进封装为主@@@@,包括@@Silicon interposer 或@@者@@Silicon Bridge等@@,也带来了不少限制@@:Interposer尺寸受限制@@,最大只能有@@3到@@4个@@曝光面积@@;2.5D封装的@@成本较高@@,与@@标准封装相比价格高出@@4倍@@,近@@期台积电的@@@@@@CoWoS单价上涨了@@20%;采用@@uBump作为连接点时@@@@,测试覆盖率有限@@,当封装中包含超过@@6个@@HBM和@@2个@@ASIC时@@,良率明显下降@@;最后@@,CoWoS产能有限@@,台积电的@@@@CoWoS产能紧缺@@,国内@@2.5D封装技术@@还不够成熟@@。

奎芯@@基于@@UCIe接口的@@@@HBM互联方案@@

针对这些问题@@,奎芯@@科技@@打造一站式解决方案@@—M2LINK,用于将@@@@HBM和@@SoC解耦@@。基本做法是利用@@一颗@@Chiplet将@@HBM接口协议@@转成@@UCIE接口协议@@,然后用@@RDL interposer 把@@Chiplet和@@HBM内存封装成一个@@标准模组@@@@@@,最后@@通过普通基板来和@@主@@SoC进行封装@@。这样主@@SoC和@@标准模组@@@@间距离预计可以拉远到@@@@2.5cm,克服了原先主@@SoC和@@HBM紧耦合和@@绑定的@@限制@@,同时@@@@也无需受限于先进封装的@@高成本和@@@@Si Interposer的@@有限尺寸@@。除此之外还有诸多好处@@,比如以@@UCIe IP取代@@HBM IP,节省了主芯片@@面积@@,主芯片@@成本降低@@;单位边长可以连接更多的@@@@HBM标准模组@@@@,内存容量@@@@和@@带宽@@都可以得到@@提升等@@等@@@@。

以目前@@主流@@芯片@@为例@@,SoC近@@HBM的@@边长为@@30mm的@@话@@,可以摆放@@6个@@HBM颗粒@@,利用@@M2LINK方案的@@话@@@@,双边共可以摆放@@@@8个@@HBM模组@@,同等@@大小的@@@@SoC可利用@@面积增大@@44%,内存容量@@@@带宽@@增加@@1/3, 最大封装面积可以增加一倍@@以上@@。

奎芯@@Chiplet落地解决方案@@

奎芯@@科技@@作为国内@@领先的@@互联@@IP产品及@@Chiplet产品供应商@@,国产自研内存及互联解决方案@@,奎芯@@LPDDR5X接口速率可达@@@@8533Mbps,业界领先@@。奎芯@@D2D接口则具有高速率@@、低功耗@@、低延迟等@@优势@@。而@@奎芯@@@@HBM接口可支持国产工艺@@ PHY+ Controller 全套方案@@,速率可达@@6.4Gbps。目前@@,奎芯@@已经有@@70件知识产权申请@@,以及@@16件荣誉奖项@@。

奎芯@@科技@@基于@@对于整个@@封装供应链的@@整合能力@@,目前@@和@@客户一起打造一款标准的@@带@@HBM3的@@2.5D全国产封装大芯片@@@@,将@@会提供包含@@HBM IP, interposer设计@@,2.5D封装的@@设计@@的@@完整@@的@@@@turn key solution。

同时@@@@,奎芯@@科技@@基于@@D2D(UCIe)解耦@@SoC和@@HBM HOST的@@思路不仅适用于云端训练和@@推理的@@大算力芯片@@@@,在@@端侧已经有具体实践的@@案例@@,目前@@在@@给客户打造的@@是一款低功耗@@计算产品的@@@@IO die。对于此场景@@,客户希望计算部分用最先进的@@制程@@,考虑到@@昂贵的@@成本@@,客户还是希望解耦@@内存接口放到@@成熟工艺上实现@@,因此我们给客户打造一颗包含@@ LPDDR host 的@@完整@@IO die, 实现内存接口解耦@@@@,降低成本@@,为客户未来产品升级增加灵活性@@。

奎芯@@科技@@致力于建立开放生态的@@一站式@@Chiplet服务平台@@,提供接口@@IP,Chiplet,系统设计@@和@@先进封装设计@@等@@服务@@,配套强大的@@供应链资源及高效的@@系统整合服务@@,为客户提供完整的@@一站式解决方案@@。

来源@@: 奎芯@@科技@@