6月23日,鲲云科技在深圳的产品发布会发布全球首款数据流AI芯片CAISA,其定位于AI终端推理,目前已完成量产。
根据官方介绍,CAISA搭载了四个CAISA 3.0引擎,具有超过1.6万个MAC(乘累加)单元,峰值性能可达10.9TOPs。该芯片采用28nm工艺,通过PCIe 3.0×4接口与主处理器通信,同时具有双DDR通道,可为每个CAISA芯片提供超过340Gbps的带宽。
搭载CAISA芯片的加速卡仅拥有英伟达同类产品 1/3的峰值算力,但是其通过95.4%的芯片利用率可以实现3倍左右的的实测性能。
鲲云科技发布的CAISA芯片则为数据流架构。数据流架构AI芯片提供较之于指令集架构AI芯片更高的计算效率。指令集的计算架构要求芯片的计算和控制是分离的,而控制过程中模块间的数据移动以及数据计算的过程中会存在等待周期,这会使得芯片的计算模块存在闲置情况,这也是现有芯片利用率普遍低于30%的原因。而数据流架构依托数据流流动次序控制计算次序,采用计算流和数据流重叠运行方式消除空闲计算单元。在实测中,数据流芯片可以与同峰值算力的指令集芯片表现出更高的芯片利用率以及更高的实测算力。
发布会上鲲云科技带来了AI计算平台星空加速卡X3以及X9。
X3 vs Xavier 性能对比图
X9 vs T4 性能对比图
尽管数据流架构显著的提高了芯片算力的利用率,但是指令集的架构支持各式各样的数据组合,具有较强的通用性。CAISA目前工艺水平为28nm,这在晶体管数量、处理速度、温升等方面较之于更加先进工艺的芯片将会存在的劣势。