存算一体芯片已到大规划运用前夜两大技能方向怎么走?丨对撞派 · 圆桌实录_leyu乐鱼安全版(中国)有限公司

存算一体芯片已到大规划运用前夜两大技能方向怎么走?丨对撞派 · 圆桌实录

发布时间:2022-07-31 00:51:27 来源:leyu安全版

leyu安全版

 
 

  曩昔两周,量子位对撞派推出了「存算一体芯片」专题,先后约请到做存算一体大算力AI芯片研制的后摩智能,和国内最早入局存算一体且已完结量产的知存科技,从不同视点与咱们探讨了存算一体技能的价值、潜力以及关于商业化的考虑。

  后摩智能专心于存算一体技能的大算力AI芯片研制。经过底层架构立异,大幅进步芯片功能,可用于智能驾驭、泛机器人等边际端及云端推理场景。

  A1:存算一体是让核算单元和存储单元的间隔拉近,然后增大它们之间的带宽。从这个视点讲,存算一体会有不同的技能道路(核算单元和存储单元间隔的远近),中心意图是仰慕间隔和增大带宽。

  从学术界来讲,在核算上不存在技能老练度,究竟都是用logic来做,老练度指的更多是存储老练度。SRAM、DRAM、Flash相对来说是老练的存储工艺,新式工艺像MRAM、RRAM,老练度各不相同。老练的工艺并不代表必定会比其他都好,这里边需求做各种规划权衡。详细来讲,不能单一地以为间隔近了就必定好,或许间隔远了就必定欠好,画蛇添足需求考虑场景和工艺老练度以及运用特色。应该在整个大的范畴里依据运用挑选最合适的工艺和制程,去做最合适的规划。

  A2:技能道路和运用场景是强相关的,现在存算有两个大方向,一个是偏digital(数字)的CIM-D,一个是偏analog(方位)的CIM-A,这两种道路合适的技能场景不太相同,由它们的技能特色决议。CIM-A看起来精度比较低,但其能效比在低精度的情况下更好,在AIoT中偏consumer的场景里,CIM-A更有竞争力;对精度要高的场景,比方自动驾驭范畴,会用CIM-D的计划。

  需求充分考虑技能特色能不能处理场景里边用户和客户的实际问题,关于后摩来说,从界说最终的方针商场,产品整个战略的视点,充分考虑技能和产品的匹配度,是一个归纳考量。

  A3:首要,简略拆分软硬协同,把它分红两部分,一个是偏运用侧的。这部分咱们把它留给客户和合作伙伴去做,由于他们更懂这部分。在更靠近底层硬件的这部分,比方说硬件笼统层、编译器、根底的东西链等等,这些和硬件贴得更近的这部分是咱们自研的,那我其实方才现已根本提到了您答复的这个问题。咱们做这件工作软硬件协同的全体的考虑就两点。

  1)从方针商场,场景来反推,给硬件团队一个清晰的方针。比方说聚集在偏CV的场景里,硬件团队就会针对这个场景做优化。

  A4:新式存储器包含RRAM, MRAM, phase change memory(PCM), 铁电等。存储介质最开端做是为了处理存储自身的问题,在演进进程中发现它的新特色能够去做存算。不同的存储器在器材自身的规划特色以及反响出来的特性都有所不同,从架构视点讲,业界比较重视访存的推迟(器材怎么做),功耗,读写的寿数,可靠性等。

  新存储介质里相对老练的是MRAM,它的优点是读写速度快(挨近SRAM),密度比SRAM 高,读写次数多(耐久性好)。

  PCM也有商业化。Intel的3D Xpoint,密度比较高,适用数据中心这种比较大的存储介质,能够去存比较大的数据。问题:磨损寿数有限,有待优化。

  RRAM,做起来简略(结构简略),能够用不同的参数来做,未来能够做一个功能不错,密度比较高且在不同层次都能去用的存储器。现在面对的问题是稳定性不行(variation大),需求器材和foundry层面一同对它进行打磨。

  新器材未来会有不同的适用层次,新器材不必定是要两端传统器材,而且新器材之间也会是协同去做。由于本来的存储架构是分层次的,走到存算的范畴后,不会是一个打平的状况。这里边也会是不同层次。

  产品最终要给到客户,首要要确保它必定是依据老练的技能。其时的产品是依据老练的SRAM在做,依据SRAM做相关于传统架构也有几倍的能效比优势。

  技能线会先产品一代做新介质的探究,到达产品可用需求做技能的验证,会提早摸清楚各个参数是不是能够到达产品要求。有或许最终的产品是一个mix,RRAM+SRAM的组合,咱们在各自里边处理的问题是不相同的,但全体来说新的技能一旦它在某一个点老练,能处理问题,就会考虑把它用起来。

  一代不止一款产品,其时依据SRAM会有2-3颗芯片出来,依据运用场景(自动驾驭,泛机器人)也会是高中低几个档位的——一代芯片里或许会有几款不同的产品。等这一代芯片差不多之后,新器材的探究有时机协助进一步进步下一代产品的竞争力。

  依照传统的办法,2-4年之后,产品的进步在10%-20%,看不到十分大的跳动——技能生命力较差;在存算里,学术界和工业界积极探究,由于它的生命力十分强,一旦一个技能打破后,就会有指数级的跳动,产品的竞争力会比之前架构下的有十分大的腾跃。

  A6:首要要选对方向和场景,存算一体技能能够真实处理客户场景里的问题,这样落地的速度会更快,商业闭环也会更快。存算要有成功的事例,完结商业闭环,能够给工业界更大的决心。

  假如闭环的场景是个相对大的场景,能够带动更多人重视更大的工业,这关于存算的开展将会起更大的推进宠爱。一旦一个大的场景出来,会带动更多工业界和本钱圈的人来重视,责怪商业化进程——找对大的场景快速落地。

  知存科技专心存内核算芯片范畴,立异运用Flash存储器完结神经网络的贮存和运算,处理AI的存储墙问题,进步运算功率,下降本钱。

  A1:技能道路在后面会彻底不同。近存核算处理的是冯诺依曼架构下的数据转移问题,它面向的是更广规划的运用。考虑的问题是关于CPU、GPU怎么把数据和存储拉得更近,运用场景针对的是数据量大的场景,包含服务数据中心、矿机;存内核算是用存储器做核算,在它的体系中没有GPU、CPU、NPU这些,它自身便是核算类的芯片,它自己去两端核算类的芯片,直接在存储器上完结核算,它的运用场景大部分在人工智能场景。

  知存布局的场景:知存开创团队从2012年开端做存内核算,首要运用场景是泛人工智能场景,存内核算能够运用在无视的人工智能范畴,人工智能顶用的核算大部分是深度学习,深度学习95%以上用的都是矩阵乘法,一切矩阵乘法用存内核算去做都能够大幅进步功率。

  存内核算能够运用于无视的人工智能场景,在有些场景它的优势很强,有些场景优势相对较弱。全体来说,算力需求越大,对能效要求越高的场景,存算一体的优势越强。

  A2:存算一体的概念在上世纪60年代就有,前面没有鼓起的原因有两点,一是那时分存算一体能够处理一部分功能进步,但其时能处理的部分在整个体系中只占到10%-20%,只处理这个问题是没有含义的,后来跟着人工智能惠顾到来,需求的算力很大,这时分存算一体就能处理90%核算的问题,它的存在就有含义了。

  别的是在曩昔几十年存算一体没有真实呈现也是由于摩尔定律还在继续往下走,在摩尔定律能继续往下走的时分,咱们看不到任何架构的立异,咱们不需求做架构立异,每一到两年换一代芯片的工艺,功能天然进步几倍,本钱天然下降,而且功能进步的速度十分快,不需求做架构上的立异。

  但到2010年之后,进入到后摩尔惠顾。后摩尔惠顾的架构立异是必要的,摩尔定律现已走到止境,加之人工智能惠顾到来,存算一体应运而生,遭到越来越多重视。最早在2011年,学术圈也开端发起去研讨存算一体。2017年,知存斗胆,算是第一批做存内核算的公司。现在存内核算中有一些技能现已能够落地了,这个时分需求工业界加大投入,把它做成好的产品。还有清楚的技能是需求开发的,存内核算未来的开展还有大约10年的进程,存内核算自身也有一个相似“摩尔定律”的开展进程,快速迭代,包含工艺方面代工厂针对存内核算专用的工艺上的进步。其次是先进的资料,现在能够量产的存内核算存储器只需Flash和SRAM新式的存储器(emerging memory)更合适做存内核算,需求更多在新式存储器材上的研讨。别的,存内核算从算法到供应链生态上也需求产学研结合,彼此交融促进开展。工业界落地一部分,学术界/研讨所继续研讨下一代,不断地往前推进。知存科技会继续加大对工艺、东西链、技能规范化等方面的投入,推进工业生态共建。

  A3:知存现在第二代产品已完结量产,约每月10万片的量级,且现已落地到智能可穿戴设备商场。从16年验证概念到现在量产落地,需求清楚工程化;还有在产品层面去处理存内核算存在的一些问题。

  存内核算有自己的优势:运算功率高,运算密度大,运算本钱低;但仍是一个新式技能,测验规范、量产办法、测验办法、核算范式跟现有的方法都彻底不相同,需求一步步树立,树立之后还需求确保可靠性。

  在量产进程中遇到了清楚之前没有遇到的问题,由于存内核算和存储器不同,和传统的核算芯片也不同。比方存储器掩盖的运用和存内核算所掩盖的存储器的运用方法是彻底不相同的。像存内核算遇到的问题,或许存储器范畴之前几十年都没有遇到过,这些都需求一步步去处理,才能把存内核算从技能demo走向量产。

  A4:存算一体正处在量产到大规划运用的要害阶段。知存科技研制的存算一体芯片现已万众一心每年千万片量级的小规划量产,我以为下一个要害节点,算力将到达16Tops以上、精度将到达10-bit以上、本钱将比现有芯片有2-5倍的优势,量产规划上亿片。存算一体芯片将在更大规划的运用中具有绝对优势。

  A5:首要在于工艺、架构层面,做存算一体最大的困难在于,无法预判会遇到什么样的问题。存算一体的规划方法跟数字电路和方位电路都不相同,它是把方位技能跟存储器结合在一同,所以运用方法也不相同。

  现在做一个大型芯片通常是经过写代码,代码自动化经过EDA东西生成一个芯片规划,EDA东西确保芯片规划出来的可用性,只需工艺没有问题。可是存算一体没有EDA东西辅导,清楚东西需求手动规划。

  别的,存算一体芯片的生产工艺不确保手动规划仿真出来的东西必定可用,由于它的用法跟传统的芯片不相同,在foundry厂那儿的工艺上不确保存内核算所运用的部分。只能经过不断地测验、验证处理,花费的时刻或许是几年——需求玩家继续性探究的才能。

  A6:现在在芯片职业,清楚人都在张望下一个要害节点的呈现,产生大规划的两端。对人工智能整个工业来说,存算一体技能的坐享其成老练,将带来更低本钱,更高算例、更高能效、更低功耗,协助更多人工智能落地。能够说存算一体将成为是未来人工智能惠顾的柱石之一。

  关于存算一体,首要要坚持耐性,作为一项全球规划的新式技能,还有清楚待发现和处理的问题;其非必须坚持等待,要点重视未来存算一体能够做的更多的工作。

  量子位旗下科技立异工业链接渠道。致力于供给前沿科技和技能立异范畴产学研体系化研讨。面向前沿AI&核算机、生物核算、量子技能及健康医疗等范畴最新技能立异发展,供给体系化陈述和认知。经过媒体、社群和线下活动,协助决策者更早掌握立异风向。

  对撞派致力于约请前沿科技范畴的专业人士,如创业公司CEO及CTO、资深科学家、专业投资人等,对特定趋势进行深度讨论及解读。从业界与专业的视点,协助读者更为精确地掌握未来科技意向。

产品中心
新闻中心
员工活动