上世紀(jì)四十年代,馮·諾伊曼架構(gòu)開啟了計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)發(fā)展的先河。
在傳統(tǒng)馮·諾伊曼架構(gòu)下,計(jì)算和存儲(chǔ)分離。不管處理器運(yùn)行多快、性能多好,每次執(zhí)行運(yùn)算時(shí)都需要把數(shù)據(jù)從存儲(chǔ)器搬到處理器中,數(shù)據(jù)處理完再搬回到存儲(chǔ)器。
以數(shù)據(jù)為主的AI計(jì)算之下,馮·諾伊曼架構(gòu)的“存儲(chǔ)墻”和“功耗墻”挑戰(zhàn)凸顯。半個(gè)多世紀(jì)后的今天,有沒有一種方式可以翻越“兩面墻”?
芯片初創(chuàng)企業(yè)后摩智能創(chuàng)始人兼CEO吳強(qiáng)在接受澎湃新聞(www.thepaper.cn)專訪時(shí)表示,存算一體技術(shù)是新的AI芯片方向,它可以整合邏輯單元和存儲(chǔ)單元,直接在存儲(chǔ)單元內(nèi)部運(yùn)算,緩解數(shù)據(jù)搬運(yùn)問題,降低能耗。
后摩智能創(chuàng)始人兼CEO吳強(qiáng)
“相對于計(jì)算芯片尤其是CPU領(lǐng)域,AI芯片可能是中國率先彎道超車的領(lǐng)域。”而國內(nèi)外在存算一體方面都還處于起步階段,這種架構(gòu)也處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時(shí)期。存算一體做得好的在學(xué)術(shù)界,AI計(jì)算強(qiáng)的又是工業(yè)界,“真正想做出大芯片,需要兩波人在一起融合。”
一種新興技術(shù)想要得到大規(guī)模普及,離不開產(chǎn)業(yè)生態(tài)的建設(shè)。尤其在傳統(tǒng)芯片已經(jīng)占據(jù)目前大部分已有應(yīng)用場景的前提下,如何突破新市場,實(shí)現(xiàn)產(chǎn)業(yè)化落地,這是所有新興AI芯片公司都要面臨的問題。
吳強(qiáng)說,相比海外壟斷巨頭,作為新玩家,一定要在局部有明顯優(yōu)勢,解決痛點(diǎn),客戶才有動(dòng)力嘗試新產(chǎn)品。而建立軟件生態(tài)是必須要走的路,唯有如此才有可能真正打破巨頭的壁壘。
01/
翻越芯片“兩面墻”
AI芯片是專門用于處理人工智能應(yīng)用中大量計(jì)算任務(wù)的模塊,主要分為GPU、FPGA、ASIC。
后摩智能創(chuàng)始人兼CEO吳強(qiáng)表示,這些芯片在底層設(shè)計(jì)理念上類似,不同之處是對效率和通用性的取舍。而存算一體利用新的設(shè)計(jì)理念,基于存算一體的大算力計(jì)算芯片對先進(jìn)制程的依賴也較弱。
在傳統(tǒng)馮·諾伊曼架構(gòu)下,計(jì)算和存儲(chǔ)分離,計(jì)算單元從內(nèi)存中讀取數(shù)據(jù),計(jì)算完成后存回內(nèi)存。
但隨著AI芯片的發(fā)展,這種架構(gòu)帶來的問題是,存儲(chǔ)器的數(shù)據(jù)訪問速度跟不上計(jì)算單元的數(shù)據(jù)處理速度,阻礙性能提升的“存儲(chǔ)墻”問題嚴(yán)重,性能瓶頸凸顯,算力提升有限。
特別是人工智能迅猛發(fā)展的當(dāng)下,人工智能算法對邏輯單元與存儲(chǔ)單元之間信息交互能力的需求相對于傳統(tǒng)任務(wù)更嚴(yán)苛。AI計(jì)算以數(shù)據(jù)為主,大量數(shù)據(jù)搬運(yùn)導(dǎo)致功耗居高不下,“功耗墻”挑戰(zhàn)凸顯。
到2025年,全球數(shù)據(jù)中心將使用全球20%的電量。再比如AlphaGo下棋打敗人類,但人類只用了20瓦的大腦能耗,而AlphaGo是2萬瓦。如果更多腦力勞動(dòng)被機(jī)器取代,芯片散發(fā)的熱量會(huì)讓地球變得滾燙。
只有低功耗基礎(chǔ)上的大算力才是可持續(xù)的。那么如何才能翻越“存儲(chǔ)墻”和“功耗墻”?存算一體(compute-in-memory)也叫存內(nèi)計(jì)算,是指直接在存儲(chǔ)單元內(nèi)部進(jìn)行運(yùn)算。它可以整合邏輯單元和存儲(chǔ)單元,緩解數(shù)據(jù)搬運(yùn)問題,從而降低能耗。這被認(rèn)為是打破“馮·諾伊曼瓶頸”的有效方法。
后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項(xiàng)之初介紹,由于在存儲(chǔ)單元內(nèi)完成運(yùn)算,存算一體可以解決困擾業(yè)界許久的“存儲(chǔ)墻”問題,減少數(shù)據(jù)搬運(yùn)過程中高達(dá)90%的功耗消費(fèi),提升計(jì)算能效比。同時(shí),這種架構(gòu)也減少了等待數(shù)據(jù)讀取時(shí)算力的浪費(fèi),實(shí)際性能更好。存算一體采用非馮·諾伊曼架構(gòu),提升算力只需要復(fù)制“存算一體單元”,工程上更簡潔。
當(dāng)然,存算一體并非萬能,它只針對某一類計(jì)算特別是以數(shù)據(jù)為主的AI計(jì)算,并不適合CPU等以控制為主的計(jì)算。存算一體作為新的芯片方向,還面臨電路設(shè)計(jì)、架構(gòu)、軟件等諸多層面的挑戰(zhàn)。
存算一體正處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時(shí)期。吳強(qiáng)表示,最本質(zhì)的挑戰(zhàn)和難點(diǎn)是,“需要對存算一體技術(shù)有很深的了解,同時(shí)又要對AI應(yīng)用落地有了解,只有這兩者融合在一起,才有可能產(chǎn)生裂變,做出局部有顛覆性的東西來?!?/span>
難就難在,這兩者是兩波人在做,存算一體做得好的在學(xué)術(shù)界,AI計(jì)算強(qiáng)的又是工業(yè)界?!罢嬲胱龀龃笮酒?,需要兩波人在一起融合?!眳菑?qiáng)說。
02/
尋找回國創(chuàng)業(yè)的機(jī)會(huì)
做過AI芯片,也研究過存算一體,吳強(qiáng)最終決定自己創(chuàng)業(yè)。
實(shí)際上,2018年后,芯片熱潮起來了,對創(chuàng)業(yè)者來說,這是一個(gè)難得的歷史機(jī)遇。投資人問過吳強(qiáng)為什么要做AI芯片?吳強(qiáng)說,AI芯片相比應(yīng)用芯片更難做,但空間很大。芯片巨頭英偉達(dá)市值突破5000億美元,增長的大部分來自于AI芯片。
“人不喜歡做枯燥的事,所以一定會(huì)用AI輔助,變得更高效,我比較認(rèn)可人類生活智能化是大趨勢,如果AI是大趨勢,AI計(jì)算就必須用算力支撐?!?/span>
以無人駕駛為例,L5級(jí)無人駕駛需要4000 TPOS算力才能支撐充分的智能化。邊緣端和云端算力支撐著AI應(yīng)用,支撐著人類社會(huì)不斷走向智能化?!爱?dāng)然我們是用差異化技術(shù)做存算一體,有差異化的產(chǎn)品做出來才能彎道超車。”
2006年在普林斯頓大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位后,吳強(qiáng)曾先后在Intel、AMD、Facebook、地平線工作,是AMD的GPGPU/OpenCL創(chuàng)始團(tuán)隊(duì)核心成員,2009年-2017年任Facebook資深科學(xué)家,領(lǐng)導(dǎo)過綠色云計(jì)算項(xiàng)目,大幅優(yōu)化和節(jié)約整體電耗。
那時(shí)候英特爾已經(jīng)是大公司了,AMD也是大公司,距離創(chuàng)業(yè)都很遠(yuǎn)。第一次在硅谷接觸到創(chuàng)業(yè),是在Facebook時(shí)期?!爱?dāng)時(shí)Facebook也就小幾百號(hào)工程師,還比較小,不是很有名。整個(gè)公司只有一層樓,每天都能看到扎克伯格。去了Facebook以后就看著它一路成長,成為國際巨頭,擁有幾萬工程師?!?/span>
這是吳強(qiáng)第一次見識(shí)到創(chuàng)業(yè)公司是如何成長的,知道了創(chuàng)業(yè)究竟是怎么一回事,這對他觸動(dòng)很大。
2012年,F(xiàn)acebook上市,包括吳強(qiáng)在內(nèi)的一批老員工都面臨著未來要做什么的選擇?!氨热缬腥私?jīng)濟(jì)上比較自由以后就去做投資了,有人退休了,有人去創(chuàng)業(yè)了。我自己也在思考,我要做什么。”
吳強(qiáng)“想了一下”,還是想去創(chuàng)業(yè)?!拔矣X得我也很喜歡這個(gè)過程,把一個(gè)公司從0到1、從小做大的過程很美好?!?/span>
他開始尋找回國的機(jī)會(huì)。在美國待了將近20年,直接回國創(chuàng)業(yè)一步到位不現(xiàn)實(shí),他決定先加入創(chuàng)業(yè)公司?!八晕耶?dāng)時(shí)看國內(nèi)的機(jī)會(huì)只看創(chuàng)業(yè)公司,沒有看過大公司?!?/span>
帶著對創(chuàng)業(yè)的向往,2017年回國后,吳強(qiáng)加入地平線擔(dān)任技術(shù)副總裁及工程院院長,后來又任地平線CTO,領(lǐng)導(dǎo)AI芯片軟件方案及生態(tài)建設(shè),以及邊緣端應(yīng)用解決方案商業(yè)化落地,幫助企業(yè)構(gòu)建硅谷標(biāo)準(zhǔn)的國際化研發(fā)體系。
一直到2020年,吳強(qiáng)離開地平線,自主創(chuàng)業(yè)。在美國時(shí),項(xiàng)之初和吳強(qiáng)都在波士頓生活過,也一起踢過球。“在美國其實(shí)很單純,我都不知道他是什么專業(yè)的。我們只是踢球玩,在一起踢球過程中是有信任感的,能通過這些判斷一個(gè)人是不是靠譜?!本瓦@樣,項(xiàng)之初也信了這個(gè)球友對創(chuàng)業(yè)的判斷,兩人一拍即合。
03/
軟件生態(tài):雞生蛋,蛋生雞
2017年微處理器頂級(jí)年會(huì)(Micro 2017)上,包括英偉達(dá)、英特爾、微軟、 三星、蘇黎世聯(lián)邦理工學(xué)院與加州大學(xué)圣塔芭芭拉分校等都推出了存算一體系統(tǒng)原型。項(xiàng)之初對澎湃新聞(www.thepaper.cn)表示,從技術(shù)上來說,國內(nèi)外在存算一體方面都還在同一起跑線上。
“存算一體是科技大趨勢?!眴⒚鲃?chuàng)投合伙人周志峰告訴澎湃新聞(www.thepaper.cn),近兩三年,中國的存算一體,尤其是面向AI應(yīng)用的,發(fā)展比歐美更快、更活躍,核心原因是中國有大量應(yīng)用場景,在眾多領(lǐng)域中AI落地比其他國家更早。
“我們有大量AI算法、底層框架等相關(guān)人才,這些都間接推動(dòng)了存算一體芯片發(fā)展。中國在這一領(lǐng)域的發(fā)展從技術(shù)路徑和落地應(yīng)用上來看非常多元化。我相信未來會(huì)有中國存算一體芯片企業(yè)成長為這個(gè)領(lǐng)域的世界級(jí)公司,而不僅僅是中國本土的領(lǐng)頭企業(yè)?!敝苤痉灞硎尽?/span>
2020年底吳強(qiáng)創(chuàng)立后摩智能,基于存算一體技術(shù)開發(fā)大算力智能計(jì)算芯片。今年3月,后摩智能宣布完成數(shù)千萬美元天使輪融資,6個(gè)月內(nèi)又宣布獲得第二筆3億元融資,目前已完成核心技術(shù)驗(yàn)證,8月中旬流片。
盡管存算一體被一些業(yè)內(nèi)人士看好,但一種新興技術(shù)想要得到大規(guī)模普及,離不開產(chǎn)業(yè)生態(tài)的建設(shè),包括得到芯片廠商、軟件工具廠商、應(yīng)用集成廠商等的協(xié)同、研發(fā)、 推廣與應(yīng)用。
尤其在傳統(tǒng)芯片已經(jīng)占據(jù)目前大部分已有應(yīng)用場景的前提下,如何突破新市場,實(shí)現(xiàn)產(chǎn)業(yè)化落地,這是所有新興AI芯片公司都要面臨的問題。
回看英偉達(dá)GPU的發(fā)展歷程,它的成功給出了啟示。1999年,英偉達(dá)推出標(biāo)志性產(chǎn)品GeForce256,這是世界上第一款GPU。
“英偉達(dá)最初做GPU是用作圖形處理的,后來突然發(fā)現(xiàn)GPU可以用作GPGPU(通用圖形處理器),用來做科學(xué)計(jì)算?!眳菑?qiáng)說,GPU的出現(xiàn)解決了一個(gè)痛點(diǎn),沒有國家實(shí)驗(yàn)室才買得起的服務(wù)器大集群,也可以擁有大算力。
“我們作為新玩家,一定要在局部有明顯優(yōu)勢去解決別人的痛點(diǎn),比如算力更大,功耗更低,能做到這一點(diǎn),別人才有嘗試你產(chǎn)品的動(dòng)力?!?/span>
另一個(gè)不可忽視的點(diǎn)是英偉達(dá)以CUDA為核心的軟件生態(tài)。吳強(qiáng)說,智能芯片的研發(fā),難的是挑戰(zhàn)軟件生態(tài)。“英偉達(dá)的軟件做得非常好用,符合人的思維邏輯或習(xí)慣,既然用習(xí)慣了就在上面建立更多工具和庫,這就是所謂的生態(tài)?!?/span>
就像先有雞還是先有蛋的問題,軟件好用,用的人自然多,軟件用得越多,功能就越強(qiáng)大。“我們也一定要走這一步,軟件一定要好用,遷移成本要低,并且要讓用了之后嘗到甜頭的人在上面建立他的工具,而且一定是開放的生態(tài),這樣一步步做起來,就變成了生態(tài)。”
吳強(qiáng)表示,對于所有新玩家而言,這是必須要走的路,也只有這樣才有可能真正打破巨頭的壁壘。而第一步就是要找一個(gè)“不太深的地方”攻入,相比AI訓(xùn)練,可以從不需要那么多算子的AI推理切入,逐漸在局部建立自己的生態(tài),在小范圍內(nèi)形成閉環(huán),破解雞生蛋、蛋生雞難題。
04/
高端芯片設(shè)計(jì)人才差距縮小
二戰(zhàn)后的上世紀(jì)五六十年代,美國科技爆炸性發(fā)展,芯片作為底層支柱進(jìn)入各行各業(yè),誕生了最早研發(fā)半導(dǎo)體芯片的硅谷。上世紀(jì)七八十年代,日本汽車、家電產(chǎn)業(yè)發(fā)展,芯片作為底層支柱也跟著發(fā)展。
今天的中國也一樣, 科技開始全面賦能,人工智能、無人駕駛、機(jī)器人、5G、物聯(lián)網(wǎng)等多種新型應(yīng)用形成增量市場,這個(gè)增量市場也必須由位于技術(shù)棧底層的新一代芯片支持。中國芯片產(chǎn)業(yè)爆發(fā)得自然,“這個(gè)時(shí)機(jī)特別好,如果需求側(cè)沒有巨大增量,我們只是跟隨歐美巨頭已經(jīng)有的芯片產(chǎn)品和市場,我覺得這個(gè)產(chǎn)業(yè)做不起來?!敝苤痉灞硎尽?/strong>
過去幾年,國產(chǎn)芯片領(lǐng)域布局越來越多,行業(yè)正面信號(hào)的釋放也是如此。政府、資本市場、科技大廠都在支持國產(chǎn)芯片發(fā)展。更重要的是,產(chǎn)業(yè)集群在中國,芯片公司能更了解用戶需求,推動(dòng)生產(chǎn)出更滿足市場需求的差異化芯片。
而人才優(yōu)勢是推動(dòng)產(chǎn)業(yè)向前發(fā)展的最重要一環(huán)?!拔易鯟EO七八個(gè)月了,感受還是蠻深?!?strong>和以前做技術(shù)時(shí)不同,現(xiàn)在的吳強(qiáng)睜開眼睛就是五件事:人、錢、方向、客戶、組織能力。
過去20年,中國芯片人才快速成長。“比如一些半導(dǎo)體巨頭在中國的研發(fā)中心都成了中國芯片人才的 ‘黃埔軍?!?,這些中國研發(fā)中心都承載和交付了很多全球領(lǐng)先的核心技術(shù)研發(fā)?!敝苤痉鍖ε炫刃侣劊╳ww.thepaper.cn)表示,全球前十大芯片設(shè)計(jì)公司在中國都設(shè)有研發(fā)中心,從事全球最尖端技術(shù)的研發(fā),這是中國涌現(xiàn)出大量頂級(jí)芯片設(shè)計(jì)人才的重要原因。
眾多科技領(lǐng)域中,中國在芯片領(lǐng)域的人才優(yōu)勢相對明顯。“全球范圍內(nèi),相較于其他領(lǐng)域,華人力量在半導(dǎo)體行業(yè)的影響力是巨大的。在全球頂級(jí)芯片企業(yè)中,華人擔(dān)任技術(shù)或商務(wù)高管的比例遠(yuǎn)高于其他領(lǐng)域。按營業(yè)收入全球前十名的芯片設(shè)計(jì)公司中有8家的CEO是華人?!敝苤痉逭f,如今,這些人才大量歸國,加入創(chuàng)業(yè)公司或科技大廠,帶動(dòng)中國芯片行業(yè)的發(fā)展。
吳強(qiáng)同樣認(rèn)為,目前中國高端芯片在設(shè)計(jì)上和國外差距很小,能夠滿足這一輪芯片革命的發(fā)展。盡管眼下已經(jīng)出現(xiàn)芯片行業(yè)過熱現(xiàn)象,比如驗(yàn)證人才緊缺,價(jià)格甚至高于設(shè)計(jì)人才,創(chuàng)業(yè)企業(yè)互相挖人等,但他表示,這是暫時(shí)的,兩年內(nèi)會(huì)趨于理性。
“我們還是希望有一點(diǎn)匠心的人過來,真的認(rèn)可我們,看中我們做的事情,看中這個(gè)團(tuán)隊(duì),愿意跟我們一起,相信我們可以把事情做大,我們要去找這樣的人。”
而芯片軟件人才仍然偏弱,與硅谷差距較大,高端芯片設(shè)計(jì)的架構(gòu)師等人才數(shù)量略有欠缺。“我們看了很多面向數(shù)據(jù)中心的處理器芯片公司,很多創(chuàng)業(yè)者都忽略了軟件生態(tài)問題,只考慮怎樣做出極致性能的硬件,但是如果沒有可編程性高的配套軟件生態(tài),是沒有辦法真正進(jìn)入終端市場的。軟件生態(tài)是歐美芯片大廠真正的護(hù)城河?!敝苤痉褰ㄗh,中國要在芯片軟件生態(tài)人才上加強(qiáng)培養(yǎng)。
外企培養(yǎng)一批,海外歸來一批,國內(nèi)通過應(yīng)用場景培養(yǎng)一批,人才固定,資金充足,“未來中國會(huì)成長出大芯片巨頭來,是誰我不知道,但我相信一定會(huì)有。”吳強(qiáng)說。
記者 | 張靜
編輯 | 李躍群