如果您希望可以時(shí)常見面,歡迎標(biāo)星收藏哦 ~
最近兩年的人工智能繁榮,讓英偉達(dá)憑借 GPU 登上了芯片之巔。于是包括 AMD、Intel、Graphcore、Cerebras 和 Tenstorrent 等在內(nèi)的傳統(tǒng)和新貴芯片企業(yè)試圖在這個(gè)領(lǐng)域?qū)⒂ミ_(dá)拉下馬。
不過,雖然他們都非常努力,但似乎依然難動(dòng)英偉達(dá)分毫。于是,市場上又冒出來了一群 AI 芯片新公司,他們希望用不同的架構(gòu)和思路,以期將英偉達(dá)趕下神壇。
下面我們來盤點(diǎn)一下最近比較熱門的挑戰(zhàn)者。
每個(gè)模型都要有相應(yīng)的 AI 芯片
這是來自 Taalas 公司創(chuàng)始人 Ljubisa Bajic 的觀點(diǎn)。提示一下,Ljubisa Bajic 還有一個(gè)身份,那就是他也是 Tenstorrent 的創(chuàng)始人,Jim keller 曾經(jīng)親密的合作伙伴。
在離開 Tenstorrent 一年之后,Ljubisa Bajic 終于在最近帶來了他的新公司。
Ljubisa Bajic 表示,即使是當(dāng)今的專用人工智能芯片也過于通用化,無法滿足其需要。他的新初創(chuàng)公司 Taalas(印地語是鎖匠的意思)承諾通過開發(fā)最終針對(duì)特定型號(hào)的架構(gòu)和芯片,將效率障礙再次突破幾個(gè)數(shù)量級(jí)。
據(jù)介紹,新公司已從 Quiet Capital 和 Pierre Lamond 處通過兩輪迷你融資(1200 萬美元和 3800 萬美元)籌集了 5000 萬美元,根據(jù)他們的設(shè)想,硅可以在制造時(shí)進(jìn)一步優(yōu)化以適應(yīng)特定型號(hào)。雖然人工智能和機(jī)器學(xué)習(xí)在軟件和硬件方面都在快速發(fā)展,但我們開始看到 " 足夠好 " 模型的趨勢(shì),專用計(jì)算路徑確實(shí)預(yù)示著更專用、更高效的芯片方法。
我們認(rèn)為 Taalas 最終將使用一種強(qiáng)化的可配置硬件——存在于真正固定功能 ASIC/DSP 或完全可重新配置的硬件解決方案(如 FPGA 或 CGRA)(兩者都具有在人工智能領(lǐng)域也找到了利基)。該領(lǐng)域的許多芯片設(shè)計(jì)公司都運(yùn)行 eASIC(即結(jié)構(gòu)化 ASIC)業(yè)務(wù),其中底層硬件是可配置的,但在最終制造時(shí)可以鎖定為給定的配置。這使得制造過程仍然可以創(chuàng)建通用可編程芯片,但可以減少部署到客戶市場的可重新配置開銷。
據(jù) Taalas 稱,這解決了當(dāng)今人工智能硬件的兩個(gè)主要問題——功效和成本。機(jī)器學(xué)習(xí)在消費(fèi)者日常生活中的預(yù)期普及程度將像電力一樣無處不在,因此它將存在于從汽車到白色家電到智能電表以及所有可以電氣化的堆棧中的一切事物中。為了滿足成本、計(jì)算能力 / 效率的需求,以及這些設(shè)備中的一些 / 大多數(shù)設(shè)備永遠(yuǎn)不會(huì)連接到互聯(lián)網(wǎng)的事實(shí),該硬件需要在部署時(shí)專用并固定。只有當(dāng)計(jì)算工作負(fù)載固定(或簡單)時(shí)才會(huì)發(fā)生這種情況,Taalas 和 Ljubisa 認(rèn)為這是一個(gè)即將到來的前沿領(lǐng)域(如果今天還沒有出現(xiàn)的話)。
在新聞稿中他們 Ljubisa Bajic 表示:" 人工智能就像電力——一種需要向所有人提供的基本商品。人工智能的商品化需要計(jì)算能力和效率提高 1000 倍,這是通過當(dāng)前漸進(jìn)方法無法實(shí)現(xiàn)的目標(biāo)。前進(jìn)的道路是實(shí)現(xiàn) " 我們不應(yīng)該在通用計(jì)算機(jī)上模擬智能,而應(yīng)該將智能直接注入硅中。在硅中實(shí)施深度學(xué)習(xí)模型是實(shí)現(xiàn)可持續(xù)人工智能的最直接途徑。"
Taalas 正在開發(fā)一種自動(dòng)化流程,用于在硅中快速實(shí)施所有類型的深度學(xué)習(xí)模型(Transformers、SSM、Diffusers、MoE 等)。專有的創(chuàng)新使其一款芯片能夠容納整個(gè)大型人工智能模型,而無需外部存儲(chǔ)器。硬連線計(jì)算的效率使單個(gè)芯片的性能優(yōu)于小型 GPU 數(shù)據(jù)中心,從而為 AI 成本降低 1000 倍開辟了道路。
" 我們相信 Taalas 的‘ direct to silicon ’代工廠實(shí)現(xiàn)了三項(xiàng)根本性突破:大幅重置當(dāng)今人工智能的成本結(jié)構(gòu),切實(shí)可行地實(shí)現(xiàn)模型尺寸接下來 10-100 倍的增長,以及在任何消費(fèi)設(shè)備上本地高效運(yùn)行強(qiáng)大的模型。Quiet Capital 合伙人 Matt Humphrey 表示:" 對(duì)于人工智能未來的可擴(kuò)展性而言,這可能是當(dāng)今計(jì)算領(lǐng)域最重要的使命。我們很自豪能夠支持這個(gè)出色的 n-of-1 團(tuán)隊(duì)來完成這件事。"
簡而言之,如果您需要在產(chǎn)品中使用具有 7B 參數(shù)的 Llama2 型號(hào),并且該公司確定這就是它在整個(gè)生命周期中所需要的全部,那么可以為該手持設(shè)備提供最低功耗和最低成本的專用硬核 Llama2-7B 芯片和型號(hào)設(shè)備就是您可能需要的一切。
據(jù)了解,Taalas 團(tuán)隊(duì)位于加拿大多倫多,擁有來自 AMD、NVIDIA 和 Tenstorrent 的專業(yè)知識(shí)。該公司將于 2024 年第三季度推出首款大型語言模型芯片,并計(jì)劃于 2025 年第一季度向早期客戶提供。
韓國 AI 芯片:功耗和尺寸大幅下降
來自韓國科學(xué)技術(shù)院 ( KAIST ) 的科學(xué)家團(tuán)隊(duì)在最近的 2024 年國際固態(tài)電路會(huì)議 ( ISSCC ) 上詳細(xì)介紹了他們的 "Complementary-Transformer" 人工智能芯片。新型 C-Transformer 芯片據(jù)稱是全球首款能夠進(jìn)行大語言模型(LLM)處理的超低功耗 AI 加速器芯片。
在一份新聞稿中,研究人員對(duì)瘋狂叫板 Nvidia ,聲稱 C-Transformer 的功耗比綠色團(tuán)隊(duì)的 A100 Tensor Core GPU 低 625 倍,尺寸小 41 倍。它還表明,三星晶圓代工芯片的成就很大程度上源于精細(xì)的神經(jīng)擬態(tài)計(jì)算技術(shù)。
盡管我們被告知 KAIST C-Transformer 芯片可以完成與 Nvidia 強(qiáng)大的 A100 GPU 之一相同的 LLM 處理任務(wù),但我們?cè)谛侣劵驎?huì)議材料中都沒有提供任何直接的性能比較指標(biāo)。這是一個(gè)重要的統(tǒng)計(jì)數(shù)據(jù),由于它的缺失而引人注目,憤世嫉俗的人可能會(huì)猜測性能比較不會(huì)給 C-Transformer 帶來任何好處。
上面的圖片有一張 " 芯片照片 " 和處理器規(guī)格的摘要。您可以看到,C-Transformer 目前采用三星 28nm 工藝制造,芯片面積為 20.25mm2。它的最高運(yùn)行頻率為 200 MHz,功耗低于 500mW。最好的情況下,它可以達(dá)到 3.41 TOPS。從表面上看,這比 Nvidia A100 PCIe 卡聲稱的 624 TOPS 慢 183 倍(但 KAIST 芯片據(jù)稱使用的功率低 625 倍)。然而,我們更喜歡某種基準(zhǔn)性能比較,而不是查看每個(gè)平臺(tái)聲稱的 TOPS。
C-Transformer 芯片的架構(gòu)看起來很有趣,其特點(diǎn)是三個(gè)主要功能塊:首先,Homogeneous DNN-Transformer / Spiking-transformer Core ( HDSC ) 和混合乘法累加單元 ( HMAU:Hybrid Multiplication-Accumulation Unit ) 可以有效處理動(dòng)態(tài)變化的分布能量。其次,我們有一個(gè)輸出尖峰推測單元(OSSU:Output Spike Speculation Unit)來減少尖峰域處理的延遲和計(jì)算量。第三,研究人員實(shí)施了帶有擴(kuò)展符號(hào)壓縮(ESC:Extended Sign Compression)的隱式權(quán)重生成單元(IWGU:Implicit Weight Generation Unit),以減少外部存儲(chǔ)器訪問(EMA)能耗。
據(jù)解釋,C-Transformer 芯片不僅僅添加了一些現(xiàn)成的神經(jīng)擬態(tài)處理作為其壓縮 LLM 大參數(shù)的 "special sauce"。韓國科學(xué)技術(shù)院的新聞稿稱,此前,神經(jīng)擬態(tài)計(jì)算技術(shù)對(duì)于法學(xué)碩士的使用不夠準(zhǔn)確。然而,研究團(tuán)隊(duì)表示,它 " 成功提高了該技術(shù)的準(zhǔn)確性,以匹配 [ 深度神經(jīng)網(wǎng)絡(luò) ] DNN"。
盡管由于沒有與行業(yè)標(biāo)準(zhǔn)人工智能加速器進(jìn)行直接比較,第一款 C-Transformer 芯片的性能存在不確定性,但毫無疑問,它將成為移動(dòng)計(jì)算的一個(gè)有吸引力的選擇。同樣令人鼓舞的是,研究人員利用三星測試芯片和廣泛的 GPT-2 測試取得了如此大的進(jìn)展。
徹底改變?nèi)斯ぶ悄艿男酒?/p>
最近,普林斯頓大學(xué)的先進(jìn)人工智能芯片項(xiàng)目由 DARPA 和 EnCharge AI 支持,有望顯著提高能源效率和計(jì)算能力,旨在徹底改變?nèi)斯ぶ悄艿目杉靶院蛻?yīng)用。
普林斯頓大學(xué)電氣和計(jì)算機(jī)工程教授納文 · 維爾馬 ( Naveen Verma ) 表示,新硬件針對(duì)現(xiàn)代工作負(fù)載重新設(shè)計(jì)了人工智能芯片,并且可以使用比當(dāng)今最先進(jìn)的半導(dǎo)體少得多的能源運(yùn)行強(qiáng)大的人工智能系統(tǒng)。領(lǐng)導(dǎo)該項(xiàng)目的維爾馬表示,這些進(jìn)步突破了阻礙人工智能芯片發(fā)展的關(guān)鍵障礙,包括尺寸、效率和可擴(kuò)展性。
" 最好的人工智能僅存在于數(shù)據(jù)中心,有一個(gè)非常重要的限制," 維爾馬說。" 我認(rèn)為,你從中解鎖了它,我們從人工智能中獲取價(jià)值的方式將會(huì)爆炸。"
在普林斯頓大學(xué)領(lǐng)導(dǎo)的項(xiàng)目中,研究人員將與 Verma 的初創(chuàng)公司 EnCharge AI 合作。EnCharge AI 總部位于加利福尼亞州圣克拉拉,正在將基于 Verma 實(shí)驗(yàn)室發(fā)現(xiàn)的技術(shù)商業(yè)化,其中包括他早在 2016 年與電氣工程研究生共同撰寫的幾篇重要論文。
根據(jù)項(xiàng)目提案,Encharge AI" 在強(qiáng)大且可擴(kuò)展的混合信號(hào)計(jì)算架構(gòu)的開發(fā)和執(zhí)行方面處于領(lǐng)先地位 "。Verma 于 2022 年與前 IBM 院士 Kailash Gopalakrishnan 和半導(dǎo)體系統(tǒng)設(shè)計(jì)領(lǐng)域的領(lǐng)導(dǎo)者 Echere Iroaga 共同創(chuàng)立了該公司。
Gopalakrishnan 表示,當(dāng)人工智能開始對(duì)計(jì)算能力和效率產(chǎn)生大量新需求時(shí),現(xiàn)有計(jì)算架構(gòu)的創(chuàng)新以及硅技術(shù)的改進(jìn)開始放緩。即使是用于運(yùn)行當(dāng)今人工智能系統(tǒng)的最好的圖形處理單元 ( GPU ) ,也無法緩解行業(yè)面臨的內(nèi)存和計(jì)算能源瓶頸。
" 雖然 GPU 是當(dāng)今最好的可用工具," 他說," 但我們得出的結(jié)論是,需要一種新型芯片來釋放人工智能的潛力。"
普林斯頓大學(xué) 凱勒工程教育創(chuàng)新中心主任 Verma 表示,從 2012 年到 2022 年,人工智能模型所需的計(jì)算能力實(shí)現(xiàn)了指數(shù)級(jí)增長。為了滿足需求,最新的芯片封裝了數(shù)百億個(gè)晶體管,每個(gè)晶體管之間的寬度只有一個(gè)小病毒的寬度。然而,這些芯片的計(jì)算能力仍然不足以滿足現(xiàn)代需求。
當(dāng)今的領(lǐng)先模型將大型語言模型與計(jì)算機(jī)視覺和其他機(jī)器學(xué)習(xí)方法相結(jié)合,每個(gè)模型都使用超過一萬億個(gè)變量來開發(fā)。推動(dòng)人工智能熱潮的英偉達(dá)設(shè)計(jì)的 GPU 變得非常有價(jià)值,據(jù)報(bào)道,各大公司都通過裝甲車運(yùn)輸它們。購買或租賃這些芯片的積壓已經(jīng)達(dá)到了消失的程度。
為了創(chuàng)建能夠在緊湊或能源受限的環(huán)境中處理現(xiàn)代人工智能工作負(fù)載的芯片,研究人員必須完全重新構(gòu)想計(jì)算的物理原理,同時(shí)設(shè)計(jì)和封裝可以使用現(xiàn)有制造技術(shù)制造并且可以與現(xiàn)有計(jì)算技術(shù)良好配合的硬件,例如中央處理單元。
" 人工智能模型的規(guī)模呈爆炸式增長," 維爾馬說," 這意味著兩件事。" 人工智能芯片需要在數(shù)學(xué)計(jì)算方面變得更加高效,在管理和移動(dòng)數(shù)據(jù)方面也需要更加高效。
他們的方法分為三個(gè)關(guān)鍵部分。
幾乎每臺(tái)數(shù)字計(jì)算機(jī)的核心架構(gòu)都遵循 20 世紀(jì) 40 年代首次開發(fā)的看似簡單的模式:在一個(gè)地方存儲(chǔ)數(shù)據(jù),在另一個(gè)地方進(jìn)行計(jì)算。這意味著在存儲(chǔ)單元和處理器之間傳輸信息。在過去的十年中,Verma 率先研究了一種更新方法,其中計(jì)算直接在內(nèi)存單元中完成,稱為內(nèi)存計(jì)算。這是第一部分。內(nèi)存計(jì)算有望減少移動(dòng)和處理大量數(shù)據(jù)所需的時(shí)間和能源成本。
但到目前為止,內(nèi)存計(jì)算的數(shù)字方法還非常有限。維爾馬和他的團(tuán)隊(duì)轉(zhuǎn)向了另一種方法:模擬計(jì)算。那是第二部分。
" 在內(nèi)存計(jì)算的特殊情況下,你不僅需要高效地進(jìn)行計(jì)算,"Verma 說," 你還需要以非常高的密度進(jìn)行計(jì)算,因?yàn)楝F(xiàn)在它需要適合這些非常小的內(nèi)存單元。" 模擬計(jì)算機(jī)不是將信息編碼為一系列 0 和 1,然后使用傳統(tǒng)邏輯電路處理該信息,而是利用設(shè)備更豐富的物理特性。
數(shù)字信號(hào)在 20 世紀(jì) 40 年代開始取代模擬信號(hào),主要是因?yàn)殡S著計(jì)算的指數(shù)級(jí)增長,二進(jìn)制代碼可以更好地?cái)U(kuò)展。但數(shù)字信號(hào)并沒有深入了解設(shè)備的物理原理,因此,它們可能需要更多的數(shù)據(jù)存儲(chǔ)和管理。這樣他們的效率就較低。模擬通過利用設(shè)備的固有物理特性處理更精細(xì)的信號(hào)來提高效率。但這可能會(huì)犧牲精度。
維爾馬說:" 關(guān)鍵在于找到適合該工作的物理原理,使設(shè)備能夠被很好地控制并大規(guī)模制造。"
他的團(tuán)隊(duì)找到了一種方法,使用專門設(shè)計(jì)用于精確開關(guān)的電容器生成的模擬信號(hào)來進(jìn)行高精度計(jì)算。這是第三部分。與晶體管等半導(dǎo)體器件不同,通過電容器傳輸?shù)碾娔懿灰蕾囉诓牧现械臏囟群碗娮舆w移率等可變條件。
" 它們只依賴于幾何形狀," 維爾馬說。" 它們?nèi)Q于一根金屬線和另一根金屬線之間的空間。" 幾何形狀是當(dāng)今最先進(jìn)的半導(dǎo)體制造技術(shù)可以控制得非常好的一件事。
光芯片,速度驚人
賓夕法尼亞大學(xué)的工程師開發(fā)了一種新芯片,它使用光波而不是電力來執(zhí)行訓(xùn)練人工智能所必需的復(fù)雜數(shù)學(xué)。該芯片有可能從根本上加快計(jì)算機(jī)的處理速度,同時(shí)降低能耗。
該硅光子 ( SiPh ) 芯片的設(shè)計(jì)首次將本杰明 · 富蘭克林獎(jiǎng)?wù)芦@得者和 H. Nedwill Ramsey 教授 Nader Engheta 在納米級(jí)操縱材料方面的開創(chuàng)性研究結(jié)合在一起,利用光(可能是最快的通信方式)進(jìn)行數(shù)學(xué)計(jì)算 SiPh 平臺(tái)使用硅,硅是一種廉價(jià)且豐富的元素,用于大規(guī)模生產(chǎn)計(jì)算機(jī)芯片。
光波與物質(zhì)的相互作用代表了開發(fā)計(jì)算機(jī)的一種可能途徑,這種計(jì)算機(jī)可以取代當(dāng)今芯片的局限性,這些芯片本質(zhì)上與 20 世紀(jì) 60 年代計(jì)算革命初期的芯片相同的原理。
在《自然光子學(xué)》雜志上發(fā)表的一篇論文中,Engheta 的團(tuán)隊(duì)與電氣和系統(tǒng)工程副教授 Firooz Aflatouni 的團(tuán)隊(duì)一起描述了新芯片的開發(fā)過程。
" 我們決定聯(lián)手,"Engheta 說道,他利用了 Aflatouni 的研究小組率先開發(fā)納米級(jí)硅器件的事實(shí)。
他們的目標(biāo)是開發(fā)一個(gè)平臺(tái)來執(zhí)行所謂的向量矩陣乘法,這是神經(jīng)網(wǎng)絡(luò)開發(fā)和功能中的核心數(shù)學(xué)運(yùn)算,神經(jīng)網(wǎng)絡(luò)是當(dāng)今人工智能工具的計(jì)算機(jī)架構(gòu)。
Engheta 解釋說," 你可以將硅做得更薄,比如 150 納米 ",而不是使用高度均勻的硅晶片,但僅限于特定區(qū)域。這些高度的變化(無需添加任何其他材料)提供了一種控制光在芯片中傳播的方法,因?yàn)楦叨鹊淖兓梢苑植家允构庖蕴囟ǖ膱D案散射,從而使芯片能夠執(zhí)行數(shù)學(xué)計(jì)算以光速。
Aflatouni 表示,由于生產(chǎn)芯片的商業(yè)代工廠施加的限制,該設(shè)計(jì)已經(jīng)為商業(yè)應(yīng)用做好了準(zhǔn)備,并且有可能適用于圖形處理單元 ( GPU ) ,隨著廣泛應(yīng)用,圖形處理單元 ( GPU ) 的需求猛增。對(duì)開發(fā)新的人工智能系統(tǒng)的興趣。
" 他們可以采用硅光子平臺(tái)作為附加組件,"Aflatouni 說," 然后就可以加快訓(xùn)練和分類速度。"
除了更快的速度和更少的能耗之外,Engheta 和 Aflatouni 的芯片還具有隱私優(yōu)勢(shì):由于許多計(jì)算可以同時(shí)進(jìn)行,因此無需在計(jì)算機(jī)的工作內(nèi)存中存儲(chǔ)敏感信息,使得采用此類技術(shù)的未來計(jì)算機(jī)幾乎無法被黑客攻擊。
" 沒有人可以侵入不存在的內(nèi)存來訪問你的信息," 阿弗拉圖尼說。
其他合著者包括賓夕法尼亞大學(xué)工程學(xué)院的 Vahid Nikkhah、Ali Pirmoradi、Farshid Ashtiani 和 Brian Edwards。
參考鏈接