ACAP是什么AI芯片架構(gòu)
ACAP是什么AI芯片架構(gòu)
01 ACAP是全球芯片巨頭賽靈思所推出的一款全新AI芯片架構(gòu)系統(tǒng),只是一個(gè)架構(gòu)系統(tǒng),利用ACAP機(jī)構(gòu)所打造的Everest芯片預(yù)計(jì)在2019面向市場發(fā)售。 02 ACAP以現(xiàn)在全新的FPGA架構(gòu)來作為核心基礎(chǔ),并且基于ARM進(jìn)行架構(gòu),這樣能夠?qū)崿F(xiàn)分布式存儲器與硬件設(shè)備之間能夠進(jìn)行編程DSP模塊。
03 根據(jù)**的介紹,ACAP能夠?qū)Χ鄠€(gè)軟件系統(tǒng)進(jìn)行編程,并且能夠同時(shí)對多個(gè)硬件設(shè)備進(jìn)行靈活的應(yīng)變計(jì)算,還能夠與相應(yīng)的片上**進(jìn)行互連操作。
04 簡單來說,ACAP就是賽靈思基于傳統(tǒng)FPGA芯片架構(gòu)制程,進(jìn)行升級打造出來的一款高性能計(jì)算引擎,這也是賽靈思現(xiàn)在的反擊之舉。
基于架構(gòu)創(chuàng)新,業(yè)內(nèi)**存算一體大算力AI芯片點(diǎn)亮
5月23日,AI芯片公司后摩智能宣布,其自主研發(fā)的業(yè)內(nèi)**存算一體大算力AI芯片成功點(diǎn)亮,并成功跑通智能駕駛算法模型。芯片“點(diǎn)亮”指電流順利通過芯片,通常意味著芯片可用,后續(xù)測試修正后即可量產(chǎn)。
基于架構(gòu)創(chuàng)新,該款芯片采用SRAM(靜態(tài)隨機(jī)存取存儲器)作為存算一體介質(zhì),通過存儲單元和計(jì)算單元的深度融合,實(shí)現(xiàn)了高性能和低功耗,樣片算力達(dá)20TOPS(TOPS是處理器運(yùn)算能力單位),可擴(kuò)展至200TOPS,計(jì)算單元能效比高達(dá)20TOPS/W(TOPS/W是評價(jià)處理器運(yùn)算能力的性能指標(biāo),用于度量在1W功耗的情況下處理器能進(jìn)行多少萬億次操作)。
這是業(yè)內(nèi)**基于嚴(yán)格存內(nèi)計(jì)算架構(gòu)、AI算力達(dá)到數(shù)十TOPS或者更高、可支持大規(guī)模視覺計(jì)算模型的AI芯片(存內(nèi)計(jì)算,顧名思義就是把計(jì)算單元嵌入到內(nèi)存當(dāng)中,是一種跳出傳統(tǒng)計(jì)算機(jī)結(jié)構(gòu)體系的技術(shù))。與傳統(tǒng)架構(gòu)下的大算力芯片相比,該款芯片在算力、能效比等方面都具有顯著的優(yōu)勢。 據(jù)悉,該款芯片采用22nm成熟工藝制程,在提升能效比的同時(shí),還能有效把控制造成本。此外,在靈活性方面,該款芯片不但支持市面上的主流算法,還可以支持不同客戶定制自己的算子,更加適配于算法的高速迭代。
在智能駕駛等邊緣端高并發(fā)計(jì)算場景中,除了對算力需求高外,對芯片的功耗和散熱也有很高的要求。目前,常規(guī)架構(gòu)芯片設(shè)計(jì)中內(nèi)存系統(tǒng)的性能提升速度大幅落后于處理器的性能提升速度,有限的內(nèi)存帶寬無法保證數(shù)據(jù)高速傳輸,無法滿足高級別智能駕駛的計(jì)算需求。其次,數(shù)據(jù)來回傳輸又會產(chǎn)生巨大的功耗。
后摩智能基于該款芯片,首次在存內(nèi)計(jì)算架構(gòu)上跑通了智能駕駛場景下多場景、多任務(wù)算法模型,為高級別智能駕駛提供了一條全新的技術(shù)路徑,未來有望更好地滿足高級別智能駕駛時(shí)代的需求。 后摩智能是國內(nèi)率先通過底層架構(gòu)創(chuàng)新,進(jìn)行大算力AI芯片設(shè)計(jì)的初創(chuàng)企業(yè)。任何**式創(chuàng)新都會面對極高的技術(shù)挑戰(zhàn),研發(fā)人員需要根據(jù)傳統(tǒng)存儲器件重新設(shè)計(jì)電路、單元陣列、工具鏈等,同時(shí)必須突破各種物理和結(jié)構(gòu)上的技術(shù)難題。
此次芯片點(diǎn)亮成功,標(biāo)志著其在大算力存算一體技術(shù)的工程化落地取得了關(guān)鍵性的突破。 后摩智能創(chuàng)立于2020年底,總部位于南京,在北京、上海、深圳均擁有技術(shù)團(tuán)隊(duì)。截至目前,后摩智能已完成3輪融資,投資方涵蓋紅杉**、經(jīng)緯創(chuàng)投、啟明創(chuàng)投、聯(lián)想創(chuàng)投等頭部機(jī)構(gòu),以及金浦悅達(dá) 汽車 、中關(guān)村啟航等國資基金。
阿里AI芯片“含光800”問世,性能相當(dāng)10顆GPU
序言 雖然世界上AI芯片品種不少,但性能特別出眾的卻是寥寥無幾,**阿里20來年發(fā)展史上自主研發(fā)的**國產(chǎn)芯片“含光800”在實(shí)測現(xiàn)場以出色的表現(xiàn)脫穎而出。它與傳統(tǒng)的GPU比,具有 “以1當(dāng)10” 的卓越優(yōu)勢。
這就是1顆“含光800”的性能堪比傳統(tǒng)的10顆GPU,具有突出的性價(jià)比。
1 何謂“含光”? “含光”是上古三大神劍之一,即該劍含而不露,光而不閃。此喻“含光800”所具有的隱其形強(qiáng)其里的算力。含光800是一款云端AI推理芯片,重點(diǎn)應(yīng)用于視覺場景。就其性能,含光800刷新了現(xiàn)有AI芯片記錄,性能及能效堪比全球**。
該AI架構(gòu)由兩部分組成:硬建系統(tǒng)的核心是“芯片”,好比人的驅(qū)體,軟件的核心就是“操作系統(tǒng)”,好比軀體的靈魂;靈魂即所謂的智能(AI)。所以,大凡世界上所有的高 科技 產(chǎn)品概莫能外,均由硬件與軟件構(gòu)成。 2 “含光800”的卓越表現(xiàn) 芯片被稱為工業(yè)之母,要想掌控世界的高 科技 ,首先必須擁有自己的芯片!含光800是阿里20來年發(fā)展史上自主研發(fā)的**國產(chǎn)芯片。
含光800將通過阿里云對外輸出AI算力?;诤?00的AI云服務(wù)當(dāng)前已正式上線,相比傳統(tǒng)GPU算力,性價(jià)比提升****。 在業(yè)界標(biāo)準(zhǔn)ResNet-50測試中,含光800推理性能達(dá)到78563 IPS,比目前業(yè)界**的AI芯片性能高出4倍;能效比是500 IPS/W參與測評第二名的3.3倍。
?3 “含光800”的作用 在杭州城市大腦業(yè)務(wù)測試結(jié)果表明,1顆“含光800”的算力功能朝過目前10顆常規(guī)功能GPU。 在云棲會現(xiàn)場演示其性能同樣出彩,比如城市大腦中的實(shí)時(shí)處理,對杭州主城區(qū)交通視頻,采用40顆傳統(tǒng)GPU,時(shí)延為300ms,而采用含“含光800”只需要4顆,其時(shí)延降至150ms。 在用于處理淘寶商品庫每天新增10億張商品圖片,使用傳統(tǒng)GPU算力識別需要至少1小時(shí),而使用“含光800”后處理時(shí)間縮短至僅5分鐘。
寒武紀(jì)發(fā)布第三代云端AI芯片思元370 產(chǎn)品進(jìn)入早期銷售階段
11月3日,寒武紀(jì)(688256)發(fā)布第三代云端AI芯片思元370、基于思元370的兩款加速卡MLU370-S4和MLU370-X4、全新升級的CambriconNeuware軟件棧。 基于7nm制程工藝,思元370是寒武紀(jì)**采用chiplet(芯粒)技術(shù)的AI芯片,集成了390億個(gè)晶體管,**算力高達(dá)256TOPS(INT8),是寒武紀(jì)第二代產(chǎn)品思元270算力的2倍。
思元370也是國內(nèi)**顆支持LPDDR5內(nèi)存的云端AI芯片,內(nèi)存帶寬是上一代產(chǎn)品的3倍,訪存能效達(dá)GDDR6的1.5倍。
同時(shí),寒武紀(jì)全新升級了CambriconNeuware軟件棧,新增推理加速引擎MagicMind,實(shí)現(xiàn)訓(xùn)推一體,顯著提升了開發(fā)部署的效率,降低用戶的學(xué)習(xí)成本、開發(fā)成本和運(yùn)營成本。 新一代智能處理器架構(gòu) 寒武紀(jì)智能處理器架構(gòu)MLUarch03,擁有新一代張量運(yùn)算單元,內(nèi)置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術(shù),在軟件融合的基礎(chǔ)上大幅減少算子執(zhí)行時(shí)間;片上通訊帶寬是上一代MLUarch02的百科2倍、片上共享緩存容量**是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前兼容。 值得強(qiáng)調(diào)的是,寒武紀(jì)堅(jiān)持自研智能芯片架構(gòu)、指令集,是全球范圍內(nèi)在該技術(shù)方向積累最為深厚的公司之一。MagicMind是寒武紀(jì)全新打造的推理加速引擎,也是業(yè)界**基于MLIR圖編譯技術(shù)達(dá)到商業(yè)化部署能力的推理引擎,用戶僅需投入極少的開發(fā)成本,即可將推理業(yè)務(wù)部署到寒武紀(jì)全系列產(chǎn)品上,并獲得頗具競爭力的性能。
思元370升級了視頻圖像編解碼單元,可提供更高效的視頻處理能力和更優(yōu)的編碼質(zhì)量,支持更復(fù)雜、更繁重、低延時(shí)要求的計(jì)算機(jī)視覺任務(wù)。 此次發(fā)布中,兩款基于思元370的加速卡正式亮相:高密度、半高半長、功耗75W的MLU370-S4智能加速卡和高性能、全高全長、功耗150W的MLU370-X4智能加速卡。與上一代產(chǎn)品相比,370系列加速卡在性能、能效方面都有更為卓越的表現(xiàn)。
例如,對標(biāo)準(zhǔn)ResNet-50v1進(jìn)行軟件定制優(yōu)化后,MLU370-X4加速卡性能高達(dá)30204fps。 據(jù)了解,此次寒武紀(jì)發(fā)布了兩款加速卡,未來還將推出更多基于思元370的產(chǎn)品。 產(chǎn)品進(jìn)入早期銷售階段 從云端推理思元270、邊緣推理思元220、云端訓(xùn)練思元290,到**發(fā)布的推訓(xùn)一體思元370,寒武紀(jì)為用戶提供了覆蓋不同場景、不同算力規(guī)模的全系列產(chǎn)品。
此次發(fā)布的256TOPS算力的思元370主要面向中高端推訓(xùn)場景,與主要面向訓(xùn)練的512TOPS高端產(chǎn)品思元290形成協(xié)同,共同為客戶提供全功能、全場景的智能算力。 思元370在2020年三季度流片,相關(guān)加速卡產(chǎn)品于2021年二季度陸續(xù)送測客戶。目前,部分客戶已完成測試、導(dǎo)入,產(chǎn)品進(jìn)入早期銷售階段。
阿里云基礎(chǔ)設(shè)施異構(gòu)計(jì)算負(fù)責(zé)人張偉豐博士表示,阿里云基礎(chǔ)設(shè)施異構(gòu)計(jì)算團(tuán)隊(duì)已經(jīng)完成了思元370的測試及導(dǎo)入,結(jié)合阿里云震旦異構(gòu)計(jì)算加速平**成了ODLA的接口適配,總體性能表現(xiàn)超出預(yù)期。百度異構(gòu)計(jì)算架構(gòu)師黎世勇表示,自2018年起,百度與寒武紀(jì)展開了多維度的軟硬件協(xié)作,思元100等產(chǎn)品服務(wù)百度語音合成等多種業(yè)務(wù)場景。 日前寒武紀(jì)發(fā)布了2021第三季度業(yè)績報(bào)告。2021年前三季度,寒武紀(jì)營業(yè)收入2.22億元,同比增長41.19%;研發(fā)投入合計(jì)7.04億元,同比增加62.62%,研發(fā)投入占營業(yè)收入的比例為316.72%,同比增加41.74%。
資料顯示,寒武紀(jì)自成立以來一直專注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新,致力于打造人工智能領(lǐng)域的核心處理器芯片。寒武紀(jì)的主營業(yè)務(wù)是應(yīng)用于各類云服務(wù)器、邊緣計(jì)算設(shè)備、終端設(shè)備中人工智能核心芯片的研發(fā)、設(shè)計(jì)和銷售,以及為客戶提供豐富的芯片產(chǎn)品與系統(tǒng)軟件解決方案。目前,寒武紀(jì)的主要產(chǎn)品線包括云端產(chǎn)品線、邊緣產(chǎn)品線、處理器IP授權(quán)及軟件。
智能芯片和類腦芯片的區(qū)別和聯(lián)系
芯片是半導(dǎo)體元件產(chǎn)品的統(tǒng)稱,而集成電路,縮寫是IC,就是將電路小型化,通過電子學(xué)和光學(xué),將電路制造在半導(dǎo)體晶圓上面。我們會分為4個(gè)小點(diǎn)進(jìn)行介紹AI芯片前言解讀。
首先是AI芯片從CPU、GPU、到XPU的發(fā)展情況總體介紹,接著是AI芯片都有哪些系統(tǒng)架構(gòu),基于不同的系統(tǒng)架構(gòu),又引申出不同的AI芯片。
第三部分來整體看看,AI芯片的產(chǎn)業(yè)鏈情況,了解AI芯片從設(shè)計(jì)到應(yīng)用的一個(gè)分部。**自然是了解AI芯片未來的發(fā)展趨勢,展望未來。