隨著人工智能市場的火爆,越來越多的芯片廠商開始推出AI芯片,與此同時很多AI算法廠商也開始紛紛推出自己的AI芯片。一時間AI芯片已成為當下最為市場最為關注的焦點。
早在去年11月,礦機芯片廠商比特大陸就推出了自己的首款人工智能芯片BM1680;今年年初,國內(nèi)的聲紋識別廠商Speakin也曝光了自己的即將推出的聲紋識別模組;今年4月,國內(nèi)的人臉識別廠商云天勵飛也確認將會在年內(nèi)推出自己的AI芯片;5月16日,云知聲發(fā)布首款面向物聯(lián)網(wǎng)領域的AI系列芯片UniOne以及第一代芯片“雨燕”;5月24日,出門問問發(fā)布旗下首款AI語音芯片模組問芯Mobvoi A1;7月2日,Rokid發(fā)布旗下AI語音專用SoC芯片KAMINO18;而在同一時間,語音識別廠商思必馳CEO高始興也確認公司正在打造AI語音ASIC芯片,預計今年下半年流片。
近日,云天勵飛首款自主知識產(chǎn)權的AI芯片IPU已成功流片。與此同時,比特大陸的第二代AI芯片BM1682正式曝光。下面我們來看詳細介紹:
云天勵飛自主產(chǎn)權AI芯片IPU已于16日流片
今年4月25日,在云天勵飛召開的芯片專題媒體溝通會上,云天勵飛聯(lián)合創(chuàng)始人、CEO陳寧提到,云天勵飛正在研發(fā)的一款面向嵌入式端的邊緣人工智能芯片IPU (inteligence processor unit)已取得階段性成果,計劃今年年中流片,明年上半年正式商用。時隔僅不到4個月之后,8月16日,云天勵飛的IPU已成功流片。
云天勵飛IPU聚焦嵌入式視覺智能終端
據(jù)介紹,云天勵飛AI芯片的技術路線是通過設計一系列面向多層神經(jīng)網(wǎng)絡的可編程處理器,應對人工智能算法的快速迭代。“我們首創(chuàng)的‘自適應云+端’AI系統(tǒng)架構,可通過云端邏輯控制終端芯片,自動更新終端芯片的算法和功能。”據(jù)云天勵飛聯(lián)合創(chuàng)始人、CEO陳寧介紹,云天勵飛自主研發(fā)的專用深度學習神經(jīng)網(wǎng)絡處理器芯片,采用ASIP設計思路,提供ASIC級別高性能和低功耗,也能提供處理器級別的指令集靈活性。同時,采用異構計算多核SOC架構,集成多處理器單元,并行分布式處理與集中控制系統(tǒng)。
與傳統(tǒng)芯片迭代速度相比,AI芯片迭代更快。“目前來說,算法每半個月迭代一次,AI芯片則要同步迭代,而傳統(tǒng)芯片的迭代是按年計算。現(xiàn)有的CPU或GPU無法滿足嵌入式端視覺AI應用。”據(jù)云天勵飛研發(fā)副總李愛軍表示,通用CPU在神經(jīng)網(wǎng)絡加速上速度慢,性能上滿足不了對嵌入式端的需求;GPU性能是夠的,但功耗高、成本居高不下。“所以,我們覺得有必要去研究適應新型神經(jīng)網(wǎng)絡的深度學習處理器架構芯片。”而云天勵飛研發(fā)的芯片是面向嵌入式端的邊緣計算人工智能芯片,專注智能視覺,聚焦在安防、智能商業(yè)等領域的場景應用。
擁有國內(nèi)頂尖ASIP矢量處理器芯片設計團隊
“云天勵飛做芯片不是臨時起意,而是從公司創(chuàng)立之初就開始了芯片的布局。”據(jù)陳寧介紹,云天勵飛早在2014年就有了完整的“機器學習與視覺智能處理器”AI芯片解決方案,并獲得2015年深圳孔雀團隊第一名。
在當時,云天勵飛的芯片研發(fā)團隊是國內(nèi)AI芯片界唯一有芯片商用經(jīng)驗的團隊,陳寧本人是中國第一款商用矢量處理器芯片的設計者,而芯片團隊主導者李愛軍是原中興通訊手機芯片的研發(fā)負責人,主導研發(fā)了國內(nèi)第一顆28nm手機芯片商用(2010)和國內(nèi)首款LTE多模手機芯片商用。
陳寧說,“我們的芯片研發(fā)團隊是國內(nèi)頂尖的ASIP矢量處理器芯片設計團隊,主要的骨干團隊成員有豐富的矢量處理器、復雜SoC芯片設計經(jīng)驗,且平均設計經(jīng)驗超過10年。”
IPU具有高能低耗、可編程、可云端升級等特點
據(jù)了解,云天勵飛在2016年完成了第一代深度學習神經(jīng)網(wǎng)絡處理器NNP100的研制,并基于FPGA載體實現(xiàn)商用。
李愛軍介紹說,NNP100深度結合云天勵飛自研深度學習算法,與自研神經(jīng)網(wǎng)絡模型深度耦合,具有強大的運算處理能力以及靈活的模型pooling能力,設計上支持PE數(shù)量根據(jù)場景需求任意擴展和裁剪,非常靈活,同時它又具有高性能、低時延和低功耗技術優(yōu)勢。
“相比之前的應用效果,采用NNP100后FPGA加速卡,計算性能相比GPU提升2倍,功耗減低5 倍,時延減低100倍。”李愛軍介紹,目前NNP100應用在云天勵飛的DeepEye100智能盒子和DeepEye200服務器加速卡產(chǎn)品上。基于NNP100的技術基礎,云天勵飛已經(jīng)在研發(fā)第二代深度學習神經(jīng)網(wǎng)絡處理器NNP200,并取得階段性成果。NNP200將集成于云天勵飛IPU (inteligence processor unit)芯片上,并用于智能終端產(chǎn)品。
據(jù)介紹,云天勵飛的視覺AI芯片具有2Tops/W的高能量效率。與Nvidia開源的nvDLA相比,相同運算力下,在很小的內(nèi)存帶寬下,算法模型效率可以提高18倍。與麒麟970相比,相同運算力下,比970的性能提高4.4倍。
“云天的芯片除了高能低耗的優(yōu)勢之外,還能實現(xiàn)可編程,遠程一鍵升級。芯片可同時處理多路高清視頻,此外,通過片間級聯(lián)還可進行擴展。”李愛軍說,多芯片級聯(lián),相當于搭積木一樣,一顆一顆之間通過板級互聯(lián)進行擴展。通過級聯(lián)擴展最多可以同時處理64路視頻。
“我們采用業(yè)界領先的22nm工藝,工藝的性能、功耗、面積經(jīng)過仿真、分析、比對,對比業(yè)界主流的28nm工藝,都具有一定優(yōu)勢,性能提升約10%,功耗降低約15%,面積減小15%-20%。”陳寧還提到,云天勵飛的IPU芯片計劃在今年年中實現(xiàn)流片,并在明年上半年推向商用,最終通過模式創(chuàng)新,打造一個開放賦能的芯片平臺。
云天IPU最大亮點——對場景理解更為深刻
相比傳統(tǒng)的芯片,AI芯片更注重“從場景到算法,從算法到芯片”。正因為不同于以往從硬件出發(fā)的思路,AI芯片的行業(yè)形態(tài)和商業(yè)模式正在發(fā)生著變化。目前,AI芯片的應用場景主要集中在安防、智能家居和消費電子、自動駕駛、云計算、智慧城市等行業(yè)。
“由于目前還不存在適用于所有通用算法的嵌入式AI芯片,確定芯片的應用場景就顯得尤為重要。”陳寧提到,過往三年,云天勵飛深耕安防領域,最先提出了針對安防行業(yè)“云+端”的解決方案,真正做到將AI技術落地于垂直場景。
來源: 智能科技熱點
深度分析:比特大陸二代AI芯片性能躍升,專注安防視頻
近日,坊間傳聞許久的比特大陸第二代人工智能芯片BM1682,正式出現(xiàn)在其官網(wǎng)頁面。根據(jù)比特大陸一貫神秘務實的風格,相信基于BM1682的板卡、服務器也已經(jīng)備好了。筆者在芯片行業(yè)浸淫十多年,嘗試根據(jù)比特大陸官網(wǎng)公布的產(chǎn)品白皮書,來分析一下這兩代人工智能芯片之間的異同,嘗試談一談比特大陸在人工智能領域的意圖和野心。
2017年第4季度,比特大陸正式推出了其人工智能品牌算豐(SOPHON),發(fā)布了全球首款公開發(fā)售的TPU(Tensor Processing Unit張量計算單元)芯片BM1680,專門用于人工智能中的深度學習加速。時隔不足一年,2018年3月,比特大陸又推出其第二款TPU芯片BM1682,根據(jù)初步披露的資料顯示,BM1682是一塊專門用于圖像/視頻處理方向的人工智能芯片。
BM1682與BM1680使用了相同的深度學習算法的硬件加速模塊,但相比BM1680而言,BM1682具有更強大的深度學習算法執(zhí)行能力,此外BM1682還增加了視頻處理子模塊,以及適用于具體應用場景的諸多功能模塊。
下面我們對其兩者進行一個具體的對比評測:
頂層架構——BM1682定位更細分
從頂層架構可以看出,BM1680和BM1682均集成了深度學習算法所用到的核心模塊NPUs。NPU是比特大陸自行研發(fā)的深度學習算法硬件加速器,用于加速深度學習算法的執(zhí)行速度。
從頂層架構圖上可以看到,BM1680比BM1682額外集成了高度定制的BMDNN Chip Link Subsystem。該子模塊可以在高速SerDes上提供穩(wěn)定、靈活、低延遲的鏈路。用戶可以通過該鏈路將多個BM1680芯片連接成一個統(tǒng)一的整體,使其協(xié)同工作,大大提高系統(tǒng)的運算能力。BM1682并沒有集成此模塊,這大概是基于BM1682專一化的市場應用定位,以及處理速度足夠滿足用戶對圖像/視頻處理需求而考慮的。
從頂層架構圖上可以看到與BM1680相比,BM1682芯片的整體架構發(fā)生了不小的變化,其定位則更加細分明確。從右上角增加的Video Subsystem模塊可以明確看出,該款芯片定位于圖像/視頻處理方向。
模塊細節(jié)——BM1682設計更豐富
BM1682的深度學習加速的核心功能模塊與BM1680是相同的。兩款芯片均包含了深度學習的核心單元—硬件加速器NPU Subsystem。兩者的NPU Subsystem均各自集成了64個NPU單元,統(tǒng)一由NPU Schedule Engine進行調(diào)度(BM1682架構圖中未體現(xiàn)),最大化的提高了NPUs的效率,加快了深度學習算法inference (推演)與training (訓練)的速度。根據(jù)初步資料顯示,兩者在MCU的配置上是有些許差異的,但由于資料不全面,故無法評斷出兩者的MCU處理能力的差別。
除了深度學習算法硬件加速模塊(NPUs)、用于高速連接其余BM1680的Chip Link模塊之外,BM1680還提供了4個獨立的DDR4通道,最高支持16GB的DDR3 或 DDR4 DRAM拓展,用于高速數(shù)據(jù)緩存讀取,以提高系統(tǒng)的執(zhí)行速度。BM1680還加入了Global DMA模塊。DMA用于提供數(shù)據(jù)搬移功能,這可以在大塊數(shù)據(jù)進行讀寫搬移時不占用MCU的資源,如在DDR4 的RAM中搬移數(shù)據(jù)時。對于大數(shù)據(jù)量的深度學習系統(tǒng),DMA可以極大的提高效率。BM1680的Peripheral Subsystem 提供了UART、SPI、IIC與GPIO等接口,用于外接傳感器,或與外界進行通訊、記錄、控制等操作。這些接口都屬于通用接口,可見BM1680的定位就是通用深度學習芯片,在外設上沒有給與太多支持。
從架構圖看,BM1682明顯復雜了很多。其額外增加了AP (Application Processor) Subsystem和Video Subsystem(視頻處理系統(tǒng))。Video Subsystem(視頻子系統(tǒng))則主要專注于視頻預處理的相關任務。
BM1682的Video Subsystem提供了2個H.264視頻解碼器,1個H.265解碼器。H.264 /H.265均為視頻編碼方式,也是比較流行的視頻編碼的兩種方式。相對而言,H.265視頻編碼比H.264具有更高的壓縮比、更強的網(wǎng)絡糾錯適應能力,但考慮到現(xiàn)階段在安防、智能家居和互聯(lián)網(wǎng)視頻領域中仍然還是以H.264編碼的視頻和視頻設備為主,兩者2:1的譯碼器數(shù)量在視頻支持類型和解碼帶寬做了一個合適的權衡。比較貼心的是,BM1682提供了Video Post-Processing功能,該子模塊用于對采用H.264或H.265編碼的視頻進行渲染處理,這些渲染處理主要包括顏色空間轉換、視頻剪裁、縮放操作、仿射變換、多幀拼接等常規(guī)操作。經(jīng)過Video Post-Processing對外界進入的視頻數(shù)據(jù)進行硬件加速預處理后,Video Subsystem會將處理后數(shù)據(jù)通過總線傳輸給NPUs、DRAM、AP System或外接存儲設備,然后進行后續(xù)的深度學習處理等操作。
BM1682提供了豐富的外界交互接口,如高速接口PCIE、以太網(wǎng)、SDIO3.0、WIFI等。BM1682將數(shù)據(jù)處理完畢后可以很方便的通過PCIE接口、以太網(wǎng)接口、或者WIFI接口將數(shù)據(jù)傳輸?shù)娇偡掌鳌H羰菞l件限制沒有網(wǎng)絡接入點,用戶可以選擇通過接入SDIO3.0的eMMC存儲器或是PCIE式存儲器將數(shù)據(jù)存儲到本地存儲裝置。可見,BM1682對其可能的應用場景做了充分的考慮并給予了硬件支持,用戶可以根據(jù)需求,靈活方便的進行配置。
Peripheral Subsystem方面,BM1682比BM1680要豐富的多,這大大方便了用戶進行系統(tǒng)拓展,如添加額外傳感器等。BM1682的外設包括2個SPI接口、4個UART接口、4個IIC、4路PWM生成器、一塊內(nèi)嵌式SPI Flash、WDG、Timer、GPIO、PVT Sensor、Top Reg、Efuse、ROM。由給出的外設可以看到,BM1682的設計考慮了配置、存儲、對外界系統(tǒng)實時控制、以及加密保護等功能,極大提高了系統(tǒng)的靈活性、安全性,省卻了用戶額外添加相關功能的開發(fā)成本。
性能分析——BM1682極大提升
NPU深度學習硬件加速器是人工智能的核心。兩者NPUs模塊集成了64個NPUs單元,通過NPU Schedule Engine進行調(diào)度。BM1682中每個NPU含有32個EUs,BM1680未知。根據(jù)BM1680、BM1682數(shù)據(jù)手冊顯示,單片BM1680單精度運算速度為2TFLops;單片BM1682單精度運算速度為3TFLops。BM1682的單片運算速度高出BM1680 50%。
BM1680單片的運行速度低于BM1682,但BM1680支持級聯(lián)工作模式,數(shù)個BM1680可以通過高速的Chip Link Subsystem組成一個集群式的系統(tǒng),進行更高處理量的運算處理任務。BM1682不具備級聯(lián)功能。下圖為BM1680芯片的級聯(lián)連接示意圖。
級聯(lián)方式:每個Node代表一個BM1680
電學方面,根據(jù)兩者的數(shù)據(jù)手冊顯示:滿載工作時BM1680的TPD(Thermal Design Power熱設計功耗)為41W;:滿載工作時BM1682的TPD小于50W。從功耗角度分析,BM1680的2TFlops的NPUs速度應該是有所保留的。
開發(fā)生態(tài)——兩代芯片都很到位
BM1680、BM1682均支持的主流的CNN/RNN/DNN深度學習架構,通過這兩款TPU芯片進行硬件加速,可以極大的提高深度學習算法的執(zhí)行速度。當然,BM1680和BM1682也可以通過基礎的矩陣運算進行深度學習的模型、架構的搭建。
在開發(fā)生態(tài)方面,兩款芯片的支持也是很到位的。BM1680、BM1682均對后端用戶提供SDK;如果用戶需要進行深度優(yōu)化以獲取算法最優(yōu)性能,可以聯(lián)系廠家獲得相關教學支持。
應用領域——BM1682更專注圖像/視頻處理
由前述分析可知,BM1680為通用性人工智能芯片,其應用方向沒有偏向性,芯片內(nèi)部主要集成了深度學習算法所需要的基本模塊,應用各種人工智能的深度學習算法,通過添加相應的外圍電路模塊,BM1680可以搭建成適用于任一個領域的深度學習系統(tǒng)——像圖片識別、自然語言處理、文本處理、金融、醫(yī)學等等大小領域均可選擇該芯片實現(xiàn)。BM1680更加具有靈活性。而且,BM1680可以進行級聯(lián),所以對于需要處理巨大數(shù)據(jù)量的人工智能深度學習系統(tǒng),BM1680尤為合適。像企業(yè)級應用、海量數(shù)據(jù)處理等方面,通過簡單的級聯(lián)BM1680就可以獲取相匹配的計算能力,靈活而強大。
而BM1682則是一個升級版的BM1680并配備了專門用于視頻處理的集成系統(tǒng),整個BM1682芯片搭載了視頻處理所需要的全部核心模塊,以及對其具體應用場景適應性的輔助模塊。BM1682對于需要進行圖像/視頻處理的市場應用可謂是十分便捷了。BM1682的輔助功能配置模塊自帶有線與無線網(wǎng)絡功能,對于視頻監(jiān)控方向的市場應用十分方便,無線功能更是省略了網(wǎng)線布線的繁瑣施工,并且可用于實現(xiàn)遠程監(jiān)控。對于一些沒有網(wǎng)絡的場合,如科研領域的野外視頻收集處理、閉路視頻監(jiān)控等,BM1682可以輕松的添加外置存儲裝置進行數(shù)據(jù)備份收集。BM1682作為圖像/視頻方向深度學習的SoC片上系統(tǒng),市場前景很是廣闊,這款新品還是很值得期待的。
作者 | 中國科學院微電子研究所 劍白
-
AI芯片
+關注
關注
17文章
1906瀏覽量
35219 -
云天勵飛
+關注
關注
0文章
134瀏覽量
11337 -
比特大陸
+關注
關注
6文章
144瀏覽量
29935
發(fā)布評論請先 登錄
相關推薦
簡單認識第二代高通3D Sonic傳感器
比特大陸與Alps Blockchain達成合作
云天勵飛聯(lián)合發(fā)布AI智能眼鏡
云天勵飛首款AI眼鏡正式發(fā)布
簡單認識第二代高通Oryon CPU
AMD推出第二代Versal Premium系列
AMD第二代Versal自適應SoC的主要特色
云天勵飛加速推動大模型行業(yè)落地
聚辰基于第二代NORD工藝平臺推出業(yè)界最小尺寸高可靠NOR Flash系列芯片
AMD發(fā)布第二代Versal自適應SoC,AI嵌入式領域再提速
AMD推出第二代Versal器件,為AI驅動型嵌入式系統(tǒng)提供端到端加速
AMD 以全新第二代 Versal 系列器件擴展領先自適應 SoC 產(chǎn)品組合,為 AI 驅動型嵌入式系統(tǒng)提供端到端加速

廣西領導蒞臨云天勵飛調(diào)研

評論