AI Inference晶元 ? 血戰開始

AI Inference晶元 ? 血戰開始

來自專欄片上神經網路29 人贊了文章

最近集中有一些關於AI Inference晶元的消息:其中,Nvidia推出Tesla? T4 GPU和TensorRT 5;Apple晶元發布中展示的A12 Neural Engine可以說是標誌性事件。AI inference從雲端到終端都真正進入專用硬體加速的時代,也標誌著這個領域的競爭跨入了新的階段。


我們先看看Apple的A12。從蘋果的發布會來看,晶元越來越受到重視,本來晶元離消費者是比較遠的,基本是費力不討好的事情,但在目前其它亮點比較少的情況下,突出晶元技術倒也有高大上的感覺。除了發布會,Apple的網站上也有A12的專題,介紹了晶元中Apple-design的主要部分,CPU,GPU,Neural Engine和ISP。從文字的描述上,對Neural Engine的介紹比較多,一些關鍵信息是:

  • 8-core architecture
  • 5 trillion operations per second
  • Core ML runs Up to 9x faster than A11 Bionic

比較有趣的是給出了一個晶元模塊劃分的示意圖。假設這個示意圖比較準確的反映了各個模塊在晶元上的面積的比例,則Neural Engine所佔的比重確實不低了。另一個比較有趣的是擺放位置,Neural Engine和ISP位置最近,這也許有利於數據流的優化。

Source: Apple.com

當然,這些更多是我們吃瓜群眾的猜測。相比技術細節,更重要的是Apple這次大幅提升了Neural Engine的處理能力,提升的力度甚至超過了華為的麒麟980(從970的2,005到4,500 images per minute),真是下了大本錢。按Apple的風格,技術上絕對是以實用和用戶體驗為主,因此Apple肯定從第一代Neural Engine的使用嘗到了甜頭,或者是感到了更多的競爭壓力。考慮到Apple的示範作用,在端設備上增加專用的AI Inference硬體應該已經沒有什麼爭議了,只是加多少,如何加更有效的問題。


由於端設備的多樣性,目前已經有多個戰場和大量玩家。除了手機終端外,其它領域還不明朗。而在雲端和數據中心,目前還是Nvidia一家獨大。Nvidia這次發布的產品全稱是「NVIDIA TensorRT? Hyperscale Inference Platform」,主要包括下面三大部分:

NVIDIA Tesla T4 GPU – Featuring 320 Turing Tensor Cores and 2,560 CUDA? cores, this new GPU provides breakthrough performance with flexible, multi-precision capabilities, from FP32 to FP16 to INT8, as well as INT4. Packaged in an energy-efficient, 75-watt, small PCIe form factor that easily fits into most servers, it offers 65 teraflops of peak performance for FP16, 130 TOPS for INT8 and 260 TOPS for INT4.

NVIDIA TensorRT 5 – An inference optimizer and runtime engine, NVIDIA TensorRT 5 supports Turing Tensor Cores and expands the set of neural network optimizations for multi-precision workloads.

NVIDIA TensorRT inference server – This containerized microservice software enables applications to use AI models in data center production. Freely available from the NVIDIA GPU Cloud container registry, it maximizes data center throughput and GPU utilization, supports all popular AI models and frameworks, and integrates with Kubernetes and Docker.

T4的硬體主要是基於Nvidia剛發布的Turing架構,之前已經有很多文章介紹。其基本性能指標如下:

Source:Nvdia.com

Turing架構對inference做了特別的優化,比如新的Tensor Cores能夠支持4bit精度等等。但嚴格來說,整個晶元還是包括了用於其它目的邏輯,還不能算是專門為AI Inference定製。即便如此,T4對inference的效率還是大大超過目前在inference中廣泛使用的P4(這個是大家之前主要的對標對象)。如果看int8的能耗比,T4也已經接近2T/W的水平。因此,Datacenter級別inference平台的參考基線一下子提高了很多,會給目前做inference晶元的廠商比較大的壓力。

從另一個角度來看,這個平台的名稱也可以反映TensorRT工具鏈的重要性。而這次隨著TensorRT的升級,以及「NVIDIA TensorRT inference server」的推出,TensorRT的性能和易用性又有很大提升。Nvidia在軟體工具上的投入也是不遺餘力,這方面給其它廠商的壓力更大。TensorRT是個比較大的話題,有機會再專門討論。


說到競爭,這兩天nextplatform上的一篇文章」 FACEBOOK SOUNDS OPENING BELL FOR AI INFERENCE HARDWARE MAKERS」,討論了Facebook在AI inference上的布局,特別是他們的Glow Compiler。如文章所說:

「Hardware accelerators are specialized to solve the task of machine learning execution. They typically contain a large number of execution units, on-chip memory banks, and application-specific circuits that make the execution of ML workloads very efficient. To execute machine learning programs on specialized hardware, compilers are used to orchestrate the different parts and make them work together. Machine learning frameworks such as PyTorch rely on compilers to enable the efficient use of acceleration hardware.」

Source: nextplatform.com

Facebook組建團隊做晶元已經不算新聞了,這次重點提到的Glow Compiler也是他們建立生態的重要一環。未來,PyTorch/Glow的組合有可能成為Google Tensorflow/XLA最有力的競爭對手。

另一個比較有趣的情況是,Nvidia inference平台的新聞稿在合作廠商部分,首先提到了和微軟以及Google的合作。比如來自Goolge的信息如下:

Chris Kleban, product manager at Google Cloud, said: 「AI is becoming increasingly pervasive, and inference is a critical capability customers need to successfully deploy their AI models, so we』re excited to support NVIDIA』s Turing Tesla T4 GPUs on Google Cloud Platform soon.」

Source:Nvdia.com

相比新聞稿中後面提到的廠商, 「Additional companies, including all major server manufacturers, voicing support for the NVIDIA TensorRT Hyperscale Platform」,比如Cisco,Dell EMC, Fujitsu,HPE,IBM等等, Google和微軟自己的雲端inference方案都很有競爭力。Nvidia這麼安排也許是有意為之,強調和這些公司仍然有很好的合作關係。美國的Bigfive和中國的BAT們未來可能會採取類似的態度,晶元自研自用,同時也還會在雲端部署Nvidia晶元或其它廠商的產品。


最後,去年底我寫了一篇綜述文章「2017 ? AI晶元元年」,其中提出了一些18年的看點。現在18年已經過去3/4,回頭看了一下還挺有意思。有些問題已經有了答案,有些估計謎底很快會揭曉,大家不妨也翻來看看。Enjoy!

- END-

歡迎關注我的微信公眾號:StarryHeavensAbove

題圖來自網路,版權歸原作者所有

本文為個人興趣之作,僅代表本人觀點,與就職單位無關


推薦閱讀:

高通,MTK,展訊,海思智能手機平台最新幾款64位LTE手機處理器對比一覽表
未逢其時的英特爾CEO歐德寧(一)
英特爾AI和2500個處理器將栩栩如生的巨齒鯊搬上銀幕
【超GPU 100倍】IBM新型AI晶元發Nature,英特爾、微軟出大招
【裝機幫扶站】第211期: 自己組裝也可以比整機更便宜

TAG:晶元集成電路 | AI晶元 | 處理器 |