服務(wù)器的cpU、gpU、tpU,到底誰的運算能力更高
【文章聲明】本文收集整理于互聯(lián)網(wǎng),僅作參考!如需咨詢“服務(wù)器的cpU、gpU、tpU,到底誰的運算能力更高”等有關(guān)服務(wù)器、云主機租用、托管、配置、價格問題,請隨時咨詢YINGSOO客服,獲取專業(yè)解答!
【主機選配】印度尼西亞云服務(wù)器特價 | 荷蘭物理服務(wù)器特價 | 臺灣物理服務(wù)器特價
【精選文章】臺灣服務(wù)器怎么樣?
我們知道,任何一臺計算機,也包括智能手機,游戲機等有計算能力的設(shè)備,都有一個計算的核心芯片,叫做cpU(central processing Unit),即中央處理器,它負責所有的計算,并且控制計算機的全部工作。
cpU的性能從上個世紀60年代中期開始,幾乎按照每18個月翻一番的速度在進步,從1965年至今,差不多翻了34次了,也就是說計算速度提高了160億倍。如果再把這個進步分解一下,又可以分成兩個維度,一個是主頻的提高,另一個是集成電路芯片密度(稱為集成度)的提高。
主頻提高后,本來一秒鐘算10萬個周期,現(xiàn)在可以算30億個,增加了幾萬倍。密度提高后,本來幾個周期完成一次計算任務(wù),現(xiàn)在可以流水作業(yè)、分工合作,一個周期完成好幾次計算。兩者的加速是疊加的,使得今天計算機的速度變得飛快。
但是,cpU的主頻不可能無限制提高,因為光速是一個絕對的瓶頸,今天計算機cpU內(nèi)部,電子運動的速度已經(jīng)接近光速所給的極限了,幾乎沒有了再提高的可能性,事實上從10年前開始,這條路就走不通了。
那么怎么辦呢?英特爾公司的辦法是,將計算機cpU的集成度進一步提高,最早一個集成電路中只有幾千個晶體管,今天最多的有60億個,這樣計算可以并行開展,這也是為什么我們計算機和手機cpU有什么四核、八核之說。
那么接下來,為什么不能做成16核、32核甚至100核呢?因為以今天的工藝,做到那么多核處理器的體積要大得不得了,光是散熱問題就沒法解決。面對這個問題怎么辦呢?英特爾總的態(tài)度是,沒法解決,你們多買我一些處理器,多建造一些服務(wù)器,再把計算中心修得大一點就好了。且不說這個法子靈不靈,在很多場合也沒有條件這么做,比如在無人駕駛汽車中,總不能扛著一個機柜上路吧。
我們知道,有主動性的人,總是想方設(shè)法尋找更好的解決方法。英偉達的創(chuàng)始人黃仁勛就是這樣的人。黃仁勛和他在英偉達的同事就想,cpU的計算速度之所以不夠快,是因為它被設(shè)計成能夠適應(yīng)所有的計算了,里面很多晶體管都用來搭建控制電路了。
另外,因為計算太復(fù)雜,因此處理器本身設(shè)計得太復(fù)雜。而在計算機里面,有一種計算相對單一,就是控制顯示器的圖形計算,于是英偉達就為這一類計算專門設(shè)計了一種處理器,叫做gpU,即圖形處理器。
當然,在英偉達之前,做圖形工作站的太陽公司和sgi公司也設(shè)計出類似的產(chǎn)品,但是不通用。gpU比cpU的好處有兩個:
第一,控制電路簡單了,因此更多的晶體管用于了計算,而不是控制,這樣本來10億個晶體管可以搭建四個內(nèi)核,還有希望搭建八個、十六個甚至更多。
第二,將單個兒單個兒的計算,變成一批一批的計算。在現(xiàn)實生活中,大部分的計算每次都是在兩個數(shù)之間進行的,比如A+b=c,它是一個運算指令(“+”)帶上兩個數(shù)字(“A”和“b”),下一次做X-Y,是另一個運算指令(“-”)帶上另外兩個數(shù)字(“X”和“Y”)。因此計算機處理器實際上是按照一個指令通道(流)對應(yīng)一個數(shù)據(jù)通道設(shè)計的(被稱為sisd)。打個不很恰當?shù)谋确剑话愕挠嬎憔腿缤愣自诘厣弦粋€個地撿豆子。
而圖形計算是整個一條線(在計算機科學里被稱為向量)按照同一種操作一口氣算完,比如A1+b1=c1,A2+b2=c2,……,最后A1000+b1000=c1000,對于這些計算來講,指令都是一樣的,只是使用不同的數(shù)據(jù)而已,因此它可以設(shè)計出非常多的功能簡單的計算核心,然后對一條指令開發(fā)很多數(shù)據(jù)通道(即所謂的simd)即可。
這就相當于用一個吸塵器在地上吸豆子,你走過一條線,就吸起一大堆,效率就高多了。對此,英偉達提出一種所謂的“統(tǒng)一計算架構(gòu)”(cUdA)的概念,就是很多很多核都做同一件事情,并且在此基礎(chǔ)上設(shè)計出圖形處理器gpU。
有了gpU,很多重復(fù)一致的計算就可以并行了。gpU最早是針對圖形計算設(shè)計的,但是后來英偉達發(fā)現(xiàn)機器學習的算法也可以用這種方式實現(xiàn),于是到了2016年,英偉達又針對機器學習的特點,設(shè)計了針對機器學習的gpU,它最新的p40處理器內(nèi)部有多達3000個所謂“統(tǒng)一計算架構(gòu)”的內(nèi)核。
雖然每一個能力都比不上英特爾四核處理器中的一個內(nèi)核,但是p40等gpU的內(nèi)核數(shù)量非常多,因此做人工智能計算就非??臁=裉焯厮估愕妮o助駕駛,一片這樣的處理器就能解決所有的問題。在去年對陣李世石的Alphago中,就是用了176個英偉達的gpU,承擔了主要的計算功能。
但是畢竟機器學習中的向量計算和通用的向量計算還是有所不同,能否讓計算的內(nèi)核功能再專一一點,只做和一種非常特定的機器學習算法(即google的人工神經(jīng)網(wǎng)絡(luò)算法)相關(guān)的向量計算呢?
于是,google提出了一種張量(tensor)計算的概念。所謂張量,它原本是一個數(shù)學概念,表示各種向量或者數(shù)值之間的關(guān)系。比如你的兩張照片是兩個不同的向量,它們之間的一些相似性就是一個張量。人工神經(jīng)網(wǎng)絡(luò)的算法可以看成是張量的計算,至于為什么,大家不必細究,記住這個結(jié)論就可以了。
接下來,google就在英偉達等公司gpU的基礎(chǔ)上,進一步讓計算變得專注,設(shè)計了一種僅僅針對特定張量計算的處理器,叫做tpU,其中t就代表張量(tensor)。google宣稱,一個tpU對Alphago這樣的任務(wù),效率抵得上15-30個英偉達的gpU,這也就是為什么這一次google講新版的Alphago在硬件上瘦身了的原因。
去年戰(zhàn)勝李世石的Alphago的耗電量是人腦的300倍,如今的Alphago用的機器少了很多,至少少了一個數(shù)量級,也就是說耗電量從人腦的300倍下降到30倍以下,這個進步速度還是很驚人的。
當然,英偉達表示不服氣,說你google是在拿蘋果和橘子比,而用我的測試處理器性能的程序來評測,我的p40可比你的tpU快多了。其實tpU和gpU誰更好,完全要看做什么事情了。
從cpU到gpU,再到tpU,效率提升的根本原因在于兩個字——專注,相比之下,我們手機和電腦的cpU是非常“不專注”的。
在社會生活中,情況和計算機處理器其實很相似。工業(yè)革命開始后,英國工廠主把分工做得特別細,于是效率大增。亞當·斯密在《國富論》中講,即使是制作縫衣服針這件事,當分工很細致后,一個工人一天能生產(chǎn)上千根,如果一個工人做所有的工序,一天恐怕連10根都做不了。因此,英國工業(yè)革命后,就把整個歐洲的加工業(yè)碾壓了。這其實就好比tpU和cpU的關(guān)系。
但是,tpU的使用有一個前提,就是這種芯片的市場至少要有上百萬片,否則就不值得做,因為它做一個樣片的成本就得上百萬美元,而設(shè)計成本則是上千萬。如果市場需求量只有幾萬片,還不如用很多cpU來工作呢。這就如同制作縫衣服針,一年僅歐洲恐怕要用到上億根,才值得做社會分工。如果只用三五十根,還不如讓幾個工人慢慢磨呢!因此,分工和專注的前提都是市場規(guī)模足夠大。
最后講一下人的技能,什么時候需要專而精,什么時候需要廣博,其實沒有一定之規(guī),但是一個很好的判斷標準就是市場是否大到需要非常專而精。
優(yōu)惠產(chǎn)品:美國云主機去首頁享優(yōu)惠!YINGSOO最新推出Swarm物理節(jié)點服務(wù)器、Swarm母雞服務(wù)器、Swarm Bzz挖礦教程【圖文教程】、Swarm Bzz挖礦教程【視頻教程】,《swarm bzz挖礦資料大全》,Swarm Bee節(jié)點租用請咨詢YINGSOO客服!
版權(quán)聲明:本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學習參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。