





盡管春節(jié)假期已然過(guò)半,然則“來(lái)自東方的奧秘力量的 DeepSeek”仍在導(dǎo)致全世界熱榜,各路業(yè)內(nèi)人士亦仍在從區(qū)別方向分析 DeepSeek 的模型和技術(shù)文案。
北京時(shí)間1月31日,英偉達(dá)宣布DeepSeek-R1模型登陸NVIDIANIM。同一時(shí)段內(nèi),亞馬遜和微軟亦接入DeepSeek-R1模型。英偉達(dá)叫作,DeepSeek-R1是最先進(jìn)的大語(yǔ)言模型。
韓國(guó) Mirae Asset Securities Research 的一名分析師在 X 撰寫長(zhǎng)文分析叫作:“這一突破是經(jīng)過(guò)實(shí)施海量細(xì)粒度優(yōu)化和運(yùn)用英偉達(dá)的匯編式 PTX 編程,而非經(jīng)過(guò)英偉達(dá) CUDA 中的某些功能來(lái)實(shí)現(xiàn)的。”
(源自:X)
亦便是說(shuō) DeepSeek 在開(kāi)發(fā)大模型時(shí)繞過(guò)了 CUDA。CUDA(Compute Unified Device Architecture,統(tǒng)一計(jì)算架構(gòu)),是由于英偉達(dá)研發(fā)的一種通用編程框架,它準(zhǔn)許研發(fā)者利用英偉達(dá)的圖形處理器(GPU,Graphics Processing Unit)進(jìn)行通用計(jì)算。
倘若 DeepSeek 真的繞過(guò)了 CUDA,那樣這能說(shuō)明什么?
在 DeepSeek-V3 的技術(shù)博文中,DeepSeek 暗示其運(yùn)用了英偉達(dá)的 PTX(Parallel Thread Execution)語(yǔ)言。
假如 DeepSeek 的研發(fā)者能夠很好地運(yùn)用 PTX(Parallel Thread Execution)語(yǔ)言,那樣相比運(yùn)用 CUDA 供給的編程接口,肯定能夠更精細(xì)地掌控 GPU 之間傳輸數(shù)據(jù)、權(quán)重和梯度等。然則,運(yùn)用 PTX 寫出來(lái)的代碼非常繁雜,且很難守護(hù),因此呢需要專業(yè)度較高的研發(fā)者。
(源自:DeepSeek)
亦便是說(shuō),繞過(guò) CUDA 的做法擁有必定的技術(shù)難度,這需要研發(fā)者既要懂 AI 模型的算法,又要懂計(jì)算機(jī)系統(tǒng)架構(gòu)來(lái)有效分配硬件資源。倘若無(wú)同期把握這兩方面技能的研發(fā)者,那就要分別招聘懂這些技能的研發(fā)者,即需要協(xié)調(diào)好區(qū)別人員。
從 DeepSeek 的技術(shù)報(bào)告來(lái)看,其主體實(shí)現(xiàn)還是基于 CUDA 的關(guān)聯(lián)接口,其描述中亦闡述繞開(kāi)了 CUDA 來(lái)寫通信,那就寓意著它招聘了把握區(qū)別技能的人才,并能將這些人才很好地串了起來(lái)。
這亦說(shuō)明 DeepSeek 持有有些善于寫 PTX 語(yǔ)言的內(nèi)部研發(fā)者。那樣,假如它之后運(yùn)用國(guó)產(chǎn) GPU,其在硬件適配方面將會(huì)更得心應(yīng)手,其只要認(rèn)識(shí)這些硬件驅(qū)動(dòng)供給的有些基本函數(shù)接口,就能夠仿照英偉達(dá) GPU 硬件的編程接口去寫關(guān)聯(lián)的代碼,從而讓自家大模型更加容易適配國(guó)產(chǎn)硬件。
與此同期,從 DeepSeek 的技術(shù)報(bào)告來(lái)看,其技術(shù)從學(xué)術(shù)科研方向并無(wú)勝出一籌,然則在工程上面的確非常有技巧。思慮到 AMD 已然宣布集成DeepSeek-V3到 MI300X GPU,因此呢將來(lái)不排除會(huì)有更加多 GPU 廠商牽手 DeepSeek。
同期,亦正如以上韓國(guó)分析師在同一篇 X 文案中所說(shuō)的:“這凸顯了DeepSeek非凡的工程水平,并顯示美國(guó)對(duì)華制裁加劇的“GPU 短缺危險(xiǎn)“激發(fā)了她們緊迫感和創(chuàng)造力。“
▌源自:大象資訊、深科技
▌編輯:趙珊珊 校對(duì):湯琪返回外鏈論壇: http://www.fok120.com,查看更加多