芯片可能成為我們追趕ChatGPT的最大瓶頸
作者|劉正
Simon Kucher 戰(zhàn)略咨詢顧問
ChatGPT一聲驚雷,平靜的搜索江湖瞬間風(fēng)暴驟起。微軟高調(diào)上線ChatGPT版Bing搜索引擎,逼得Google倉(cāng)促應(yīng)戰(zhàn),推出基于LaMDA 模型的同款聊天機(jī)器人,結(jié)果Bard變bug,反而把自家股價(jià)打掉了2000億美元。
與此同時(shí),百度也宣布自研的“文心一言”正在加速內(nèi)測(cè),預(yù)計(jì)三月底問世。
蟄伏已久的科技巨頭們同時(shí)變得緊張,除了ChatGPT在公眾中掀起的熱潮,也因?yàn)樗麄冾A(yù)感到ChatGPT所代表的LLM(大語言模型)應(yīng)用很可能是一種“元技術(shù)”。
“元技術(shù)”指的是該技術(shù)的持續(xù)運(yùn)用可以反過來加速技術(shù)本身的進(jìn)步。 例如:芯片在現(xiàn)實(shí)世界中的應(yīng)用能從開發(fā)效率,應(yīng)用場(chǎng)景和資金投入上反哺研發(fā),從而加速芯片本身的進(jìn)步;“元技術(shù)”的發(fā)展符合指數(shù)增長(zhǎng)的規(guī)律,因此能夠克服研發(fā)管理中常見的復(fù)雜度爆炸,逃離“中等進(jìn)步陷阱”的引力束縛。
也正是由于“元技術(shù)”的屬性,芯片的研發(fā)才能夠不斷實(shí)現(xiàn)突破,追上摩爾定律的要求,相比而言生物技術(shù)等非“元技術(shù)”,則在摘光低垂的果實(shí)后搭不出技術(shù)升級(jí)的墊腳石,從而深陷Eroom’s Law(反摩爾定律)的泥潭。
正如大家體驗(yàn)到的,使用ChatGPT可以極大解放工作效率,這也包括Open AI自己的研發(fā)人員。億級(jí)用戶對(duì)ChatGPT的花式提問和反復(fù)測(cè)試出的“prompt黑魔法”,也為后續(xù)版本的迭代迅速積攢了海量素材。
除此以外,LLM單次訓(xùn)練的巨大成本和對(duì)算力資源的占據(jù),也構(gòu)成了對(duì)新玩家殘酷的進(jìn)入壁壘。
隨著競(jìng)爭(zhēng)的加劇,無論是資金還是算力都會(huì)理性的向技術(shù)領(lǐng)先者集中,從而自我實(shí)現(xiàn)“強(qiáng)者愈強(qiáng)”的馬太定律。
至此,ChatGPT的“元技術(shù)”飛輪,隱隱已形成閉環(huán)。所以,如果沒有在“技術(shù)奇點(diǎn)”前及時(shí)上車,已有科技巨頭和OpenAI在AI應(yīng)用上差距將不可逆的拉大,最終陷入萬劫不復(fù)的螺旋衰落;而那些小型AI創(chuàng)業(yè)團(tuán)隊(duì),面對(duì)模型代差和資源無法彌補(bǔ)的差距,滅頂之災(zāi)已然到來。
而在更高的層面上,作為“元技術(shù)”的ChatGPT可能對(duì)中國(guó)的未來具有核彈級(jí)的震蕩性。
過去十年中國(guó)科技產(chǎn)業(yè)的進(jìn)展,靠的是“fast follow”和工程化上充滿暴力美學(xué)的 “飽和式執(zhí)行”。而這背后所依托的,則是國(guó)內(nèi)教育體制帶來的“工程師福利”。
雖然培養(yǎng)不出S級(jí)的創(chuàng)新人才,但產(chǎn)出的B級(jí)標(biāo)品量大管飽:穩(wěn)定、勤奮、執(zhí)行力強(qiáng)、而且還相當(dāng)便宜,可以迅速填平從源頭創(chuàng)新到應(yīng)用落地的時(shí)間差距,直接把海外的原創(chuàng)者給卷沒了。
但ChatGPT作為史上最優(yōu)秀的復(fù)讀機(jī),恰好和“中國(guó)機(jī)器人”的功能重合了。
你會(huì)的我也會(huì),你不懂的我還懂,你能996,但我能365天007,你行嗎?更何況ChatGPT還不是人,無負(fù)面情緒之亂耳,無柴米油鹽之勞形,不會(huì)辭職,絕不躺平。
熟練運(yùn)用ChatGPT相當(dāng)于雇了一個(gè)隨叫隨到,皮實(shí)耐造,擁有各知識(shí)領(lǐng)域基礎(chǔ)技能的助理團(tuán)隊(duì)。
對(duì)眼高過頂?shù)腟級(jí)創(chuàng)新者而言, ChatGPT為其想法的prototype落地提供了全天候的助力;對(duì)集聚S級(jí)人才的創(chuàng)新企業(yè)而言,ChatGPT則意味著執(zhí)行落地不再成為主要的發(fā)展瓶頸。而人員規(guī)模的瘦身和智力濃度的提升,還能進(jìn)一步減少內(nèi)部信息傳導(dǎo)的損耗,如只有四百人的Open AI那樣敏捷高效。
在這種情況下,使用開源框架fast follow的大廠策略還能產(chǎn)生規(guī)模效應(yīng)嗎?即便還能壓縮出成本優(yōu)勢(shì),也會(huì)在時(shí)間效率上遭遇降維打擊。國(guó)內(nèi)有人常常嘲笑美國(guó)大學(xué)在產(chǎn)出少量S級(jí)和A級(jí)精英的同時(shí),卻制造了一堆垃圾,以至于要從中印長(zhǎng)期進(jìn)口B級(jí)好員工;現(xiàn)在可能要笑不出來了。
過去擅長(zhǎng)的騎射武功突然過時(shí)了,而機(jī)關(guān)槍對(duì)射的世界里沒有你的位置。因此,如果BAT沒有搶到此輪ChatGPT的船票,科技產(chǎn)業(yè)將錯(cuò)失這一致命的“奇點(diǎn)時(shí)刻”。遺憾的是,國(guó)內(nèi)眾多玩家不但在模型上被拉開身位,在算力和數(shù)據(jù)上也即將甚至已經(jīng)面臨極大的限制。
LLM對(duì)算力的吞噬是貪婪的,GPT-3 的1750億參數(shù)(45.3T)模型單次訓(xùn)練需要1024張NVIDA A100 GPU訓(xùn)練34天。但是,目前A100這個(gè)級(jí)別的芯片是禁運(yùn)的。接下來,GPT-4需要的算力可能會(huì)繼續(xù)增加兩個(gè)數(shù)量級(jí),我們那時(shí)候用什么芯片來追趕呢?畢竟現(xiàn)在連45nm制程的光刻機(jī)都要被禁運(yùn)了。
芯片禁運(yùn)對(duì)國(guó)內(nèi)AI技術(shù)的壓制堪稱智子鎖死。
有人說這沒關(guān)系,可以通過疊加成熟制程的芯片以量換質(zhì),或是慢點(diǎn)訓(xùn)練最終也能達(dá)到同等技術(shù)水平。芯片禁運(yùn),本來就不是為了一錘子打死你,而是通過增加中國(guó)科技企業(yè)的算力成本,讓任何AI應(yīng)用的落地在財(cái)務(wù)上不可行(甚至在熱力學(xué)上都不可行),搞得你只能在利潤(rùn)失血和被迫繳械之間二選一,無法進(jìn)入良性業(yè)務(wù)循環(huán)。
只要持續(xù)禁運(yùn),拖慢對(duì)手的進(jìn)程,在過了“奇點(diǎn)時(shí)刻”后,“元技術(shù)”的代差可能就無法收斂了。如果新一輪LLM輸出的成果反哺到芯片研發(fā)的流程,那么這種速度差距將會(huì)進(jìn)一步拉開。
而在數(shù)據(jù)來源上,微軟和Google依托的是超主權(quán)的全球互聯(lián)網(wǎng)文本。以GPT-3為例,數(shù)據(jù)主要來自Common Crawl,共31億個(gè)頁面,覆蓋了2016-2021年間的互聯(lián)網(wǎng)文本數(shù)據(jù),并用WebText2作為高質(zhì)量文檔類對(duì)原始數(shù)據(jù)進(jìn)行了質(zhì)量過濾;此外還導(dǎo)入2個(gè)圖書庫和Wikipedia進(jìn)行了額外補(bǔ)充。
BAT所依托的中文互聯(lián)網(wǎng),在量級(jí)上不夠(Common Crawl里中文數(shù)據(jù)不到5%),而且數(shù)據(jù)生態(tài)也不夠好。
大部分中文頁面的信息可信度還不如百度貼吧,極少的高質(zhì)量數(shù)據(jù)則被圈在各個(gè)廠家私域的“圍墻花園”中,而且有相當(dāng)多的鏈接打開后是404。至于用結(jié)構(gòu)化數(shù)據(jù)庫進(jìn)行補(bǔ)充,你指的是知網(wǎng)和百度百科這對(duì)哼哈二將嗎?
以這種質(zhì)量和結(jié)構(gòu)性缺失的數(shù)據(jù)集進(jìn)行訓(xùn)練,結(jié)果很可能是garbage in garbage out的廢話生成器,就比如百度匆匆下線的Plato杠精機(jī)器人。
而在當(dāng)前的數(shù)據(jù)主權(quán)和信息安全規(guī)范下,利用海外數(shù)據(jù)“西數(shù)東算”再翻譯回中文也困難重重。更深一層思考,又如何剔除“進(jìn)口模型”中內(nèi)隱的意識(shí)形態(tài)植入?“根據(jù)相關(guān)法律,本答案不予顯示”?精明如微軟,一開始就封掉了中國(guó)IP使用ChatGPT版Bing搜索引擎的權(quán)限,割以永治。
致命的奇點(diǎn)時(shí)刻,正在敲響警鐘。
免責(zé)聲明:
該文章僅代表作者個(gè)人觀點(diǎn),該文章來源于網(wǎng)絡(luò),與本站無關(guān)。該文章內(nèi)容的完整性,及時(shí)性及真實(shí)性,本站不作任何保證或承諾,僅供讀者參考閱讀。