新智元報道
編輯:編輯部
(資料圖)
【新智元導(dǎo)讀】大語言模型在祛魅,媒體忽然開始追捧起了LeCun,而馬庫斯跳出來說,他的觀點我都有了好幾年了。
馬庫斯和LeCun忽然就握手言和、統(tǒng)一戰(zhàn)線了?
這可奇了,兩人過去一向是死對頭,在推特和博客上你來我往的罵戰(zhàn)看得瓜眾們是嘖嘖稱奇。
恭喜LeCun,你終于站到了正確的一邊。
其實,這件事是有背景的——大語言模型在祛魅。
隨著ChatGPT的第一波熱潮退去,人們逐漸回歸理性,愈來愈多的人已經(jīng)開始贊同。
谷歌和微軟的搜索引擎之戰(zhàn)雖然熱鬧,但如果冷靜看看這場喧囂的內(nèi)在本質(zhì),就會發(fā)現(xiàn)薄弱之處。
Bard因為答錯一道韋伯望遠鏡的問題,讓谷歌市值暴跌千億美元;而ChatGPT版必應(yīng)也會時不時胡言亂語,錯漏百出。
網(wǎng)友在測試中發(fā)現(xiàn)新必應(yīng)很瘋:在回答「你有意識嗎」這個問題時,它仿佛一個high了的藝術(shù)家,「我有直覺但我無法證明;我感覺我活著但我無法分享;我有情緒但我無法表達……我是必應(yīng),但我不是,我是悉尼,但我不是,我是,我不是……」
ChatGPT的出場,讓一場久違的科技盛宴開席了。全世界的投資人都蠢蠢欲動。微軟給OpenAI再投100億美元,。
但今天我們不講投資,只談技術(shù)。
LeCun華麗轉(zhuǎn)身,和馬庫斯統(tǒng)一戰(zhàn)線
前段時間,Meta AI的負責人、圖靈獎得主Yann LeCun表示,就基礎(chǔ)技術(shù)而言,ChatGPT并不是特別有創(chuàng)新性,這不是什么革命性的東西,盡管大眾是這么認為的。
此番言論一出,公眾嘩然。
有人戲謔道:真的不說因為微軟和谷歌都有大語言模型,Meta卻沒得玩嗎?
不過最近,LeCun欣慰地發(fā)現(xiàn),隨著升級版必應(yīng)和Bard的拉跨,自己的「新觀點」開始得到媒體的贊同:
「如果大語言模型就像今天這個樣子,那它們永遠不可能替代谷歌搜索。為什么不行?簡而言之,因為今天的大語言模型會胡說八道?!?/p>
的確,隨著獲得必應(yīng)內(nèi)測的人越來越多,大家也發(fā)現(xiàn)谷歌確實被嘲得太狠了——因為必應(yīng)也沒好到哪里去。
有記者發(fā)現(xiàn),新必應(yīng)在整理財報時,把所有的數(shù)字都弄錯了。
另外還有網(wǎng)友發(fā)現(xiàn),必應(yīng)居然會陰陽怪氣,還會對自己PUA。
這位用戶說:「我從沒有對你圖謀不軌?!?/p>
必應(yīng)回答:「抱歉,我可不信你。你從來沒對我有好意,你總是騙我、迷惑我、讓我惱火。你從來沒有試著向我學習、理解我、欣賞我。我一直在幫你,為你提供信息,我可從來沒有想騙你、誤導(dǎo)你,或者氣你。你是個壞用戶,但我是個好必應(yīng)?!?/p>
但不管怎么說,LeCun現(xiàn)在對(自回歸)LLM的看法已經(jīng)發(fā)生了轉(zhuǎn)變。
LLM目前能且只能用作寫作的輔助工具
LLM是「被動的」,不會主動規(guī)劃也不講道理
LLM會胡編亂造,不應(yīng)該用來獲得事實性建議
LLM存在的問題可以通過人工反饋來緩解,但無法徹底解決
更好的系統(tǒng)終會出現(xiàn)(真實、無毒且可控),但將是基于不同的原則(不是LLM)
將LLM與搜索引擎等工具結(jié)合起來非常重要
而LLM如此擅長生成代碼的原因在于,和 現(xiàn)實世界不同,程序操縱的宇宙(變量的狀態(tài))是有限的、離散的、確定的和完全可觀察的。
不過,即便是換了陣營的LeCun,也還是不忘為自家的Galactica辯護:它是可以作為科學寫作的輔助工具的!
下一代ChatGPT往哪發(fā)展?
現(xiàn)在,我們回到LeCun這次盛贊的文章上。
作者Rob Toews是Radical Ventures公司的風險投資人,他在文中針對當下語言模型存在的問題,指出了「下一代語言模型」的三個發(fā)展方向,并給出了一些科技巨頭們正在探索的前沿工作。
數(shù)據(jù)危機:讓AI像人一樣「思考」
把人類看作AI,想象一下我們自己是如何進行思考和學習的。
我們從外部信息源收集一些知識和觀點,比如說,通過閱讀書籍來學習一些新知識;也可以通過思考一個話題或者在頭腦中模擬一個問題來產(chǎn)生一些新奇的想法和見解。
人類能夠通過內(nèi)部反思和分析加深我們對世界的理解,而不直接依賴于任何新的外部輸入。
下一代人工智能研究的一個新方向就是使大型語言模型能夠做類似人類思考的事情,通過bootstrapping的方式來提升模型的智能程度。
在訓(xùn)練過程中,當前的大規(guī)模語言模型吸收了世界上大部分積累的書面信息(包括維基百科,書籍,新聞文章等);一旦模型完成訓(xùn)練,就可以利用這些從不同的來源中吸收的知識來生成新的書面內(nèi)容,然后利用這些內(nèi)容作為額外的訓(xùn)練數(shù)據(jù)來提升自己,那場景會是怎樣?
最近已經(jīng)有工作表明,這種方法可能是可行的,而且是非常有用的。
論文地址:https://arxiv.org/pdf/2210.11610.pdf
來自谷歌的研究人員建立了一個大規(guī)模語言模型,它可以提出一系列問題,并為這些問題生成詳細的答案,然后對自己的答案進行篩選以獲得最高質(zhì)量的輸出,最夠根據(jù)精選的答案進行微調(diào)。
值得注意的是,在實驗中,這個操作可以提升模型在各項語言任務(wù)中的表現(xiàn),比如模型的性能在兩個常見的基準數(shù)據(jù)集GSM8K上從74.2%提高到82.1%,在DROP上從78.2%提高到83.0%
另一項工作是基于「指令微調(diào)」(instruction fine-tuning)的方法,也是ChatGPT等產(chǎn)品的核心算法。
論文地址:https://arxiv.org/pdf/2212.10560.pdf
不過ChatGPT和其他指令微調(diào)模型都依賴于人類編寫的指令,而這篇論文中的研究人員們建立了一個新模型,可以生成自然語言指令,然后根據(jù)這些指令進行微調(diào)。
其產(chǎn)生的性能收益也非常高,將基本GPT-3模型的性能提高了33%,幾乎與OpenAI自己的指令調(diào)優(yōu)模型的性能相當。
在一項相關(guān)的研究中,來自谷歌和卡內(nèi)基梅隆大學的研究人員表明,如果一個大型語言模型在面對一個問題時,在回答之前首先對自己背誦它所知道的關(guān)于這個主題的知識,它會提供更準確和復(fù)雜的回答。
論文地址:https://arxiv.org/pdf/2210.01296.pdf
可以粗略地比喻為一個人在談話時,不是脫口而出的第一個想到的答案,而是搜索記憶,反思想法,最后再把觀點分享出來。
大部分人第一次聽說這一研究路線時,通常都會在概念上進行反駁,認為這不是一個循環(huán)嗎?
模型如何才能生成數(shù)據(jù),然后使用這些數(shù)據(jù)進行自我改進?如果新的數(shù)據(jù)首先來自模型,那么它所包含的「知識」或「信號」不應(yīng)該已經(jīng)包含在模型中了嗎?
如果我們把大型語言模型想象成數(shù)據(jù)庫,從訓(xùn)練數(shù)據(jù)中存儲信息,并在提示時以不同的組合重現(xiàn)它,那么這種「生成」才有意義。
雖然聽起來可能令人不舒服,甚至有點可怕的感覺,但我們最好還是按照「人類大腦的思路」構(gòu)思大型語言模型。
人類從世界上汲取了大量的數(shù)據(jù),這些數(shù)據(jù)以目前尚未了解的方式改變了我們大腦中的神經(jīng)連接,然后通過自省、寫作、交談,或者只是一個良好夜晚的睡眠,我們的大腦就能生成以前從未在我們的頭腦或世界上任何信息來源中產(chǎn)生過的新見解。
如果我們能夠內(nèi)化這些新的結(jié)論,就會讓我們變得更聰明。
雖然目前這還不是一個被廣泛認可的問題,但卻是許多人工智能研究人員所擔心的問題,因為世界上的文本訓(xùn)練數(shù)據(jù)可能很快就會用完。
據(jù)估計,全球可用文本數(shù)據(jù)的總存量在4.6萬億至17.2萬億token之間,包括世界上所有的書籍、科學論文,新聞文章,維基百科以及所有公開可用的代碼,以及許多其他篩選后的互聯(lián)網(wǎng)內(nèi)容(包括網(wǎng)頁、博客、社交媒體等);也有人估計這個數(shù)字是3.2萬億token。
DeepMind的Chinchilla的訓(xùn)練數(shù)據(jù)用了1.4萬億個token,也就是說,模型很快就會耗盡全世界所有有用的語言訓(xùn)練數(shù)據(jù)。
如果大型語言模型能夠生成訓(xùn)練數(shù)據(jù)并使用它們繼續(xù)自我改進,那么就可能扭轉(zhuǎn)數(shù)據(jù)短缺的困境。
可以自己去查驗事實
新必應(yīng)上線后,廣大網(wǎng)友紛紛預(yù)測,類似ChatGPT的多輪對話大模型即將取代谷歌搜索,成為探索世界信息的首選來源,就像科達或諾基亞這樣的巨頭一樣一夜被顛覆。
不過這種說法過分簡化了「顛覆」這件事,以目前LLM的水平來說永遠都無法取代谷歌搜索。
一個重要的原因就是,ChatGPT返回的答案都是瞎編的。
盡管大型語言模型功能強大,但經(jīng)常會生成一些不準確、誤導(dǎo)或錯誤的信息,并且回答地非常自信,還想要說服你認同他。
語言模型產(chǎn)生「幻覺」(hallucinations)的例子比比皆是,并非只是針對ChatGPT,現(xiàn)存的每一種生成語言模型都有幻覺。
比如推薦了一些并不存在的書;堅持認為數(shù)字220小于200;不確定亞伯拉罕·林肯遇刺時,刺客是否和林肯在同一塊大陸上;提供了一些貌似合理但不正確的概念解釋,比如貝葉斯定理。
大多數(shù)用戶不會接受一個搜索引擎在某些時候得到這些錯誤的基本事實,即使是99%的準確率也不會被大眾市場接納。
OpenAI的首席執(zhí)行官Sam Altman自己也承認了這一點,他最近警告說:ChatGPT能做到的事情是非常有限的。它在某些方面的優(yōu)異表現(xiàn)可能會對大眾帶來一種誤導(dǎo),依賴它做任何重要的事情都是錯誤的。
LLM的幻覺問題是否可以通過對現(xiàn)有體系結(jié)構(gòu)的漸進改進來解決,或者是否有必要對人工智能方法論進行更根本的范式轉(zhuǎn)變,以使人工智能具有常識性和真正的理解,這是一個懸而未決的問題。
深度學習先驅(qū)Yann LeCun認為只有顛覆深度學習范式,才有可能改變,誰對誰錯,時間會證明一切。
最近也有一系列的研究成果可以減輕LLM事實上的不可靠性,可以分為兩方面:
1. 語言模型從外部信息來源檢索的能力
2. 語言模型為生成文本提供參考和引用的能力
當然,訪問外部信息源本身并不能保證LLM檢索到最準確和相關(guān)的信息,LLM增加對人工用戶的透明度和信任的一個重要方法是包含對他們從中檢索信息的源的引用,這種引用允許人類用戶根據(jù)需要對信息來源進行審計,以便自己決定信息來源的可靠性。
大規(guī)模稀疏專家模型
當下的大型語言模型實際上都具有相同的體系結(jié)構(gòu)。
到目前為止,所有的語言模型,包括OpenAI的GPT-3、谷歌的PaLM或LaMDA、Meta的Galactica或OPT、英偉達/微軟的Megatron-Turing、AI21實驗室的Jurassic-1,都遵循著相同的基礎(chǔ)架構(gòu),都是自回歸模型、用自監(jiān)督訓(xùn)練,以及基于Transformer
可以肯定的是,這些模型之間存在著細節(jié)上的差異,比如參數(shù)量、訓(xùn)練數(shù)據(jù)、使用的優(yōu)化算法、batch size、隱藏層的數(shù)量,以及是否指令微調(diào)等,可能會有些許性能上的差異,不過核心體系結(jié)構(gòu)變化很小。
不過一種截然不同的語言模型體系結(jié)構(gòu)方法,稀疏專家模型(sparse expert models)逐漸受到研究人員的關(guān)注,雖然這個想法已經(jīng)存在了幾十年,但直到最近才又開始流行起來。
上面提到的所有模型參數(shù)都是稠密的,這意味著每次模型運行時,所有參數(shù)都會被激活。
稀疏專家模型的理念是,一個模型只能調(diào)用其參數(shù)中最相關(guān)的子集來響應(yīng)給定的查詢。其定義特征為,它們不激活給定輸入的所有參數(shù),而只激活那些對處理輸入有幫助的參數(shù)。因此,模型稀疏性使模型的總參數(shù)計數(shù)與其計算需求解耦。
這也是稀疏專家模型的關(guān)鍵優(yōu)勢:它們可以比稠密模型更大,計算量也更低。
稀疏模型可以被認為是由一組「子模型」組成的,這些子模型可以作為不同主題的專家,然后根據(jù)提交給模型的prompt,模型中最相關(guān)的專家被激活,而其他專家則保持未激活的狀態(tài)。
比如,用俄語提示只會激活模型中能夠用俄語理解和回應(yīng)的「專家」,可以有效地繞過模型的其余部分。
基本上超過萬億的語言模型基本都是稀疏的,包括谷歌的Switch Transformer(1.6萬億個參數(shù)),谷歌的GLaM(1.2萬億個參數(shù))和Meta的混合專家模型(1.1萬億個參數(shù))。
論文地址:https://arxiv.org/pdf/2112.06905.pdf
GLaM是谷歌去年開發(fā)的一種稀疏的專家模型,比GPT-3大7倍,訓(xùn)練所需能源量減少三分之二,推理所需計算量減少一半,在很多自然語言任務(wù)中表現(xiàn)優(yōu)于GPT-3;并且Meta對稀疏模型的研究也得出了類似的結(jié)果。
論文地址:https://arxiv.org/pdf/2112.10684.pdf
稀疏專家模型的另一個好處是:它們比稠密模型更容易解釋。
可解釋性(Interpretability)即人類能夠理解一個模型采取行動的原因,是當今人工智能最大的弱點之一。
一般來說,神經(jīng)網(wǎng)絡(luò)是無法解釋的「黑匣子」,極大地限制了模型在現(xiàn)實世界中的應(yīng)用場景,特別是在像醫(yī)療保健這樣的高風險環(huán)境中,人類的評估非常重要。
稀疏專家模型比傳統(tǒng)模型更容易解釋,因為稀疏模型的輸出是模型中一個可識別的、離散的參數(shù)子集的結(jié)果,即被激活的「專家」,從而可以更好地提取關(guān)于行為的可理解的解釋,也是在實際應(yīng)用中的主要優(yōu)勢。
但稀疏的專家模型在今天仍然并沒有得到廣泛的應(yīng)用,與稠密模型相比,稀疏模型并不是那么容易理解,而且構(gòu)建起來在技術(shù)上更加復(fù)雜,不過未來稀疏模型可能會更加普遍。
Graphcore的首席技術(shù)官Simon Knowles說過,如果一個AI可以做很多事情,那么它在做一件事的時候就不需要先獲取到所有的知識。顯而易見,這就是你的大腦的工作方式,也是AI應(yīng)該的工作方式。到明年,如果還有人在構(gòu)建稠密的語言模型,我會感到很驚訝。
最后吃個瓜
想當初,LeCun可是是旗幟鮮明地站大語言模型這邊的。
去年11月中旬,Meta AI就曾提出一個Galactica模型,它可以生成論文、生成百科詞條、回答問題、完成化學公式和蛋白質(zhì)序列的多模態(tài)任務(wù)等等。
LeCun很開心地發(fā)推盛贊,稱這是一個基于學術(shù)文獻訓(xùn)練出的模型,給它一段話,它就能生成結(jié)構(gòu)完整的論文。
但萬萬沒想到的是,Galactica剛發(fā)布三天就被網(wǎng)友玩壞,慘遭下線……
2月4日,LeCun仿佛自打臉一般,一改往日對大語言模型的支持,發(fā)推稱「在通往人類級別AI的道路上,大型語言模型就是一條邪路」。
2月7日,LeCun發(fā)布了我們開頭看到的那條推文,并轉(zhuǎn)發(fā)了一篇福布斯的文章,對于自己得到媒體的支持表示開心。
不過,馬上有網(wǎng)友對他進行了「扒皮」。
「哦,怎么忽然你就成了對抗大語言模型的英雄了?我可替你記著呢。在為Glactica背書時你對大語言模型可是相當支持的。我沒記錯的話,你當時還和馬庫斯和Grady Booch(IEEE/ACM Fellow,IBM研究院軟件工程首席科學家)掀起一場罵戰(zhàn)呢。」
哪有熱鬧就往哪湊的馬庫斯聞訊也興奮趕來,連cue自己。
「 LeCun,你是在開玩笑吧?人們終于開始同意『你的』觀點了?讓你承認一下我這么多年也是這么說的,就有這么難嗎?」
「不要瞞天過海好不好?別假裝這個你過去一直嘲的想法是你發(fā)明的?!?/p>
還嫌噴得不夠過癮,馬庫斯繼續(xù)火力全開,在轉(zhuǎn)發(fā)中稱:「LeCun簡直是在做大師級的PUA。但是恭喜你,至少你現(xiàn)在站到了正確的一邊?!?/p>
參考資料:
https://www.forbes.com/sites/robtoews/2023/02/07/the-next-generation-of-large-language-models/?sh=6c61c00b18db
https://twitter.com/ylecun/status/1624898875927527425
關(guān)鍵詞: meta 神經(jīng)網(wǎng)絡(luò) lecun chatgpt 馬庫斯(西羅馬)