大模型的無限上下文與數據集組合藝術
來源 | Latent Space OneFlow編譯 翻譯|賈川、楊婷、宛子琳 上下文長度曾是GPT-3的最大限制之一。GPT-3最多只能接收4000個詞元(3000詞,6頁),否則就會報錯。因此,為處理長文檔和提示(prompt),就需要引入 LangChain 等其他檢索技術。不過,MosaicML(已被Databricks以約13億美元收購)在5月初開源的MPT-7B上下文長度可達84000個詞元(63000個詞,126頁),大大擴展了可處理的文本范圍,隨后,Anthronpic公司開發的Claude模型的上下文長度擴展到10萬個詞元。 MPT-7B是從頭開始訓練的,使用了1萬億個詞元的文本和代碼作為訓練數據。相比其他類似模型(如Pythia和OpenLLaMA使用了3000億個詞元,StableLM使用了8000億個詞元),MPT-7B的訓練數據規模更大,其質量可與LLaMA-7B相媲美。該模型在MosaicML平臺上進行訓練,使用了440個GPU,訓練過程耗時9.5天,并且沒有人為干預,成本約為20萬美元。與其他開放模型不同,MPT-7B開放了商業使用許可,并利用FlashAttention和FasterTransformer對快速訓練和推理進行了優化。 (MPT-7B在零樣本學術任務中的表現) MosaicML還發布了三個基于基礎MPT-7B進行微調的MPT-7B-Instruct、MPT-7B-Chat、MPT-7B-StoryWriter-65k+模型。
除模型checkpoint外,該團隊還通過他們新的MosaicML LLM Foundry開源了用于預訓練、微調和評估MPT的完整代碼庫。以上表格就是利用LLM Foundry中的上下文學習評估框架而創建。 MosaicML首席科學家Jonathan Frankle和研究科學家Abhinav Venigalla是MPT-7B的負責人,主導了MPT-7B的整個訓練過程。在Latent Space的最新播客中,主理人Swyx、Decibel Partners合伙人Alessio與他們探討了MPT-7B訓練過程的創新之處,解釋為什么LLM數據集組合是重要且神秘的藝術。此外,某些傳統的多項選擇基準測試對于正在構建的這種技術可能幫助不大,他們也將探討這背后的原因。 (以下內容經授權后由OneFlow編譯發布,轉載請聯系OneFlow獲得授權。來源:https://www.latent.space/p/mosaic-mpt-7b#details) 1 MPT-7B模型的構建 Swyx:你們當時為什么會開發MPT-7B? Abhinav:MPT-7B項目大概花了6-12個月時間。我們從去年夏天開始研究語言模型,并發布了一篇博客,對語言模型進行了分析,發現訓練成本實際上可能比人們想象的低得多。也是從那時起,我們受Meta AI發布的LLaMA模型和許多其他開源工作的啟發,開始著手創建真正優秀的、擁有70億參數的模型,這就是MPT的由來。 Alessio:你曾在其中一個播客中說:Mosaic沒有構建和發布模型的計劃。但最終你們還是發布了模型,是什么讓你們改變了主意? Jonathan:我認為,主要有幾個因素:我們至今仍然缺乏一個一流模型。與OpenAI不同,我們的業務圍繞客戶創建自己的模型展開,而我們主要為其提供工具,為了確保這些工具的有效性,我們就必須先創建自己的模型。 必須清楚一點,如果客戶能做出偉大的事,那么我們也同樣能實現偉大的成就。Twitter上有很多人向我提出質疑,懷疑Mosaic所展示數字的真實性,比如Ross Whiteman就曾提出“讓我們看看實際的成果”,對此,我想說的是,“Ross,你認為這些成果如何?”我們在9.5天的時間里以20萬美元的成本研發了模型,所以你們也可以做到。 Swyx:參考你們去年發布的數據,最初估計訓練GPT-3的成本不到45萬美元,后來降至10萬美元;Stable Diffusion的成本也由16萬美元降至不到5萬美元。 Jonathan:對于10萬美元這個數字我還是很謹慎的。雖然還未實現這一目標,但我們會朝著這個方向前進,這也是給Abhi的一大挑戰。 Swyx:MPT-7B模型有三個變體,其中一個在上下文長度方面達到SOTA,這些模型的訓練過程是怎樣的? Abhinav:我們的基礎模型是對LLaMA-7B的再創造,擁有70億參數,訓練數據達1萬億個詞元,為微調模型提供一個高效、不需要過多干預的訓練起點。微調模型也非常有趣,比如MPT-7B-StoryWriter-65k+可用于故事編寫,上下文窗口長度為65,000,還可以根據已知內容進行續寫。 當然,這只是我們想到的方向之一,你可以利用MPT-7B Base模型來構建自定義模型,以適用不同的需求,如長上下文代碼模型或特定語言模型。所以基于基礎模型構建了三個變體,MPT-7B-Instruct、MPT-7B-Chat和MPT-7B-StoryWriter-65k+,分別用于遵循簡短指令、聊天對話和編寫故事。 Alessio:在訓練模型時,你們是如何決定要選用多少詞元和參數的?70億和30億模型參數似乎是當前流行的兩個神奇數字。 Abhinav:對于訓練模型來說,規模定律(scaling law)可以告訴你如何最有效地利用訓練計算資源。比如預算為20萬美元,那么依照規模定律,就能給出一套最有效的訓練方案。 其中,我們最常遵循的是Chinchilla定律。而對于MPT-7B模型及其相關變體,卻并未嚴格遵循這些定律,因為我們想確保模型適用于個人使用并具備良好的推斷性能,所以對其進行了過度訓練,超過了Chinchilla Point(指以詞元衡量的數據級別)。網上有人將這些模型戲稱為長蛇狗(Llongboi),因為其訓練時間相當長,以7B模型為例,Chinchilla Point可能是1400億個詞元,而我們實際訓練了1萬億個詞元,因此訓練時間幾乎是正常情況下的7倍。 Swyx:Llongboi指的是一種訓練方法嗎? Jonathan:Llongboi只是內行的一句玩笑話,指的是所用詞元數量多于Chinchilla定律所規定數量的訓練方法。可以看到,Llongboi開頭有兩個“L”,用于致敬LLaMA。我們的CEO曾在Twitter上將這個名字公之于眾,將模型稱為“Llongboi”。有時我真的想拿走他的Twitter密碼,以免提前泄密,不過現在全世界都已經知道這個名字了。 2 關于架構、ALiBi、上下文 Alessio:Flash Attention和Faster Transformer是你們構建模型的兩個核心要素,它們的優勢是什么? Abhinav:Flash Attention是Full Attention的更快實現,由斯坦福的Hazy Research實驗室開發。去年九月,我們將Flash Attention集成到了我們的庫中,它在訓練和推理速度方面起到了很大作用。與其他Hugging Face模型相比,這個模型十分特別,它可以在一般的Torch Attention和專為GPU設計的Flash Attention之間進行切換,這讓模型的訓練速度提升了2倍左右,推理速度提升了50%-100%。 Swyx:是什么促使你們選擇了ALiBi位置編碼? Abhinav:我們通過一種有趣的方式,將ALiBi位置編碼、Flash Attention以及訓練穩定性相結合。ALiBi能夠消除模型對位置嵌入的需求。之前,如果一個詞元的位置是1,那么你需要添加一個特定的位置嵌入,并且無法超過最大位置(通常為2000)。但是通過ALiBi,這個問題就被解決了。我們只需要在Attention Map上添加一個偏置(bias),這就像一個斜坡,如果在推理時需要更長的位置范圍,它會將這個斜坡延長到更長的位置數。由于斜坡是連續的,且可以進行解釋,所以這種方法是可行的。 有趣的是,通過Flash Attention,模型節省了大量的內存并提升了性能,所以我們在去年就開始對具有非常長上下文(長達65k)的模型進行性能測試,同時,要進行穩定訓練也非常難。后來,我們嘗試將ALiBi整合進模型,結果模型穩定性獲得了顯著提升。現在,我們可以在非常長的上下文中穩定地訓練故事寫作模型,并保證高效地使用它們。 Jonathan:上下文長度在技術上是無限的。只要給予足夠的內存,對話可以無限延續下去。我們認為,模型能夠處理的最長數字是84K,這是實踐中人們能夠輕松處理的最長上下文長度。但我們在實踐中也嘗試過超84K的上下文長度,我們完全可以處理更長的長度。 Swyx:比如我們可以給模型輸入小說《了不起的蓋茨比》,然后讓模型根據輸入文本續寫小說,最后模型輸出了相當精彩的內容。 Jonathan:在Mosaic內部存在許多非常好的故事結尾版本。其中一個版本描述了蓋茨比的葬禮,尼克開始與蓋茨比的鬼魂交談,蓋茨比的父親也出現了,然后他和湯姆出現在了警察局。這個版本非常看重情節,描述了接下來會發生什么。此外,許多版本的結尾非常有菲茲杰拉德的風格,它們的文字都十分優美。因此,我們可以看出模型似乎確實在處理輸入,并產生了有意義的輸出,這一點十分令人激動。我們可以利用這種上下文長度做很多事。 Alessio:記憶開始成為模型的限制條件之一,那么應該如何選擇參數大小和上下文長度? Jonathan:最近,關于長上下文的研究引起了大量關注,并出現了一系列相關論文。然而,這些論文并不完全準確,在某種程度上,尤其是注意力機制方面,它們在非二次注意力機制(如近似的、分層的注意力)和明確且正確的二次注意力之間做了權衡或取舍。我很看好近似方法,因此迫不及待地想深入研究這些論文。 通過撰寫和閱讀論文,我學到了一個重要的教訓,即在親身實踐前,不要輕信任何數據。在Mosaic時,我們曾多次在實施中失望過,因為這些論文一開始看起來很有希望,但實現后才意識到,論文對數據做了手腳。因此,我對數據總是持懷疑態度,在重新實施并驗證之前,不會輕信任何結果。總的來說,這種實踐給予了一定回報,很多時候,這些理論在實踐中并不如預期那樣有效。 3 MPT-7B的特點 Swyx:MPT-7B有什么具體特點? Abhinav:我會將其分為兩部分,首先是訓練的穩定性問題。該問題又可分為三部分。首先,模型在訓練過程中需要避免損失峰值,這是我們的第一道防線。在我看來,在訓練規模為70億參數時,損失峰值不是一個大問題。然而,隨著訓練時間延長,避免損失峰值會變得困難。我們花費了很長時間來研究如何調整初始化方法、優化器和架構等,以防止損失峰值的出現。即使在我們的訓練過程中,如果仔細觀察,還是能發現一些小的間歇性峰值,但這些峰值會在幾百個step內恢復正常,這是非常神奇的現象,它能夠幫助我們自然從峰值損失中恢復過來。 確定性(determinism)和智能恢復策略是我們的第二道防線。如果發生災難性錯誤,我們將能夠快速恢復訓練,在故障前的幾個批次內應用一些干預措施。對于可能出現的問題,我們做了多種準備。但在MPT-7B的訓練中,我們完全沒有用到這些備用措施,不得不說這是一種幸運。 正確的訓練基礎設施是第三道防線。如果我們嘗試在數百個GPU上對模型進行訓練,這時常常出現硬件故障問題。比如在512個GPU的大型集群中訓練模型,幾乎每隔兩天訓練就會失敗一次,失敗原因可能是網絡故障等。 一般情況下,人們會設立全天候待命團隊來處理這些故障。當出現故障時,團隊會嘗試檢查集群、移除損壞節點、重新啟動等,這是一項非常繁瑣的任務。我們曾經花了幾個月時間來手動檢查錯誤,但現在我們構建了一個平臺,以實現模型訓練過程中每個節點的自動化處理。 當模型運行出現問題時,我們的自動監控系統會停止作業、測試并檢查損壞節點,再重新啟動。由于我們的軟件具有確定性和快速恢復能力,所以模型可以很好地繼續運行。因此,我們在模型日志中有時可以看到,凌晨2點模型出現故障后,它在幾分鐘內就恢復了正常運行,無需團隊成員人工處理。 Jonathan: 要做到這一點確實不容易,幾個月前模型如果出現了硬件故障,那么團隊成員將不得不在凌晨兩點起床,去檢查節點故障原因,重新啟動作業。之前即使在70億參數規模的訓練中,我們也經常遇到災難性損失峰值,這些問題嚴重影響了模型的訓練。 現在,我們已經通過逐步改進的方式解決了這些問題。正如Abhinav所說,現在在訓練多個模型的同時,我們可以悠閑地坐在辦公室,無需擔心模型出現問題,從而導致訓練中斷。 4 數據選擇和重復以及LLM的評估挑戰 Swyx:數據選擇是你們的關注重點,可以展開講講嗎? Jonathan:在我嘗試將所有的GPU用于數據處理而非實際訓練模型時,Abhi幾乎要殺了我。我們知道,訓練模型需要大量的數據,但也存在許多不確定的因素。 一是不同數據來源中哪些種類是重要的,二是重復的重要性。其中,關于重復的問題可以進一步分解為質量和數量的權衡。假設我有世界上最好的100億個詞元數據,那么是將其重復訓練一百次更好,還是使用1萬億個低質量、最新的詞元數據更好?當然,或許存在折中點,但如何確定高質量數據也是一個問題,目前還沒有明確答案。如果現在回到學術界,我一定會為此寫一篇論文,因為我對其中的情況還一無所知。 Swyx:至今還沒有看到有關這方面的研究論文。 Jonathan:論文研究的中心問題是“應該使用什么樣的數據集組合”。 在創建模型的過程中,我回到了曾任教的喬治敦大學法學院,與一群法學院的學生坐在一起討論。我為他們給出了高質量數據集、數據混合方式,以及擁有的詞元數量,然后讓他們為自己的模型創建最好的數據集。 他們對LLM一無所知,只知道輸入數據會影響行為。我告訴他們要創建一個混合體,以涵蓋所有不同的權衡考量。起初可能需要大量英文語料,可通過網絡獲取;如果想使其變成多語言模型,那么英文語料就會減少很多;另外,是否將代碼包含在其中。 有人認為,代碼可以使模型在邏輯推理方面表現更好,但我從未見過任何證據支持這一觀點。雖然我們確實開發了出色的代碼模型,但代碼模型能否帶來更好的思維鏈推理能力,這還需要進一步研究。 GPT-3的一個版本據說是從小說《達·芬奇密碼》開始訓練的,由此有人認為這可能會有用,但并沒有證據;也有人認為將精力放在那些優質數據源(如維基百科)上會有助于模型的訓練,可也缺乏證據。 因此,我們對多種不同數據混合進行嘗試,發現總有一些數據混合比其他的效果更好或更差。比如“The Pile”是一個非常穩定的數據混合,但根據評估指標,還有其他更好的數據混合。下面我還會談到評估問題,該問題非常重要。 T5模型最初是在C4數據集上訓練的,該數據集表現得異常好。當我在Twitter上發布相關信息時,EleutherAI的Stella Beaterman在內的其他人也提到了這一點。在T5模型的原始論文中,對C4數據集的預處理方法看起來很奇怪,作者從數據集中刪除了所有包含“JavaScript”一詞的內容,因為他們不想出現與JavaScript相關的警告信息。此外,他們還刪除了包含大括號的內容,因為他們不想獲得包含JavaScript的內容。 他們查看了一份不良詞匯列表,并刪除了其中包含不良詞匯的內容。然而,該不良詞匯列表中其實包含了一些實際上并不是不良的詞匯,比如“gay”。但由于有這樣的清洗過程,得到的數據集似乎變得無與倫比得好。從這一點來看,我們對數據一無所知。 實際上,我們還用到一個名叫MC4的數據集,MC4和C4進行了相同的預處理,只是增加了更多的網頁調用(web call),但與C4相比,MC4的英語部分要差很多,原因不得而知。 為此,我設定了兩個標準: 首先,英語部分至少要和MC4一樣好。相對于其他可用數據集,MC4的英文部分要好一些。其次,全力推動數據多樣性,確保數據集包含代碼、科學論文和維基百科等內容,因為人們會用該模型完成各種不同的任務。 Swyx:你認為MMLU(Massive Multitask Language Understanding)和BIG-bench等評估方法不夠有說服力? Jonathan:這類方法無疑都是做兩類任務。一是多項選擇式任務,其中包含一個正確答案,這可以讓模型生成A、B、C或D等選項,然后通過計算每個可能答案的困惑度(perplexity),選擇模型最可能生成的答案。但我們并不要求模型做多項選擇題,而是進行第二種開放式生成任務,比如摘要。使用類似于BLEU和ROUGE的指標進行比較不夠準確,有許多出色的論文摘要和開放式生成方法。相比之下,人工是一種較為可靠的評估標準,但人工評估非常耗時費力,無法實時地與模型進行比較,或許在以后有可能實現。 Abhinav:我們有一支出色的評估團隊,正在幫助我們構建新的指標。 Jonathan:但很難對LLM進行評估,我認為,這些指標中的任何一個都不能真正體現到我們在實踐中對模型的期望。 5 模型訓練的降本增效 Swyx:現在人們需要花費三到十天的時間去訓練模型,你們想將時間縮短至多久? Abhinav:就原始模型訓練效率的提升而言,今年可能是最令人興奮的年份之一。今年軟硬件都出現了相應升級,首先是英偉達的新一代硬件H100s,單單這一項就能提升至少兩倍的性能。其次還有一種新的浮點數格式FP8,單獨使用也能達到同樣的性能提升。 幾年前,我們開始使用32位精度,之后英偉達推出了16位精度。經過幾年的發展,因為要求不斷提高,我們逐漸掌握了16位訓練技巧。 今年有了FP8,我們能將吞吐量提升兩倍,也就是將成本降低兩倍。同時,我們已經開始在H100上使用FP8對LLM訓練進行性能分析,這方面的進展十分迅速。因此,僅僅通過硬件方面的進步,我們就能大幅降低成本。 此外,還有許多架構應用方面的研究。我們正在探索引入一些稀疏性方法,但并非完全無規則的稀疏性。是否有一種類似門控機制或者MoE風格的架構方式可以實現該目標? 我們最初的目標是將GPT-J模型的訓練費用從50萬美元降至10萬美元 ,如果我們能在年底實現,那將是了不起的成就。 Jonathan:這一想法并非空中樓閣。雖然現在還未達到該階段,但這一目標很可能2023年就能達成。 有關訓練與推理成本的統計數據十分稀缺。Google的David Patterson發表了一篇博文,討論了Google在機器學習方面的能源使用情況。經過詳細分析,在過去三年中,谷歌將五分之三的資源用于推理,五分之二的資源用于訓練。以上是Google的數據,他們為數十億用戶提供模型。 谷歌可能是全球推理負載最大的地方。這還只是針對訓練的資源分配,推理占五分之三,訓練占五分之二。而硬件可能更為昂貴,硬件的網絡結構更為復雜,因此可能會是訓練和推理對半分的配置。以上是谷歌的分配比例,但對于其他公司來說,訓練可能會占更高權重。 6 開放對于AI研究的重要性 Alessio:以前的訓練成本十分昂貴,這導致我們無法進行足夠多的實驗,所以在選擇數據集等方面存在很多問題。 Jonathan:研究生期間,我曾對朋友們嫉妒不已,因為他們有GPU,而我的筆記本電腦上沒有,所以無法訓練任何模型。我曾幻想過能夠中彩票,這樣我就可以擁有一個K80 GPU了。 在內心深處,我仍然是那個渴望進行科學研究的學生。我堅信,如果我們想要進行科學研究,并真正理解這些系統,了解如何使其良好運行,了解其行為、安全性和可靠性等要素,我們就必須降低訓練成本,這樣才能真正進行科學研究。以生物試驗為例,我們需要進行多個細胞培養和實驗才能確保藥物有效,在真正了解事物之前,進行大量科學研究必不可少。 Abhinav:MosaicML擁有眾多客戶,他們都在嘗試訓練模型,因此公司有動力投入大量資源和時間進行科研。只有真正了解應該如何訓練模型,我們才能幫助更多人。因此,對于我們來說,這種聚合過程非常重要。 我記得以前谷歌發表過一篇論文,針對批次大小或其他問題進行了調查。這篇論文可能耗費了數百萬美元,它給整個社區帶來了巨大好處。現在,我們都能從中學習,節省開支,而無需花費大量資金。因此,對于Mosaic來說,通過試驗研究我們在數據、預訓練架構等方面具備了深刻的洞察,這也正是客戶選擇我們的原因。 Jonathan:開放對于AI社區十分重要。從某種意義上說,我們沒有封閉的理由,通過幫助客戶訓練模型來獲得收益,對我們來說與社區分享成果沒有損失,畢竟最后我們要通過定制模型和優秀的基礎設施來賺取收入,并將這些方面整合在一起,這也是我們將公司命名為MosaicML的原因。 我們一直秉持著放開的態度,不會對取得的成果遮遮掩掩。但現在,我發現我們已經成為了行業里最大的開源實驗室之一,這是一個很可悲的事實,因為就整個行業而言,MosaicML并不算大,我們只有大約15名研究人員,其他許多實驗室都變得封閉,不再公開發表太多內容。但MosaicML將繼續保持與社區的交流和分享,盡力成為開放研究的先鋒。盡管我們的規模和研究數量無法與大型實驗室相媲美,但我們將繼續分享所學內容,努力為社區創造資源。 當我與政策制定者討論AI生態系統時,總會提及一個普遍擔憂:缺乏開放性將阻礙創新的步伐。多年來,我始終強調這一問題,但最終還是成為了現實。我提倡開源,但不認為每個人都會分享自己的成果。我們曾一度將開源視為理所當然,但如今這種情況已不復存在。 我認為這將會拖慢我們的發展速度。很多時候,各個實驗室都存在某種一元文化,而交流溝通是科學進步的重要動力。因此,開源不僅在開源社區和學術界中不可或缺,其對于技術的進步也至關重要。我們需要一個充滿活力的開源研究社區。 7 未來發展趨勢 Swyx:你提到很多東西都不會長久存在,很容易被替代,但Transformer會長期存在。 Jonathan:Transformer將會一直存在。卷積神經網絡(CNN)至今仍在使用,視覺 Transformer并未取代其地位。再看循環神經網絡(RNN),已經存在了幾十年,但依然活躍在許多領域。因此,實現基礎架構的重大改進十分困難。 Abhinav:我認為,你的賭注很大程度上取決于什么被定義為attention(注意力)。如果替換掉QK矩陣乘法這樣的操作,用類似的方法代替,這會對結果產生什么影響呢? Jonathan:說到底,這只是一個全連接的前饋網絡,帶有簡單注意力機制的Transformer。所以情況可能會有所改變,但我們仍像Ashish Vaswani(Transformer作者)六年前設想的那樣繼續使用Transformer,也許在未來還將繼續使用。 Abhinav:我認為它將變得類似于MLP(多層感知機),這是我們目前唯一的選擇,因為現在架構已經進行了大量簡化,只剩下一些線性層、殘差連接、注意力、點乘操作。 Jonathan:你的假設是架構會變得更簡單,但現實可能相反,架構也許會變得更加復雜。 Swyx:最近關于“涌現現象”的爭論,你們對此有什么看法? Abhinav:我看過類似論文,這些可能只是評估技術的副產品,如對數擴展(log scaling)、評估指標,以及我們正在進行的網格化精度(meshing accuracy),這是一種嚴格的二元判定,即將結果分為正確或錯誤,而沒有考慮更細致的連續性差異。 但是,與Jonathan關于評估的觀點類似,我們在評估指標的多樣性方面也存在一個問題:當我們發布這些模型時,即便是聊天模型、指令模型,人們也常將其用于各種不同任務。我們事先幾乎無法精確地測量和評估各個維度,即使規模達到70億,這些模型在一些十分困難的MMLU任務上仍然表現欠佳。有時它們的得分幾乎只略高于隨機機會,尤其是處理十分困難的任務。 因此,隨著我們追求更高質量的模型,其中一些問題可能對我們更有用。但是,我們在開發MPT-7B時有點盲目,因為并不完全了解模型的最終表現。只能根據一小部分常見的感知推理任務來進行開發,并且通過將這些指標與其他開源模型進行比較來評估性能。 Alessio:我認為,快速推理和訓練是目標之一,因此需要在解決最困難的任務和快速處理其他任務之間做出權衡。 Abhinav:是的。即便是70億數據規模,人們也會嘗試在家中的CPU上運行,或者嘗試移植到他們的手機上,主要是因為小規模應用會促使人們采用這項技術,而且這是當下的一個重要趨勢。 Alessio:AI領域有哪些事情的發展速度要比預期快得多? Jonathan:記得GPT-2發布時,我并沒有覺得很興奮,但當時它已經擁有了15億參數。隨著模型規模不斷擴張,它們的性能不可能持續提升。然后GPT-3發布了,我也只是認為它在生成文本方面有些許進步,但我一次又一次地錯了。通過預測下一個詞元,擴大模型規模可以產出十分有用的模型。 公平地說,我們幾乎都對此持錯誤的看法,所以也不能完全歸咎于自己。否則,早在我有機會行動之前,谷歌、Facebook和微軟研究院就會推出殺手級的語言大模型了。我曾進行過一個非常奇怪的賭注,事實證明我賭對了:雖然擴散模型在某種程度上十分愚笨,卻能產出令人驚艷的美麗圖像。 Abhinav:關于規模化聊天機器人,我認為還需要很長時間,才會有數億人與AI模型進行大量對話。現在有很多初創公司和企業不僅僅使用ChatGPT,還有角色創建等其他項目,讓人驚嘆的是,有多少人實際上正在與這些AI模型建立情感聯系。我不認為自己會在去年的九、十月份預測到這一點。過去六個月間出現的拐點真的出乎意料。 Swyx:你認為它們會用來做什么,比如情感支持? Abhinav:其中一些用于情感支持,或只是作為朋友。孤獨和心理健康問題是一個熱門難題。如果你去那些社區的子版塊,人們在談論和思考自己的AI朋友和這些角色,這就像是科幻小說中的情節,我從未預料到這種情況會成為現實。 Swyx:AI領域最有趣的待解決問題是什么? Abhinav:我對能夠在精確性和類似BF16/FP16這方面能夠走多遠感興趣。 我好奇這些問題能否隨著模型規模的擴大變得更易解決。相關論文顯示,隨著規模不斷擴大,量化和剪枝可能會更加容易。所以,作為未來幾年規模擴大的自然結果,我們也許會朝著使用四位或兩位乃至二進制權重的方向發展。 Jonathan:我想以另一種方式了解我們能實現多小的模型,能以多高的效率開發出同等性能的模型。這是我整個博士期間研究的問題,某種意義上說,這也是我在 Mosaic 研究的問題。OpenAI已經向我們展示了一種獲得這種令人難以置信能力的途徑,即規模的擴大。但我希望這不是唯一的途徑。我希望有很多其他方法也可以達到這一目標,通過更好的建模方法,更好的算法等。 雖然我不喜歡神經科學的比喻,但從某種意義上說,我們的存在和大腦證明了至少存在另一種方式來實現這種難以置信的能力,而無需萬億級的參數甚至天文數字的資金投入。所以我真的很好奇我們究竟能實現多小的模型?是否存在另一條路徑來實現這些能力,而不必按照現有的方式?如果存在的話,希望能在Mosaic中找到答案。 Swyx:沒錯,我最感興趣的一個事實是,人類大腦只需消耗30瓦的能量,而在這一點上,模型與其相差了多個數量級。 Abhinav:我認為,無法僅憑單獨的GPU或其他工具來達到這一目標。 Alessio:目前有很多信息正在傳播,比如人們應該如何思考人工智能?他們應該關注什么? Jonathan:保持平和。有些人過于看重炒作;有些人則非常悲觀,對炒作反應強烈,或者在某種程度上對其表示否認。應保持平和,明白我們已經構建出了十分有用的工具。 但是我們還未構建出通用智能,個人而言,我們離這個目標還很遙遠。因此,保持平和并遵循科學十分重要,這正是Mosaic AI為之努力的。我們試圖專注于對人類有用的事物,希望創造一個更美好的世界。我們會竭盡全力,但尤為重要的是,我們將遵循科學,以數據為指導,通過實際成果而非空談來實現這一目標。 Abhinav:我認為,在開放社區中進行研究是無可比擬的。在社區中,不僅有大量人關注你的模型,甚至還會對模型的問題以及改進方式提出意見。這種開放性的研究將是未來的發展方向,無論是為了保證我們的模型安全,還是為了深入研究這些AI模型在現實世界中的影響和后果。 轉自:https://blog.csdn.net/OneFlow_Official/article/details/131971520 該文章在 2024/1/27 15:49:46 編輯過 |
關鍵字查詢
相關文章
正在查詢... |