正在閱讀:

最頂尖的大語(yǔ)言模型人才,只關(guān)心這10個(gè)挑戰(zhàn)

掃一掃下載界面新聞APP

最頂尖的大語(yǔ)言模型人才,只關(guān)心這10個(gè)挑戰(zhàn)

當(dāng)AI模型編造虛假內(nèi)容……

編譯 | 硅兔賽跑 林檎

編輯 | 蔓蔓周

編者按:本文探討了大語(yǔ)言模型(LLM)研究中的十大挑戰(zhàn),作者是Chip Huyen,她畢業(yè)于斯坦福大學(xué),現(xiàn)為Claypot AI —— 一個(gè)實(shí)時(shí)機(jī)器學(xué)習(xí)平臺(tái)的創(chuàng)始人,此前在英偉達(dá)、Snorkel AI、Netflix、Primer公司開(kāi)發(fā)機(jī)器學(xué)習(xí)工具。 ”

我正目睹一個(gè)前所未有的現(xiàn)狀:全世界如此眾多的頂尖頭腦,如今都投入到“使語(yǔ)言模型(LLMs)變得更好”這個(gè)大一統(tǒng)的目標(biāo)中。

在與許多工業(yè)界及學(xué)術(shù)界同仁交談之后,我試著總結(jié)出十個(gè)正在蓬勃生長(zhǎng)的主要研究方向:

1. 減少和衡量幻覺(jué)(編者按:hallucinations,AI的幻覺(jué),即 AI 輸出中不正確或無(wú)意義的部分,盡管這類輸出在句法上是合理的)

2. 優(yōu)化上下文長(zhǎng)度和上下文構(gòu)建

3. 融入其他數(shù)據(jù)模態(tài)

4. 提高LLMs的速度和降低成本

5. 設(shè)計(jì)新的模型架構(gòu)

6. 開(kāi)發(fā)GPU替代方案

7. 提高agent的可用性

8. 改進(jìn)從人類偏好中學(xué)習(xí)的能力

9. 提高聊天界面的效率

10. 為非英語(yǔ)語(yǔ)言構(gòu)建LLMs

其中,前兩個(gè)方向,即減少“幻覺(jué)”和“上下文學(xué)習(xí)”,可能是當(dāng)下最火的方向。而我個(gè)人對(duì)第3項(xiàng)(多模態(tài))、第5項(xiàng)(新架構(gòu))和第6項(xiàng)(GPU替代方案)最感興趣。

01、減少和衡量幻覺(jué)

它是指當(dāng)AI模型編造虛假內(nèi)容時(shí)發(fā)生的現(xiàn)象。

對(duì)于許多需要?jiǎng)?chuàng)造性的場(chǎng)景,幻覺(jué)是一種難以回避的特性。然而,對(duì)于大多數(shù)其他應(yīng)用場(chǎng)景,它是一個(gè)缺陷。

最近我參加了一個(gè)關(guān)于LLM的討論小組,與Dropbox、Langchain、Elastics和Anthropic等公司的人員進(jìn)行了交流,他們認(rèn)為,企業(yè)大規(guī)模采用LLM進(jìn)行商業(yè)生產(chǎn),最大的障礙就是幻覺(jué)問(wèn)題。

減輕幻覺(jué)現(xiàn)象并開(kāi)發(fā)衡量幻覺(jué)的指標(biāo),是一個(gè)蓬勃發(fā)展的研究課題,許多初創(chuàng)公司都專注于解決這個(gè)問(wèn)題。

目前也有一些臨時(shí)的方法可以減少幻覺(jué),比如為提示添加更多的上下文、思維鏈、自洽性,或者要求模型的輸出保持簡(jiǎn)潔。

以下是可以參考的相關(guān)演講

·Survey of Hallucination in Natural Language Generation (Ji et al., 2022)

·How Language Model Hallucinations Can Snowball (Zhang et al., 2023)

·A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)

·Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)

·Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)

·SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)

02、優(yōu)化上下文長(zhǎng)度和上下文構(gòu)建

AI面對(duì)的絕大多數(shù)問(wèn)題都需要上下文。

例如,如果我們問(wèn)ChatGPT:“哪家越南餐廳最好?”,所需上下文可能是“在哪里”,因?yàn)樵侥献詈玫牟蛷d和美國(guó)最好的越南餐廳可能不同。

根據(jù)《SituatedQA》(Zhang&Choi,2021)這篇有趣的論文,相當(dāng)大比例的信息尋求問(wèn)題都有依賴于上下文的答案,例如,NQ-Open數(shù)據(jù)集中就有約占16.5%的問(wèn)題是這一類問(wèn)題。

我個(gè)人認(rèn)為,對(duì)于企業(yè)應(yīng)用場(chǎng)景來(lái)說(shuō),這個(gè)比例還可能更高。假設(shè)一家公司為客戶構(gòu)建了一個(gè)聊天機(jī)器人,要讓這個(gè)機(jī)器人能夠回答任何產(chǎn)品的任何客戶問(wèn)題,那么所需上下文,可能是客戶的歷史記錄或該產(chǎn)品的信息。

因?yàn)槟P褪菑奶峁┙o它的上下文中“學(xué)習(xí)”的,這個(gè)過(guò)程也被稱為上下文學(xué)習(xí)。

對(duì)于檢索增強(qiáng)生成(RAG,也是LLM行業(yè)應(yīng)用方向的主要方法),上下文長(zhǎng)度尤為重要。

RAG可以簡(jiǎn)單分為兩個(gè)階段:

第一階段:分塊(也稱為索引)

收集所有要供LLM使用的文檔,將這些文檔分成可以輸入LLM以生成嵌入的塊,并將這些嵌入存儲(chǔ)在向量數(shù)據(jù)庫(kù)中。

第二階段:查詢

當(dāng)用戶發(fā)送查詢,如“我的保險(xiǎn)政策是否可以支付這種藥物X”,LLM將此查詢轉(zhuǎn)換為嵌入,我們稱之為查詢嵌入,向量數(shù)據(jù)庫(kù)會(huì)獲取與查詢嵌入最相似的塊。

圖:來(lái)自Jerry Liu關(guān)于LlamaIndex(2023)的演講截圖

上下文長(zhǎng)度越長(zhǎng),我們就可以在上下文中插入更多塊。但是,模型可以訪問(wèn)的信息越多,它的回復(fù)就會(huì)越好嗎?

并不總是這樣。模型可以使用多少上下文以及該模型將如何高效地使用,是兩個(gè)不同的問(wèn)題。與增加模型上下文長(zhǎng)度同樣重要的,是對(duì)上下文更高效的學(xué)習(xí),后者也被稱之為“提示工程”。

最近一篇廣為流傳的論文,就是關(guān)于模型從索引的開(kāi)頭和結(jié)尾比從中間進(jìn)行信息理解表現(xiàn)要好得多:Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

03、融入其他數(shù)據(jù)模態(tài)

在我看來(lái),多模態(tài)是如此強(qiáng)大,卻又常常被低估。

首先,許多現(xiàn)實(shí)的應(yīng)用場(chǎng)景就需要處理大量多模態(tài)數(shù)據(jù),如醫(yī)療保健、機(jī)器人技術(shù)、電子商務(wù)、零售、游戲、娛樂(lè)等。醫(yī)學(xué)預(yù)測(cè)需要同時(shí)使用文本(如醫(yī)生的筆記、患者的問(wèn)卷)和圖像(如CT、X射線、MRI掃描);產(chǎn)品數(shù)據(jù)通常包含圖像、視頻、描述,甚至是表格數(shù)據(jù)(如生產(chǎn)日期、重量、顏色)。

其次,多模態(tài)承諾能為模型性能帶來(lái)巨大提升。一個(gè)既能理解文本又能理解圖像的模型,難道不會(huì)比僅能理解文本的模型表現(xiàn)更好嗎?基于文本的模型需要大量的文本數(shù)據(jù),現(xiàn)在我們確實(shí)在擔(dān)心用于訓(xùn)練基于文本模型的互聯(lián)網(wǎng)數(shù)據(jù)會(huì)被耗盡。一旦文本用盡,我們就需要利用其他數(shù)據(jù)模態(tài)。

最近有一個(gè)應(yīng)用方向讓我感到格外興奮,那就是,多模態(tài)技術(shù)可以幫助視障人士瀏覽互聯(lián)網(wǎng)和導(dǎo)航現(xiàn)實(shí)世界。

以下為幾項(xiàng)杰出的多模態(tài)研究進(jìn)展:

·[CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)

·Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)

·BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)

·KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)

·PaLM-E: An embodied multimodal language model (Google, 2023)

·LLaVA: Visual Instruction Tuning (Liu et al., 2023)

·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)

04、提高LLMs的速度和降低成本

GPT-3.5于2022年11月末首次推出的時(shí)候,很多人對(duì)在生產(chǎn)中使用該模型的延遲和成本表示擔(dān)憂。

如今,GPT-3.5使用造成的延遲/成本分析又有了新的變化。在半年內(nèi),整個(gè)模型社區(qū)找到了一種新方法,能夠創(chuàng)建一個(gè)在性能方面幾乎接近GPT-3.5、但其內(nèi)存占用不到前者2%的模型。

由此,我的一個(gè)觀點(diǎn)是:如果你創(chuàng)造出足夠優(yōu)秀的東西,其他人會(huì)想盡辦法使其變得快速且經(jīng)濟(jì)高效。

以下是根據(jù)Guanaco論文中報(bào)告的數(shù)據(jù),該數(shù)據(jù)對(duì)比了Guanaco 7B與ChatGPT GPT-3.5和GPT-4的性能。

需要注意的是,總體而言,這些模型性能都還遠(yuǎn)非完美。對(duì)LLM來(lái)說(shuō),大幅地提升性能依然非常困難。

記得四年前,當(dāng)我開(kāi)始著手撰寫(xiě)《設(shè)計(jì)機(jī)器學(xué)習(xí)系統(tǒng)》一書(shū)中“模型壓縮”部分的筆記時(shí),業(yè)內(nèi)主要有四種模型優(yōu)化/壓縮技術(shù):

1.量化:迄今為止最通用的模型優(yōu)化方法。量化通過(guò)使用較少的bits來(lái)表示模型的參數(shù)來(lái)減小模型的大小,例如,不再使用32位來(lái)表示浮點(diǎn)數(shù),而只使用16位,甚至4位。

2.知識(shí)蒸餾:即訓(xùn)練出一個(gè)小模型(學(xué)生模型),它能夠模仿一個(gè)更大的模型或模型集合(教師模型)。

3.低秩分解:它的關(guān)鍵思想是使用低維張量來(lái)替代高維張量,以減少參數(shù)的數(shù)量。例如,可以將一個(gè)3x3的張量分解為一個(gè)3x1的張量和一個(gè)1x3的張量的乘積,從而不再有9個(gè)參數(shù),而只有6個(gè)參數(shù)。

4.剪枝:指通過(guò)去除模型中對(duì)整體性能貢獻(xiàn)較小的權(quán)重或連接來(lái)減小模型的大小。

這四種技術(shù)至今仍然流行。Alpaca是通過(guò)知識(shí)蒸餾進(jìn)行訓(xùn)練的,QLoRA則采用了低秩分解和量化的組合方式。

05、設(shè)計(jì)新的模型架構(gòu)

自2012年的AlexNet以來(lái),我們已經(jīng)看到許多架構(gòu)潮起又潮落,包括LSTM、seq2seq等。

與這些架構(gòu)相比,問(wèn)世于2017年的Transformer異常穩(wěn)定,雖然目前尚不清楚這個(gè)架構(gòu)還會(huì)流行多久。

要開(kāi)發(fā)一種能夠勝過(guò)Transformer的新架構(gòu)并不容易。在過(guò)去的6年中,Transformer已經(jīng)經(jīng)過(guò)了大量的優(yōu)化,在合適的硬件上,這個(gè)模型的規(guī)模和效果可以達(dá)到讓人贊嘆的出色效果(PS:Transformer最早是由Google設(shè)計(jì)成在TPU上快速運(yùn)行的,后來(lái)才在GPU上進(jìn)行了優(yōu)化)。

2021年,Chris Ré實(shí)驗(yàn)室的研究“Efficiently Modeling Long Sequences with Structured State Spaces” (Gu et al., 2021),在行業(yè)內(nèi)引發(fā)了大量討論。我不太確定后來(lái)發(fā)生了什么。但Chris Ré實(shí)驗(yàn)室仍在積極開(kāi)發(fā)新架構(gòu),他們最近與初創(chuàng)公司Together合作推出了名為Monarch Mixer的架構(gòu)。

他們的主要思想是,對(duì)于現(xiàn)有的Transformer架構(gòu),注意力的復(fù)雜度與序列長(zhǎng)度的平方成正比,MLP的復(fù)雜度與模型維度的平方成正比。具有次二次復(fù)雜度的架構(gòu)將更加高效。

我確信許多其他實(shí)驗(yàn)室也在探索這個(gè)思路,雖然我不知道是否有任何已經(jīng)公開(kāi)嘗試過(guò)的研究。如果您曉得個(gè)中進(jìn)展,歡迎聯(lián)系我!

06、開(kāi)發(fā)GPU替代方案

2012年AlexNet問(wèn)世以來(lái),GPU一直是深度學(xué)習(xí)的主要硬件。

事實(shí)上,AlexNet之所以受歡迎,其中一個(gè)普遍認(rèn)可的原因是,它是第一篇成功使用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)的論文。在GPU之前,如果要訓(xùn)練一個(gè)與AlexNet相當(dāng)規(guī)模的模型,你需要?jiǎng)佑贸汕先f(wàn)個(gè)CPU,就像在AlexNet之前幾個(gè)月Google發(fā)布的那臺(tái)服務(wù)器一樣。

與成千上萬(wàn)個(gè)CPU相比,幾塊GPU對(duì)于博士生和研究人員來(lái)說(shuō)更加容易獲得,引發(fā)了深度學(xué)習(xí)研究的繁榮。

在過(guò)去的十年中,許多公司,無(wú)論是大公司還是初創(chuàng)公司,都試圖為人工智能創(chuàng)建新的硬件。最值得注意的嘗試包括Google的TPU、Graphcore的IPU以及Cerebras。SambaNova也籌集了超過(guò)10億美元來(lái)開(kāi)發(fā)新的AI芯片,但似乎已轉(zhuǎn)向成為生成式AI平臺(tái)。

期間,量子計(jì)算也引發(fā)了很多期待,其中主要參與者包括:

·IBM的量子處理器

·Google的量子計(jì)算機(jī)。今年早些時(shí)候在《自然》雜志上報(bào)告了量子錯(cuò)誤降低的重要里程碑。它的量子虛擬機(jī)可以通過(guò)Google Colab公開(kāi)訪問(wèn)。

·高校的研究實(shí)驗(yàn)室,如MIT量子工程中心、馬普量子光學(xué)研究所、芝加哥量子交流中心等。

另一個(gè)同樣令人興奮的方向是光子芯片。這是我了解最少的方向,如有錯(cuò)誤,望指正。

現(xiàn)有芯片使用電力傳輸數(shù)據(jù),這消耗了大量能量,并產(chǎn)生了延遲。光子芯片使用光子傳輸數(shù)據(jù),利用光的速度進(jìn)行更快、更高效的計(jì)算。在這一領(lǐng)域,各種初創(chuàng)公司已籌集了數(shù)億美元,包括Lightmatter(2.7億美元)、Ayar Labs(2.2億美元)、Lightelligence(2億美元以上)和Luminous Computing(1.15億美元)。

以下是光子矩陣計(jì)算三種主要方法的進(jìn)展時(shí)間線,摘自Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022).。這三種不同的方法分別是平面光轉(zhuǎn)換(PLC)、馬赫-曾德干涉儀(MZI)和波分復(fù)用(WDM)。

07、提高agent的可用性

agent可以視為能夠采取行動(dòng)的LLMs,例如瀏覽互聯(lián)網(wǎng)、發(fā)送電子郵件等。與本文中的其他研究方向相比,這可能是最年輕的方向。

由于其新穎性和巨大潛力,人們對(duì)agent產(chǎn)生了極大的興趣。Auto-GPT現(xiàn)在是GitHub上星標(biāo)數(shù)量排名第25的最受歡迎的庫(kù)。GPT-Engineering也是另一個(gè)受歡迎的庫(kù)。

盡管如此,人們?nèi)匀粚?duì)LLMs是否足夠可靠、性能良好、具備一定行動(dòng)能力存在疑慮。

現(xiàn)在有一個(gè)有趣的應(yīng)用方向,是將agent用于社會(huì)研究。一項(xiàng)斯坦福實(shí)驗(yàn)表明,一小群生成式agent產(chǎn)生了新興的社會(huì)行為:僅從一個(gè)用戶指定的想法開(kāi)始,即一個(gè)agent想要舉辦情人節(jié)派對(duì),其他一些agent在接下來(lái)的兩天內(nèi)自主傳播了派對(duì)的邀請(qǐng),結(jié)識(shí)了新朋友,相互邀請(qǐng)參加派對(duì)...((Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023)。

在這一領(lǐng)域,最值得注意的初創(chuàng)公司可能是Adept,由兩位Transformer的合著者(盡管兩人都已離開(kāi))和一位前OpenAI副總裁創(chuàng)立,迄今已籌集了近5億美元。去年,他們展示了其開(kāi)發(fā)的agen如何瀏覽互聯(lián)網(wǎng)并在Salesforce上添加新賬戶。我期待看到他們的新演示 。

08、提升從人類偏好中學(xué)習(xí)的能力

RLHF(Reinforcement Learning from Human Preference,從人類偏好中進(jìn)行強(qiáng)化學(xué)習(xí))很酷,但有點(diǎn)繁瑣。

我絲毫不意外人們會(huì)找到更好的訓(xùn)練LLMs的方法。關(guān)于RLHF,有許多開(kāi)放問(wèn)題,例如:

·如何在數(shù)學(xué)上表示人類偏好?

目前,人類偏好是通過(guò)比較來(lái)確定的:人類標(biāo)注者確定回答A是否優(yōu)于回答B(yǎng)。然而,它沒(méi)有考慮到回答A相對(duì)于回答B(yǎng)的優(yōu)劣程度具體是多少。

·什么是人類偏好?

Anthropic通過(guò)三個(gè)維度來(lái)衡量模型回答的質(zhì)量:有幫助、誠(chéng)實(shí)和無(wú)害。參考論文:Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)。

DeepMind試圖生成最能取悅大多數(shù)人的回答。參考論文:Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).

另外,我們是想擁有能夠表態(tài)的AI,還是一個(gè)在任何可能引發(fā)爭(zhēng)議的話題上避而不談的普通AI?

·“人類”偏好是誰(shuí)的偏好,考慮到文化、宗教、政治傾向等的差異?

獲取足夠代表所有潛在用戶的訓(xùn)練數(shù)據(jù),存在許多挑戰(zhàn)。

例如,OpenAI的InstructGPT數(shù)據(jù),沒(méi)有65歲以上的標(biāo)注者。標(biāo)注者主要是菲律賓人和孟加拉人。參考論文:InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).

近年來(lái),AI社區(qū)主導(dǎo)的努力,雖然初衷令人欽佩,但數(shù)據(jù)偏見(jiàn)依然存在。例如,在OpenAssistant數(shù)據(jù)集中,222名調(diào)查對(duì)象中有201名(90.5%)自我報(bào)告為男性。Jeremy Howard在Twitter上發(fā)表了一系列關(guān)于此問(wèn)題的推文。

09、提高聊天界面的效率

有了ChatGPT之后,關(guān)于聊天是否適合廣泛范圍任務(wù)的討論就一直不絕于耳。比如:

·Natural language is the lazy user interface (Austin Z. Henley, 2023)

·Why Chatbots Are Not the Future (Amelia Wattenberger, 2023)

·What Types of Questions Require Conversation to Answer? A Case Study of AskReddit Questions (Huang et al., 2023)

·AI chat interfaces could become the primary user interface to read documentation (Tom Johnson, 2023)

·Interacting with LLMs with Minimal Chat (Eugene Yan, 2023)

然而,這不是一個(gè)新的討論。在許多國(guó)家,尤其是在亞洲,聊天已經(jīng)作為超級(jí)應(yīng)用程序的界面使用了大約十年時(shí)間。Dan Grover在2014年就進(jìn)行了這個(gè)現(xiàn)象的討論。

這類討論在2016年再次變得緊俏,很多人的看法是,現(xiàn)有的應(yīng)用類型已經(jīng)過(guò)時(shí),聊天機(jī)器人將是未來(lái)。例如下列的研究:

·On chat as interface (Alistair Croll, 2016)

·Is the Chatbot Trend One Big Misunderstanding? (Will Knight, 2016)

·Bots won’t replace apps. Better apps will replace apps (Dan Grover, 2016)

就我個(gè)人而言,我喜歡聊天界面,原因如下:

聊天界面是一個(gè)每個(gè)人(甚至是沒(méi)有之前接觸過(guò)計(jì)算機(jī)或互聯(lián)網(wǎng)的人)都可以快速學(xué)會(huì)使用的界面。

2010年代初,我在肯尼亞的一個(gè)低收入居民區(qū)志愿工作時(shí),我驚訝地發(fā)現(xiàn),那里的每個(gè)人都很適應(yīng)在手機(jī)上通過(guò)短信進(jìn)行銀行業(yè)務(wù)。即便那個(gè)社區(qū)沒(méi)有人有計(jì)算機(jī)。

聊天界面通常是易于訪問(wèn)的。如果我們雙手忙于其他事情,也可以使用語(yǔ)音而不是文字。

聊天界面還是一種非常強(qiáng)大的界面,用戶提出任何請(qǐng)求,它都會(huì)做出回應(yīng),即使有些回應(yīng)不是很好。

然而,我認(rèn)為聊天界面在某些方面可以進(jìn)行改進(jìn):

·一輪內(nèi)多條消息

目前,我們幾乎是假設(shè)每次只有一條消息。但我和我的朋友在發(fā)短信時(shí),經(jīng)常需要多條消息才能完成一次聊天,因?yàn)槲倚枰迦氩煌臄?shù)據(jù)(例如圖像、位置、鏈接),我在之前的消息中忘記了某些內(nèi)容,或者我只是不想把所有內(nèi)容都放在一大段落中。

·多模態(tài)輸入

在多模態(tài)應(yīng)用領(lǐng)域,大部分精力都花在構(gòu)建更好的模型上,而很少花在構(gòu)建更好的界面上。以英偉達(dá)的NeVA聊天機(jī)器人為例。我不是用戶體驗(yàn)專家,但我認(rèn)為這里可能有改進(jìn)的空間。

P.S. 對(duì)不起,NeVA團(tuán)隊(duì),因?yàn)槲尹c(diǎn)名批評(píng)了你們。盡管如此,你們的工作仍然非常棒!

圖:NVIDIA的NeVA界面

·將生成式人工智能融入工作流程

Linus Lee在他的演講“Generative AI interface beyond chats”中很好地介紹了這一點(diǎn)。例如,如果你想問(wèn)關(guān)于正在處理的圖表列的問(wèn)題,你應(yīng)該能夠只需指向該列并提問(wèn)。

·編輯和刪除消息

編輯或刪除用戶輸入,將如何改變與聊天機(jī)器人的對(duì)話流程?

10、為非英語(yǔ)語(yǔ)言構(gòu)建LLMs

我們知道,目前以英語(yǔ)為首的LLMs在許多其他語(yǔ)言中的表現(xiàn)都不好,無(wú)論是在性能、延遲還是速度方面。

下面是可以參考的相關(guān)研究:

·ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning (Lai et al., 2023)

·All languages are NOT created (tokenized) equal (Yennie Jun, 2023)

一些讀者告訴我,出于兩個(gè)原因,他們認(rèn)為我不應(yīng)該在這個(gè)方向上進(jìn)行探討。

這更多是一個(gè)“后勤”問(wèn)題,而不是一個(gè)研究問(wèn)題。我們已經(jīng)知道該如何做了。只需要有人投入金錢和精力。

這并不完全正確。大多數(shù)語(yǔ)言被認(rèn)為是低資源語(yǔ)言,例如,與英語(yǔ)或漢語(yǔ)相比,它們擁有的高質(zhì)量數(shù)據(jù)要少得多,可能需要不同的技術(shù)來(lái)訓(xùn)練大型語(yǔ)言模型。

下面是可以參考的相關(guān)研究:

·Low-resource Languages: A Review of Past Work and Future Challenges (Magueresse et al., 2020)

·JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages (Agi et al., 2019)

那些更為悲觀的人認(rèn)為,在未來(lái),許多語(yǔ)言將消亡,互聯(lián)網(wǎng)將由兩種語(yǔ)言構(gòu)成的兩個(gè)世界:英語(yǔ)和漢語(yǔ)。這種思維方式并不新鮮。有人還記得Esperanto嗎?

AI工具(如機(jī)器翻譯和聊天機(jī)器人)對(duì)語(yǔ)言學(xué)習(xí)的影響仍不清楚。它們會(huì)幫助人們更快地學(xué)習(xí)新語(yǔ)言,還是會(huì)徹底消除學(xué)習(xí)新語(yǔ)言的需要?

結(jié)論

上文提到的10大挑戰(zhàn),確實(shí)有一些問(wèn)題比其他問(wèn)題更難。

例如,我認(rèn)為第10項(xiàng),為非英語(yǔ)語(yǔ)言構(gòu)建LLMs,更直接地指向足夠的時(shí)間和資源。

第1項(xiàng),減少幻覺(jué),將會(huì)更加困難,因?yàn)榛糜X(jué)只是LLMs在進(jìn)行其概率性任務(wù)。

第4項(xiàng),使LLMs更快更便宜,永遠(yuǎn)不會(huì)達(dá)到完全解決的狀態(tài)。在這個(gè)領(lǐng)域已經(jīng)取得了很多進(jìn)展,還會(huì)有更多進(jìn)展,但我們永遠(yuǎn)不會(huì)停止改進(jìn)。

第5項(xiàng)和第6項(xiàng),新的架構(gòu)和新的硬件,非常具有挑戰(zhàn)性,是不可避免的。由于架構(gòu)和硬件之間的共生關(guān)系 , 新架構(gòu)需要針對(duì)常見(jiàn)硬件進(jìn)行優(yōu)化,而硬件需要支持常見(jiàn)架構(gòu) 。它們可能會(huì)由同一家公司解決。

其中,還有一些問(wèn)題不僅僅可以通過(guò)技術(shù)知識(shí)來(lái)解決。例如,第8項(xiàng),改進(jìn)從人類偏好中學(xué)習(xí),可能更多是一個(gè)策略問(wèn)題,而不是技術(shù)問(wèn)題。

第9項(xiàng),提高聊天界面的效率,更多是一個(gè)用戶體驗(yàn)問(wèn)題。我們需要更多具備非技術(shù)背景的人一起合作解決這些問(wèn)題。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

最頂尖的大語(yǔ)言模型人才,只關(guān)心這10個(gè)挑戰(zhàn)

當(dāng)AI模型編造虛假內(nèi)容……

編譯 | 硅兔賽跑 林檎

編輯 | 蔓蔓周

編者按:本文探討了大語(yǔ)言模型(LLM)研究中的十大挑戰(zhàn),作者是Chip Huyen,她畢業(yè)于斯坦福大學(xué),現(xiàn)為Claypot AI —— 一個(gè)實(shí)時(shí)機(jī)器學(xué)習(xí)平臺(tái)的創(chuàng)始人,此前在英偉達(dá)、Snorkel AI、Netflix、Primer公司開(kāi)發(fā)機(jī)器學(xué)習(xí)工具。 ”

我正目睹一個(gè)前所未有的現(xiàn)狀:全世界如此眾多的頂尖頭腦,如今都投入到“使語(yǔ)言模型(LLMs)變得更好”這個(gè)大一統(tǒng)的目標(biāo)中。

在與許多工業(yè)界及學(xué)術(shù)界同仁交談之后,我試著總結(jié)出十個(gè)正在蓬勃生長(zhǎng)的主要研究方向:

1. 減少和衡量幻覺(jué)(編者按:hallucinations,AI的幻覺(jué),即 AI 輸出中不正確或無(wú)意義的部分,盡管這類輸出在句法上是合理的)

2. 優(yōu)化上下文長(zhǎng)度和上下文構(gòu)建

3. 融入其他數(shù)據(jù)模態(tài)

4. 提高LLMs的速度和降低成本

5. 設(shè)計(jì)新的模型架構(gòu)

6. 開(kāi)發(fā)GPU替代方案

7. 提高agent的可用性

8. 改進(jìn)從人類偏好中學(xué)習(xí)的能力

9. 提高聊天界面的效率

10. 為非英語(yǔ)語(yǔ)言構(gòu)建LLMs

其中,前兩個(gè)方向,即減少“幻覺(jué)”和“上下文學(xué)習(xí)”,可能是當(dāng)下最火的方向。而我個(gè)人對(duì)第3項(xiàng)(多模態(tài))、第5項(xiàng)(新架構(gòu))和第6項(xiàng)(GPU替代方案)最感興趣。

01、減少和衡量幻覺(jué)

它是指當(dāng)AI模型編造虛假內(nèi)容時(shí)發(fā)生的現(xiàn)象。

對(duì)于許多需要?jiǎng)?chuàng)造性的場(chǎng)景,幻覺(jué)是一種難以回避的特性。然而,對(duì)于大多數(shù)其他應(yīng)用場(chǎng)景,它是一個(gè)缺陷。

最近我參加了一個(gè)關(guān)于LLM的討論小組,與Dropbox、Langchain、Elastics和Anthropic等公司的人員進(jìn)行了交流,他們認(rèn)為,企業(yè)大規(guī)模采用LLM進(jìn)行商業(yè)生產(chǎn),最大的障礙就是幻覺(jué)問(wèn)題。

減輕幻覺(jué)現(xiàn)象并開(kāi)發(fā)衡量幻覺(jué)的指標(biāo),是一個(gè)蓬勃發(fā)展的研究課題,許多初創(chuàng)公司都專注于解決這個(gè)問(wèn)題。

目前也有一些臨時(shí)的方法可以減少幻覺(jué),比如為提示添加更多的上下文、思維鏈、自洽性,或者要求模型的輸出保持簡(jiǎn)潔。

以下是可以參考的相關(guān)演講

·Survey of Hallucination in Natural Language Generation (Ji et al., 2022)

·How Language Model Hallucinations Can Snowball (Zhang et al., 2023)

·A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity (Bang et al., 2023)

·Contrastive Learning Reduces Hallucination in Conversations (Sun et al., 2022)

·Self-Consistency Improves Chain of Thought Reasoning in Language Models (Wang et al., 2022)

·SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (Manakul et al., 2023)

02、優(yōu)化上下文長(zhǎng)度和上下文構(gòu)建

AI面對(duì)的絕大多數(shù)問(wèn)題都需要上下文。

例如,如果我們問(wèn)ChatGPT:“哪家越南餐廳最好?”,所需上下文可能是“在哪里”,因?yàn)樵侥献詈玫牟蛷d和美國(guó)最好的越南餐廳可能不同。

根據(jù)《SituatedQA》(Zhang&Choi,2021)這篇有趣的論文,相當(dāng)大比例的信息尋求問(wèn)題都有依賴于上下文的答案,例如,NQ-Open數(shù)據(jù)集中就有約占16.5%的問(wèn)題是這一類問(wèn)題。

我個(gè)人認(rèn)為,對(duì)于企業(yè)應(yīng)用場(chǎng)景來(lái)說(shuō),這個(gè)比例還可能更高。假設(shè)一家公司為客戶構(gòu)建了一個(gè)聊天機(jī)器人,要讓這個(gè)機(jī)器人能夠回答任何產(chǎn)品的任何客戶問(wèn)題,那么所需上下文,可能是客戶的歷史記錄或該產(chǎn)品的信息。

因?yàn)槟P褪菑奶峁┙o它的上下文中“學(xué)習(xí)”的,這個(gè)過(guò)程也被稱為上下文學(xué)習(xí)。

對(duì)于檢索增強(qiáng)生成(RAG,也是LLM行業(yè)應(yīng)用方向的主要方法),上下文長(zhǎng)度尤為重要。

RAG可以簡(jiǎn)單分為兩個(gè)階段:

第一階段:分塊(也稱為索引)

收集所有要供LLM使用的文檔,將這些文檔分成可以輸入LLM以生成嵌入的塊,并將這些嵌入存儲(chǔ)在向量數(shù)據(jù)庫(kù)中。

第二階段:查詢

當(dāng)用戶發(fā)送查詢,如“我的保險(xiǎn)政策是否可以支付這種藥物X”,LLM將此查詢轉(zhuǎn)換為嵌入,我們稱之為查詢嵌入,向量數(shù)據(jù)庫(kù)會(huì)獲取與查詢嵌入最相似的塊。

圖:來(lái)自Jerry Liu關(guān)于LlamaIndex(2023)的演講截圖

上下文長(zhǎng)度越長(zhǎng),我們就可以在上下文中插入更多塊。但是,模型可以訪問(wèn)的信息越多,它的回復(fù)就會(huì)越好嗎?

并不總是這樣。模型可以使用多少上下文以及該模型將如何高效地使用,是兩個(gè)不同的問(wèn)題。與增加模型上下文長(zhǎng)度同樣重要的,是對(duì)上下文更高效的學(xué)習(xí),后者也被稱之為“提示工程”。

最近一篇廣為流傳的論文,就是關(guān)于模型從索引的開(kāi)頭和結(jié)尾比從中間進(jìn)行信息理解表現(xiàn)要好得多:Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

03、融入其他數(shù)據(jù)模態(tài)

在我看來(lái),多模態(tài)是如此強(qiáng)大,卻又常常被低估。

首先,許多現(xiàn)實(shí)的應(yīng)用場(chǎng)景就需要處理大量多模態(tài)數(shù)據(jù),如醫(yī)療保健、機(jī)器人技術(shù)、電子商務(wù)、零售、游戲、娛樂(lè)等。醫(yī)學(xué)預(yù)測(cè)需要同時(shí)使用文本(如醫(yī)生的筆記、患者的問(wèn)卷)和圖像(如CT、X射線、MRI掃描);產(chǎn)品數(shù)據(jù)通常包含圖像、視頻、描述,甚至是表格數(shù)據(jù)(如生產(chǎn)日期、重量、顏色)。

其次,多模態(tài)承諾能為模型性能帶來(lái)巨大提升。一個(gè)既能理解文本又能理解圖像的模型,難道不會(huì)比僅能理解文本的模型表現(xiàn)更好嗎?基于文本的模型需要大量的文本數(shù)據(jù),現(xiàn)在我們確實(shí)在擔(dān)心用于訓(xùn)練基于文本模型的互聯(lián)網(wǎng)數(shù)據(jù)會(huì)被耗盡。一旦文本用盡,我們就需要利用其他數(shù)據(jù)模態(tài)。

最近有一個(gè)應(yīng)用方向讓我感到格外興奮,那就是,多模態(tài)技術(shù)可以幫助視障人士瀏覽互聯(lián)網(wǎng)和導(dǎo)航現(xiàn)實(shí)世界。

以下為幾項(xiàng)杰出的多模態(tài)研究進(jìn)展:

·[CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)

·Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)

·BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)

·KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)

·PaLM-E: An embodied multimodal language model (Google, 2023)

·LLaVA: Visual Instruction Tuning (Liu et al., 2023)

·NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)

04、提高LLMs的速度和降低成本

GPT-3.5于2022年11月末首次推出的時(shí)候,很多人對(duì)在生產(chǎn)中使用該模型的延遲和成本表示擔(dān)憂。

如今,GPT-3.5使用造成的延遲/成本分析又有了新的變化。在半年內(nèi),整個(gè)模型社區(qū)找到了一種新方法,能夠創(chuàng)建一個(gè)在性能方面幾乎接近GPT-3.5、但其內(nèi)存占用不到前者2%的模型。

由此,我的一個(gè)觀點(diǎn)是:如果你創(chuàng)造出足夠優(yōu)秀的東西,其他人會(huì)想盡辦法使其變得快速且經(jīng)濟(jì)高效。

以下是根據(jù)Guanaco論文中報(bào)告的數(shù)據(jù),該數(shù)據(jù)對(duì)比了Guanaco 7B與ChatGPT GPT-3.5和GPT-4的性能。

需要注意的是,總體而言,這些模型性能都還遠(yuǎn)非完美。對(duì)LLM來(lái)說(shuō),大幅地提升性能依然非常困難。

記得四年前,當(dāng)我開(kāi)始著手撰寫(xiě)《設(shè)計(jì)機(jī)器學(xué)習(xí)系統(tǒng)》一書(shū)中“模型壓縮”部分的筆記時(shí),業(yè)內(nèi)主要有四種模型優(yōu)化/壓縮技術(shù):

1.量化:迄今為止最通用的模型優(yōu)化方法。量化通過(guò)使用較少的bits來(lái)表示模型的參數(shù)來(lái)減小模型的大小,例如,不再使用32位來(lái)表示浮點(diǎn)數(shù),而只使用16位,甚至4位。

2.知識(shí)蒸餾:即訓(xùn)練出一個(gè)小模型(學(xué)生模型),它能夠模仿一個(gè)更大的模型或模型集合(教師模型)。

3.低秩分解:它的關(guān)鍵思想是使用低維張量來(lái)替代高維張量,以減少參數(shù)的數(shù)量。例如,可以將一個(gè)3x3的張量分解為一個(gè)3x1的張量和一個(gè)1x3的張量的乘積,從而不再有9個(gè)參數(shù),而只有6個(gè)參數(shù)。

4.剪枝:指通過(guò)去除模型中對(duì)整體性能貢獻(xiàn)較小的權(quán)重或連接來(lái)減小模型的大小。

這四種技術(shù)至今仍然流行。Alpaca是通過(guò)知識(shí)蒸餾進(jìn)行訓(xùn)練的,QLoRA則采用了低秩分解和量化的組合方式。

05、設(shè)計(jì)新的模型架構(gòu)

自2012年的AlexNet以來(lái),我們已經(jīng)看到許多架構(gòu)潮起又潮落,包括LSTM、seq2seq等。

與這些架構(gòu)相比,問(wèn)世于2017年的Transformer異常穩(wěn)定,雖然目前尚不清楚這個(gè)架構(gòu)還會(huì)流行多久。

要開(kāi)發(fā)一種能夠勝過(guò)Transformer的新架構(gòu)并不容易。在過(guò)去的6年中,Transformer已經(jīng)經(jīng)過(guò)了大量的優(yōu)化,在合適的硬件上,這個(gè)模型的規(guī)模和效果可以達(dá)到讓人贊嘆的出色效果(PS:Transformer最早是由Google設(shè)計(jì)成在TPU上快速運(yùn)行的,后來(lái)才在GPU上進(jìn)行了優(yōu)化)。

2021年,Chris Ré實(shí)驗(yàn)室的研究“Efficiently Modeling Long Sequences with Structured State Spaces” (Gu et al., 2021),在行業(yè)內(nèi)引發(fā)了大量討論。我不太確定后來(lái)發(fā)生了什么。但Chris Ré實(shí)驗(yàn)室仍在積極開(kāi)發(fā)新架構(gòu),他們最近與初創(chuàng)公司Together合作推出了名為Monarch Mixer的架構(gòu)。

他們的主要思想是,對(duì)于現(xiàn)有的Transformer架構(gòu),注意力的復(fù)雜度與序列長(zhǎng)度的平方成正比,MLP的復(fù)雜度與模型維度的平方成正比。具有次二次復(fù)雜度的架構(gòu)將更加高效。

我確信許多其他實(shí)驗(yàn)室也在探索這個(gè)思路,雖然我不知道是否有任何已經(jīng)公開(kāi)嘗試過(guò)的研究。如果您曉得個(gè)中進(jìn)展,歡迎聯(lián)系我!

06、開(kāi)發(fā)GPU替代方案

2012年AlexNet問(wèn)世以來(lái),GPU一直是深度學(xué)習(xí)的主要硬件。

事實(shí)上,AlexNet之所以受歡迎,其中一個(gè)普遍認(rèn)可的原因是,它是第一篇成功使用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)的論文。在GPU之前,如果要訓(xùn)練一個(gè)與AlexNet相當(dāng)規(guī)模的模型,你需要?jiǎng)佑贸汕先f(wàn)個(gè)CPU,就像在AlexNet之前幾個(gè)月Google發(fā)布的那臺(tái)服務(wù)器一樣。

與成千上萬(wàn)個(gè)CPU相比,幾塊GPU對(duì)于博士生和研究人員來(lái)說(shuō)更加容易獲得,引發(fā)了深度學(xué)習(xí)研究的繁榮。

在過(guò)去的十年中,許多公司,無(wú)論是大公司還是初創(chuàng)公司,都試圖為人工智能創(chuàng)建新的硬件。最值得注意的嘗試包括Google的TPU、Graphcore的IPU以及Cerebras。SambaNova也籌集了超過(guò)10億美元來(lái)開(kāi)發(fā)新的AI芯片,但似乎已轉(zhuǎn)向成為生成式AI平臺(tái)。

期間,量子計(jì)算也引發(fā)了很多期待,其中主要參與者包括:

·IBM的量子處理器

·Google的量子計(jì)算機(jī)。今年早些時(shí)候在《自然》雜志上報(bào)告了量子錯(cuò)誤降低的重要里程碑。它的量子虛擬機(jī)可以通過(guò)Google Colab公開(kāi)訪問(wèn)。

·高校的研究實(shí)驗(yàn)室,如MIT量子工程中心、馬普量子光學(xué)研究所、芝加哥量子交流中心等。

另一個(gè)同樣令人興奮的方向是光子芯片。這是我了解最少的方向,如有錯(cuò)誤,望指正。

現(xiàn)有芯片使用電力傳輸數(shù)據(jù),這消耗了大量能量,并產(chǎn)生了延遲。光子芯片使用光子傳輸數(shù)據(jù),利用光的速度進(jìn)行更快、更高效的計(jì)算。在這一領(lǐng)域,各種初創(chuàng)公司已籌集了數(shù)億美元,包括Lightmatter(2.7億美元)、Ayar Labs(2.2億美元)、Lightelligence(2億美元以上)和Luminous Computing(1.15億美元)。

以下是光子矩陣計(jì)算三種主要方法的進(jìn)展時(shí)間線,摘自Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022).。這三種不同的方法分別是平面光轉(zhuǎn)換(PLC)、馬赫-曾德干涉儀(MZI)和波分復(fù)用(WDM)。

07、提高agent的可用性

agent可以視為能夠采取行動(dòng)的LLMs,例如瀏覽互聯(lián)網(wǎng)、發(fā)送電子郵件等。與本文中的其他研究方向相比,這可能是最年輕的方向。

由于其新穎性和巨大潛力,人們對(duì)agent產(chǎn)生了極大的興趣。Auto-GPT現(xiàn)在是GitHub上星標(biāo)數(shù)量排名第25的最受歡迎的庫(kù)。GPT-Engineering也是另一個(gè)受歡迎的庫(kù)。

盡管如此,人們?nèi)匀粚?duì)LLMs是否足夠可靠、性能良好、具備一定行動(dòng)能力存在疑慮。

現(xiàn)在有一個(gè)有趣的應(yīng)用方向,是將agent用于社會(huì)研究。一項(xiàng)斯坦福實(shí)驗(yàn)表明,一小群生成式agent產(chǎn)生了新興的社會(huì)行為:僅從一個(gè)用戶指定的想法開(kāi)始,即一個(gè)agent想要舉辦情人節(jié)派對(duì),其他一些agent在接下來(lái)的兩天內(nèi)自主傳播了派對(duì)的邀請(qǐng),結(jié)識(shí)了新朋友,相互邀請(qǐng)參加派對(duì)...((Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023)。

在這一領(lǐng)域,最值得注意的初創(chuàng)公司可能是Adept,由兩位Transformer的合著者(盡管兩人都已離開(kāi))和一位前OpenAI副總裁創(chuàng)立,迄今已籌集了近5億美元。去年,他們展示了其開(kāi)發(fā)的agen如何瀏覽互聯(lián)網(wǎng)并在Salesforce上添加新賬戶。我期待看到他們的新演示 。

08、提升從人類偏好中學(xué)習(xí)的能力

RLHF(Reinforcement Learning from Human Preference,從人類偏好中進(jìn)行強(qiáng)化學(xué)習(xí))很酷,但有點(diǎn)繁瑣。

我絲毫不意外人們會(huì)找到更好的訓(xùn)練LLMs的方法。關(guān)于RLHF,有許多開(kāi)放問(wèn)題,例如:

·如何在數(shù)學(xué)上表示人類偏好?

目前,人類偏好是通過(guò)比較來(lái)確定的:人類標(biāo)注者確定回答A是否優(yōu)于回答B(yǎng)。然而,它沒(méi)有考慮到回答A相對(duì)于回答B(yǎng)的優(yōu)劣程度具體是多少。

·什么是人類偏好?

Anthropic通過(guò)三個(gè)維度來(lái)衡量模型回答的質(zhì)量:有幫助、誠(chéng)實(shí)和無(wú)害。參考論文:Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)。

DeepMind試圖生成最能取悅大多數(shù)人的回答。參考論文:Fine-tuning language models to find agreement among humans with diverse preferences, (Bakker et al., 2022).

另外,我們是想擁有能夠表態(tài)的AI,還是一個(gè)在任何可能引發(fā)爭(zhēng)議的話題上避而不談的普通AI?

·“人類”偏好是誰(shuí)的偏好,考慮到文化、宗教、政治傾向等的差異?

獲取足夠代表所有潛在用戶的訓(xùn)練數(shù)據(jù),存在許多挑戰(zhàn)。

例如,OpenAI的InstructGPT數(shù)據(jù),沒(méi)有65歲以上的標(biāo)注者。標(biāo)注者主要是菲律賓人和孟加拉人。參考論文:InstructGPT: Training language models to follow instructions with human feedback (Ouyang et al., 2022).

近年來(lái),AI社區(qū)主導(dǎo)的努力,雖然初衷令人欽佩,但數(shù)據(jù)偏見(jiàn)依然存在。例如,在OpenAssistant數(shù)據(jù)集中,222名調(diào)查對(duì)象中有201名(90.5%)自我報(bào)告為男性。Jeremy Howard在Twitter上發(fā)表了一系列關(guān)于此問(wèn)題的推文。

09、提高聊天界面的效率

有了ChatGPT之后,關(guān)于聊天是否適合廣泛范圍任務(wù)的討論就一直不絕于耳。比如:

·Natural language is the lazy user interface (Austin Z. Henley, 2023)

·Why Chatbots Are Not the Future (Amelia Wattenberger, 2023)

·What Types of Questions Require Conversation to Answer? A Case Study of AskReddit Questions (Huang et al., 2023)

·AI chat interfaces could become the primary user interface to read documentation (Tom Johnson, 2023)

·Interacting with LLMs with Minimal Chat (Eugene Yan, 2023)

然而,這不是一個(gè)新的討論。在許多國(guó)家,尤其是在亞洲,聊天已經(jīng)作為超級(jí)應(yīng)用程序的界面使用了大約十年時(shí)間。Dan Grover在2014年就進(jìn)行了這個(gè)現(xiàn)象的討論。

這類討論在2016年再次變得緊俏,很多人的看法是,現(xiàn)有的應(yīng)用類型已經(jīng)過(guò)時(shí),聊天機(jī)器人將是未來(lái)。例如下列的研究:

·On chat as interface (Alistair Croll, 2016)

·Is the Chatbot Trend One Big Misunderstanding? (Will Knight, 2016)

·Bots won’t replace apps. Better apps will replace apps (Dan Grover, 2016)

就我個(gè)人而言,我喜歡聊天界面,原因如下:

聊天界面是一個(gè)每個(gè)人(甚至是沒(méi)有之前接觸過(guò)計(jì)算機(jī)或互聯(lián)網(wǎng)的人)都可以快速學(xué)會(huì)使用的界面。

2010年代初,我在肯尼亞的一個(gè)低收入居民區(qū)志愿工作時(shí),我驚訝地發(fā)現(xiàn),那里的每個(gè)人都很適應(yīng)在手機(jī)上通過(guò)短信進(jìn)行銀行業(yè)務(wù)。即便那個(gè)社區(qū)沒(méi)有人有計(jì)算機(jī)。

聊天界面通常是易于訪問(wèn)的。如果我們雙手忙于其他事情,也可以使用語(yǔ)音而不是文字。

聊天界面還是一種非常強(qiáng)大的界面,用戶提出任何請(qǐng)求,它都會(huì)做出回應(yīng),即使有些回應(yīng)不是很好。

然而,我認(rèn)為聊天界面在某些方面可以進(jìn)行改進(jìn):

·一輪內(nèi)多條消息

目前,我們幾乎是假設(shè)每次只有一條消息。但我和我的朋友在發(fā)短信時(shí),經(jīng)常需要多條消息才能完成一次聊天,因?yàn)槲倚枰迦氩煌臄?shù)據(jù)(例如圖像、位置、鏈接),我在之前的消息中忘記了某些內(nèi)容,或者我只是不想把所有內(nèi)容都放在一大段落中。

·多模態(tài)輸入

在多模態(tài)應(yīng)用領(lǐng)域,大部分精力都花在構(gòu)建更好的模型上,而很少花在構(gòu)建更好的界面上。以英偉達(dá)的NeVA聊天機(jī)器人為例。我不是用戶體驗(yàn)專家,但我認(rèn)為這里可能有改進(jìn)的空間。

P.S. 對(duì)不起,NeVA團(tuán)隊(duì),因?yàn)槲尹c(diǎn)名批評(píng)了你們。盡管如此,你們的工作仍然非常棒!

圖:NVIDIA的NeVA界面

·將生成式人工智能融入工作流程

Linus Lee在他的演講“Generative AI interface beyond chats”中很好地介紹了這一點(diǎn)。例如,如果你想問(wèn)關(guān)于正在處理的圖表列的問(wèn)題,你應(yīng)該能夠只需指向該列并提問(wèn)。

·編輯和刪除消息

編輯或刪除用戶輸入,將如何改變與聊天機(jī)器人的對(duì)話流程?

10、為非英語(yǔ)語(yǔ)言構(gòu)建LLMs

我們知道,目前以英語(yǔ)為首的LLMs在許多其他語(yǔ)言中的表現(xiàn)都不好,無(wú)論是在性能、延遲還是速度方面。

下面是可以參考的相關(guān)研究:

·ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning (Lai et al., 2023)

·All languages are NOT created (tokenized) equal (Yennie Jun, 2023)

一些讀者告訴我,出于兩個(gè)原因,他們認(rèn)為我不應(yīng)該在這個(gè)方向上進(jìn)行探討。

這更多是一個(gè)“后勤”問(wèn)題,而不是一個(gè)研究問(wèn)題。我們已經(jīng)知道該如何做了。只需要有人投入金錢和精力。

這并不完全正確。大多數(shù)語(yǔ)言被認(rèn)為是低資源語(yǔ)言,例如,與英語(yǔ)或漢語(yǔ)相比,它們擁有的高質(zhì)量數(shù)據(jù)要少得多,可能需要不同的技術(shù)來(lái)訓(xùn)練大型語(yǔ)言模型。

下面是可以參考的相關(guān)研究:

·Low-resource Languages: A Review of Past Work and Future Challenges (Magueresse et al., 2020)

·JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages (Agi et al., 2019)

那些更為悲觀的人認(rèn)為,在未來(lái),許多語(yǔ)言將消亡,互聯(lián)網(wǎng)將由兩種語(yǔ)言構(gòu)成的兩個(gè)世界:英語(yǔ)和漢語(yǔ)。這種思維方式并不新鮮。有人還記得Esperanto嗎?

AI工具(如機(jī)器翻譯和聊天機(jī)器人)對(duì)語(yǔ)言學(xué)習(xí)的影響仍不清楚。它們會(huì)幫助人們更快地學(xué)習(xí)新語(yǔ)言,還是會(huì)徹底消除學(xué)習(xí)新語(yǔ)言的需要?

結(jié)論

上文提到的10大挑戰(zhàn),確實(shí)有一些問(wèn)題比其他問(wèn)題更難。

例如,我認(rèn)為第10項(xiàng),為非英語(yǔ)語(yǔ)言構(gòu)建LLMs,更直接地指向足夠的時(shí)間和資源。

第1項(xiàng),減少幻覺(jué),將會(huì)更加困難,因?yàn)榛糜X(jué)只是LLMs在進(jìn)行其概率性任務(wù)。

第4項(xiàng),使LLMs更快更便宜,永遠(yuǎn)不會(huì)達(dá)到完全解決的狀態(tài)。在這個(gè)領(lǐng)域已經(jīng)取得了很多進(jìn)展,還會(huì)有更多進(jìn)展,但我們永遠(yuǎn)不會(huì)停止改進(jìn)。

第5項(xiàng)和第6項(xiàng),新的架構(gòu)和新的硬件,非常具有挑戰(zhàn)性,是不可避免的。由于架構(gòu)和硬件之間的共生關(guān)系 , 新架構(gòu)需要針對(duì)常見(jiàn)硬件進(jìn)行優(yōu)化,而硬件需要支持常見(jiàn)架構(gòu) 。它們可能會(huì)由同一家公司解決。

其中,還有一些問(wèn)題不僅僅可以通過(guò)技術(shù)知識(shí)來(lái)解決。例如,第8項(xiàng),改進(jìn)從人類偏好中學(xué)習(xí),可能更多是一個(gè)策略問(wèn)題,而不是技術(shù)問(wèn)題。

第9項(xiàng),提高聊天界面的效率,更多是一個(gè)用戶體驗(yàn)問(wèn)題。我們需要更多具備非技術(shù)背景的人一起合作解決這些問(wèn)題。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。