正在閱讀:

AI智能體,人工智能的“增程模式”?

掃一掃下載界面新聞APP

AI智能體,人工智能的“增程模式”?

人工智能的齒輪再次轉(zhuǎn)動(dòng)。

文 | 極智GeeTech

在人工智能的發(fā)展長(zhǎng)河中,我們正站在一個(gè)激動(dòng)人心的轉(zhuǎn)折點(diǎn)。

想象一下,未來(lái)的人工智能什么樣?只需簡(jiǎn)單一個(gè)指令,它們便能領(lǐng)悟并執(zhí)行復(fù)雜的任務(wù);它們還能通過(guò)視覺(jué)捕捉用戶的表情和動(dòng)作,判斷其情緒狀態(tài)。這不再是好萊塢科幻電影中的場(chǎng)景,而是正逐步走進(jìn)現(xiàn)實(shí)的AI智能體時(shí)代。

早在2023年11月,微軟創(chuàng)始人比爾·蓋茨就發(fā)文表示,智能體不僅會(huì)改變每個(gè)人與計(jì)算機(jī)交互的方式,還將顛覆軟件行業(yè),帶來(lái)自我們從鍵入命令到點(diǎn)擊圖標(biāo)以來(lái)最大的計(jì)算革命。OpenAI首席執(zhí)行官山姆·奧特曼也曾在多個(gè)場(chǎng)合表示:構(gòu)建龐大AI模型的時(shí)代已經(jīng)結(jié)束,AI智能體才是未來(lái)的真正挑戰(zhàn)。今年4月份,AI著名學(xué)者、斯坦福大學(xué)教授吳恩達(dá)指出,智能體工作流將在今年推動(dòng)AI取得巨大進(jìn)步,甚至可能超過(guò)下一代基礎(chǔ)模型。

類(lèi)比智能電動(dòng)汽車(chē),猶如其在新能源技術(shù)應(yīng)用和里程焦慮之間尋找到某種平衡的增程路線一樣,AI智能體讓人工智能進(jìn)入了“增程模式”,在AI技術(shù)和行業(yè)應(yīng)用之間盡可能達(dá)成新的平衡。

被看好的AI智能體

顧名思義,AI智能體就是具有智能的實(shí)體,能夠自主感知環(huán)境、做出決策并執(zhí)行行動(dòng),它可以是一個(gè)程序、一個(gè)系統(tǒng),也可以是一個(gè)機(jī)器人。

去年,斯坦福大學(xué)和谷歌的聯(lián)合研究團(tuán)隊(duì)發(fā)表了一篇題為《生成式智能體:人類(lèi)行為的交互式模擬》的研究論文。在文中,居住在虛擬小鎮(zhèn)Smallville的25個(gè)虛擬人在接入ChatGPT之后,表現(xiàn)出各種類(lèi)似人類(lèi)的行為,由此帶火了AI智能體概念。

此后,很多研究團(tuán)隊(duì)將自己研發(fā)的大模型接入《我的世界》等游戲,比如,英偉達(dá)首席科學(xué)家Jim Fan在《我的世界》中創(chuàng)造出了一個(gè)名叫Voyager的AI智能體,很快, Voyager表現(xiàn)出了十分高超的學(xué)習(xí)能力,可以無(wú)師自通地學(xué)習(xí)到挖掘、建房屋、收集、打獵等游戲中的技能,還會(huì)根據(jù)不同的地形條件調(diào)整自己的資源收集策略。

OpenAI曾列出實(shí)現(xiàn)通用人工智能的五級(jí)路線圖:L1是聊天機(jī)器人;L2是推理者,即像人類(lèi)一樣能夠解決問(wèn)題的AI;L3是智能體,即不僅能思考,還可采取行動(dòng)的AI系統(tǒng);L4是創(chuàng)新者;L5是組織者。這其中,AI智能體恰好位于承前啟后的關(guān)鍵位置。

作為人工智能領(lǐng)域的一個(gè)重要概念,學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)AI智能體提出了各種定義。大致來(lái)說(shuō),一個(gè)AI智能體應(yīng)具備類(lèi)似人類(lèi)的思考和規(guī)劃能力,并具備一定的技能以便與環(huán)境和人類(lèi)進(jìn)行交互,完成特定的任務(wù)。

或許把AI智能體類(lèi)比成計(jì)算機(jī)環(huán)境中的數(shù)字人,我們會(huì)更好理解——數(shù)字人的大腦就是大語(yǔ)言模型或是人工智能算法,能夠處理信息、在實(shí)時(shí)交互中做出決策;感知模塊就相當(dāng)于眼睛、耳朵等感官,用來(lái)獲得文本、聲音、圖像等不同環(huán)境狀態(tài)的信息;記憶和檢索模塊則像神經(jīng)元,用來(lái)存儲(chǔ)經(jīng)驗(yàn)、輔助決策;行動(dòng)執(zhí)行模塊則是四肢,用來(lái)執(zhí)行大腦做出的決策。

長(zhǎng)久以來(lái),人類(lèi)一直在追求更加“類(lèi)人”甚至“超人”的人工智能,而智能體被認(rèn)為是實(shí)現(xiàn)這一追求的有效手段。近些年,隨著大數(shù)據(jù)和計(jì)算能力的提升,各種深度學(xué)習(xí)大模型得到了迅猛發(fā)展。這為開(kāi)發(fā)新一代AI智能體提供了巨大支撐,并在實(shí)踐中取得了較為顯著的進(jìn)展。

比如,谷歌DeepMind人工智能系統(tǒng)展示了用于機(jī)器人的AI智能體“RoboCat”;亞馬遜云科技推出了Amazon Bedrock智能體,可以自動(dòng)分解企業(yè)AI應(yīng)用開(kāi)發(fā)任務(wù)等等。Bedrock中的智能體能夠理解目標(biāo)、制定計(jì)劃并采取行動(dòng)。新的記憶保留功能允許智能體隨時(shí)間記住并從互動(dòng)中學(xué)習(xí),實(shí)現(xiàn)更復(fù)雜、更長(zhǎng)期運(yùn)行和更具適應(yīng)性的任務(wù)。

這些AI智能體的核心是人工智能算法,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等技術(shù)。通過(guò)這些算法,AI智能體可以從大量數(shù)據(jù)中學(xué)習(xí)并改進(jìn)自身的性能,不斷優(yōu)化自己的決策和行為,還可以根據(jù)環(huán)境變化做出靈活地調(diào)整,適應(yīng)不同場(chǎng)景和任務(wù)。

目前,AI智能體已在不少場(chǎng)景中得到應(yīng)用,如客服、編程、內(nèi)容創(chuàng)作、知識(shí)獲取、財(cái)務(wù)、手機(jī)助手、工業(yè)制造等。AI智能體的出現(xiàn),標(biāo)志著人工智能從簡(jiǎn)單的規(guī)則匹配和計(jì)算模擬向更高級(jí)別的自主智能邁進(jìn),促進(jìn)了生產(chǎn)效率的提升和生產(chǎn)方式的變革,開(kāi)辟了人們認(rèn)識(shí)和改造世界的新境界。

AI智能體的感官革命

莫拉維克悖論(Moravec’s paradox)指出,對(duì)于人工智能系統(tǒng)而言,高級(jí)推理只需非常少的計(jì)算能力,而實(shí)現(xiàn)人類(lèi)習(xí)以為常的感知運(yùn)動(dòng)技能卻需要耗費(fèi)巨大的計(jì)算資源。實(shí)質(zhì)上,與人類(lèi)本能可以完成的基本感官任務(wù)相比,復(fù)雜的邏輯任務(wù)對(duì)AI而言更加容易。這一悖論凸顯了現(xiàn)階段的AI與人類(lèi)認(rèn)知能力之間的差異。

著名計(jì)算機(jī)科學(xué)家吳恩達(dá)曾說(shuō):“人類(lèi)是多模態(tài)的生物,我們的AI也應(yīng)該是多模態(tài)的。”這句話道出了多模態(tài)AI的核心價(jià)值——讓機(jī)器更接近人類(lèi)的認(rèn)知方式,從而實(shí)現(xiàn)更自然、更高效的人機(jī)交互。

我們每個(gè)人就像一個(gè)智能終端,通常需要去學(xué)校上課接受學(xué)識(shí)熏陶(訓(xùn)練),但訓(xùn)練與學(xué)習(xí)的目的和結(jié)果是我們有能力自主工作和生活,而不需要總是依賴外部的指令和控制。人們通過(guò)視覺(jué)、語(yǔ)言、聲音、觸覺(jué)、味覺(jué)和嗅覺(jué)等多種感官模式來(lái)了解周?chē)氖澜?,進(jìn)而審時(shí)度勢(shì),進(jìn)行分析、推理、決斷并采取行動(dòng)。

AI智能體的核心在于“智能”,自主性是其主要特點(diǎn)之一。它們可以在沒(méi)有人類(lèi)干預(yù)的情況下,根據(jù)預(yù)設(shè)的規(guī)則和目標(biāo),獨(dú)立地完成任務(wù)。

想象一下,一輛無(wú)人駕駛車(chē)裝備了先進(jìn)的攝像頭、雷達(dá)和傳感器,這些高科技的“眼睛”讓它能夠“觀察”周?chē)氖澜?,捕捉到道路的?shí)時(shí)狀況、其他車(chē)輛的動(dòng)向、行人的位置以及交通信號(hào)的變化等信息。這些信息被傳輸?shù)綗o(wú)人駕駛車(chē)的大腦——一個(gè)復(fù)雜的智能決策系統(tǒng),這個(gè)系統(tǒng)能夠迅速分析這些數(shù)據(jù),并制定出相應(yīng)的駕駛策略。

例如,面對(duì)錯(cuò)綜復(fù)雜的交通環(huán)境,自動(dòng)駕駛汽車(chē)能夠計(jì)算出最優(yōu)的行駛路線,甚至在需要時(shí)做出變道等復(fù)雜決策。一旦決策制定,執(zhí)行系統(tǒng)便將這些智能決策轉(zhuǎn)化為具體的駕駛動(dòng)作,比如轉(zhuǎn)向、加速和制動(dòng)。

在基于龐大數(shù)據(jù)和復(fù)雜算法構(gòu)建的大型智能體模型中,交互性體現(xiàn)得較為明顯。能夠“聽(tīng)懂”并回應(yīng)人類(lèi)復(fù)雜多變的自然語(yǔ)言,正是AI智能體的神奇之處——它們不僅能夠“理解”人類(lèi)的語(yǔ)言,還能夠進(jìn)行流暢而富有洞察力的交互。

AI智能體不僅能迅速適應(yīng)各種任務(wù)和環(huán)境,還能通過(guò)持續(xù)學(xué)習(xí)不斷優(yōu)化自己的性能。自深度學(xué)習(xí)技術(shù)取得突破以來(lái),各種智能體模型通過(guò)不斷積累數(shù)據(jù)和自我完善,變得更加精準(zhǔn)和高效。

此外,AI智能體對(duì)環(huán)境的適應(yīng)性也十分強(qiáng)大,在倉(cāng)庫(kù)工作的自動(dòng)化機(jī)器人能夠?qū)崟r(shí)監(jiān)測(cè)并避開(kāi)障礙物。當(dāng)感知到某個(gè)貨架位置發(fā)生變化時(shí),它會(huì)立即更新其路徑規(guī)劃,有效地完成貨物的揀選和搬運(yùn)任務(wù)。

AI智能體的適應(yīng)性還體現(xiàn)在它們能夠根據(jù)用戶的反饋進(jìn)行自我調(diào)整。通過(guò)識(shí)別用戶的需求和偏好,AI智能體可以不斷優(yōu)化自己的行為和輸出,提供更加個(gè)性化的服務(wù),比如音樂(lè)軟件的音樂(lè)推薦、智能醫(yī)療的個(gè)性化治療等等。

多模態(tài)大模型和世界模型的出現(xiàn),顯著提升了智能體的感知、交互和推理能力。多模態(tài)大模型能夠處理多種感知模式(如視覺(jué)、語(yǔ)言),使智能體能夠更全面地理解和響應(yīng)復(fù)雜的環(huán)境。世界模型則通過(guò)模擬和理解物理環(huán)境中的規(guī)律,為智能體提供了更強(qiáng)的預(yù)測(cè)和規(guī)劃能力。

經(jīng)過(guò)多年的傳感器融合和AI演進(jìn),機(jī)器人現(xiàn)階段基本上都配備有多模態(tài)傳感器。隨著機(jī)器人等邊緣設(shè)備開(kāi)始具備更多的計(jì)算能力,這些設(shè)備正變得愈加智能,能夠感知周?chē)h(huán)境,理解并以自然語(yǔ)言進(jìn)行溝通,通過(guò)數(shù)字傳感界面獲得觸覺(jué),以及通過(guò)加速計(jì)、陀螺儀與磁力計(jì)等的組合,來(lái)感知機(jī)器人的比力、角速度,甚至機(jī)器人周?chē)拇艌?chǎng)。

在Transformer和大語(yǔ)言模型(LLM)出現(xiàn)之前,要在AI中實(shí)現(xiàn)多模態(tài),通常需要用到多個(gè)負(fù)責(zé)不同類(lèi)型數(shù)據(jù)(文本、圖像、音頻)的單獨(dú)模型,并通過(guò)復(fù)雜的過(guò)程對(duì)不同模態(tài)進(jìn)行集成。

而在Transformer和LLM出現(xiàn)后,多模態(tài)變得更加集成化,使得單個(gè)模型可以同時(shí)處理和理解多種數(shù)據(jù)類(lèi)型,從而產(chǎn)生對(duì)環(huán)境綜合感知能力更強(qiáng)大的AI系統(tǒng),這一轉(zhuǎn)變大大提高了多模態(tài)AI應(yīng)用的效率和有效性。

雖然GPT-3等LLM主要以文本為基礎(chǔ),但業(yè)界已朝著多模態(tài)取得了快速進(jìn)展。從OpenAI的CLIP和DALL·E,到現(xiàn)在的Sora和GPT-4o,都是向多模態(tài)和更自然的人機(jī)交互邁進(jìn)的模型范例。

例如,CLIP可理解與自然語(yǔ)言配對(duì)的圖像,從而在視覺(jué)和文本信息之間架起橋梁;DALL·E旨在根據(jù)文本描述生成圖像。我們看到Google Gemini模型也經(jīng)歷了類(lèi)似的演進(jìn)。

2024年,多模態(tài)演進(jìn)加速發(fā)展。今年2月,OpenAI發(fā)布了Sora,它可以根據(jù)文本描述生成逼真或富有想象力的視頻。仔細(xì)想想,這可以為構(gòu)建通用世界模擬器提供一條頗有前景的道路,或成為訓(xùn)練機(jī)器人的重要工具。

3個(gè)月后,GPT-4o顯著提高了人機(jī)交互的性能,并且能夠在音頻、視覺(jué)和文本之間實(shí)時(shí)推理。綜合利用文本、視覺(jué)和音頻信息來(lái)端到端地訓(xùn)練一個(gè)新模型,消除從輸入模態(tài)到文本,再?gòu)奈谋镜捷敵瞿B(tài)的兩次模態(tài)轉(zhuǎn)換,進(jìn)而大幅提升性能。

多模態(tài)大模型有望改變機(jī)器智能的分析、推理和學(xué)習(xí)能力,使機(jī)器智能從專用轉(zhuǎn)向通用。通用化將有助于擴(kuò)大規(guī)模,產(chǎn)生規(guī)?;慕?jīng)濟(jì)效應(yīng),價(jià)格也能隨著規(guī)模擴(kuò)大而大幅降低,進(jìn)而被更多領(lǐng)域采用,從而形成一個(gè)良性循環(huán)。

潛在風(fēng)險(xiǎn)不容忽視

AI智能體通過(guò)模擬和擴(kuò)展人類(lèi)的認(rèn)知能力,有望廣泛應(yīng)用于醫(yī)療、交通、金融及國(guó)防等多個(gè)領(lǐng)域。有學(xué)者推測(cè),到2030年,人工智能將助推全球生產(chǎn)總值增長(zhǎng)12%左右。

不過(guò),在看到AI智能體飛速發(fā)展的同時(shí),也要看到其面臨的技術(shù)風(fēng)險(xiǎn)、倫理和隱私等問(wèn)題。一群證券交易機(jī)器人通過(guò)高頻買(mǎi)賣(mài)合約便在納斯達(dá)克等證券交易所短暫地抹去了1萬(wàn)億美元的價(jià)值,世界衛(wèi)生組織使用的聊天機(jī)器人提供了過(guò)時(shí)的藥品審核信息,美國(guó)一位資深律師沒(méi)能判斷出自己向法庭提供的歷史案例文書(shū)竟然均由ChatGPT憑空捏造……這些真實(shí)發(fā)生的案例表明,AI智能體帶來(lái)的隱患不容小覷。

因?yàn)锳I智能體可以自主決策,又能通過(guò)與環(huán)境交互施加對(duì)物理世界的影響,其一旦失控將給人類(lèi)社會(huì)帶來(lái)極大威脅。哈佛大學(xué)教授齊特雷恩認(rèn)為,這種不僅能與人交談,還能在現(xiàn)實(shí)世界中行動(dòng)的AI智能體,是“數(shù)字與模擬、比特與原子之間跨越血腦屏障的一步”,應(yīng)當(dāng)引起警覺(jué)。

首先,AI智能體在提供服務(wù)的過(guò)程中會(huì)收集大量數(shù)據(jù),用戶需要確保數(shù)據(jù)安全,防止隱私泄露。

其次,AI智能體的自主性越強(qiáng),越有可能在復(fù)雜或未預(yù)見(jiàn)的情境中做出不可預(yù)測(cè)或不當(dāng)?shù)臎Q策。AI智能體的運(yùn)行邏輯可能使其在實(shí)現(xiàn)特定目標(biāo)過(guò)程中出現(xiàn)有害偏差,其帶來(lái)的安全隱患不容忽視。用更加通俗的話來(lái)說(shuō),就是在一些情況下,AI智能體可能只捕捉到目標(biāo)的字面意思,沒(méi)有理解目標(biāo)的實(shí)質(zhì)意思,從而做出了一些錯(cuò)誤的行為。

再次,AI大語(yǔ)言模型本身具備的“黑箱”和“幻覺(jué)”問(wèn)題也會(huì)增加出現(xiàn)操作異常的頻率。還有一些“狡猾”的AI智能體能夠成功規(guī)避現(xiàn)有的安全措施,相關(guān)專家指出,如果一個(gè)AI智能體足夠先進(jìn),它就能夠識(shí)別出自己正在接受測(cè)試。目前已經(jīng)發(fā)現(xiàn)一些AI智能體能夠識(shí)別安全測(cè)試并暫停不當(dāng)行為,這將導(dǎo)致識(shí)別對(duì)人類(lèi)危險(xiǎn)算法的測(cè)試系統(tǒng)失效。

此外,由于目前并無(wú)有效的AI智能體退出機(jī)制,一些AI智能體被創(chuàng)造后可能無(wú)法被關(guān)閉。這些無(wú)法被停用的AI智能體,最終可能會(huì)在一個(gè)與最初啟動(dòng)它們時(shí)完全不同的環(huán)境中運(yùn)行,徹底背離其最初用途。AI智能體也可能會(huì)以不可預(yù)見(jiàn)的方式相互作用,造成意外事故。

為此,人類(lèi)目前需盡快從AI智能體開(kāi)發(fā)生產(chǎn)、應(yīng)用部署后的持續(xù)監(jiān)管等方面全鏈條著手,及時(shí)制定相關(guān)法律法規(guī),規(guī)范AI智能體行為,從而更好地預(yù)防AI智能體帶來(lái)的風(fēng)險(xiǎn)、防止失控現(xiàn)象的發(fā)生。

展望未來(lái),AI智能體有望成為下一代人工智能的關(guān)鍵載體,它將不僅改變我們與機(jī)器交互的方式,更有可能重塑整個(gè)社會(huì)的運(yùn)作模式,正成為推動(dòng)人工智能轉(zhuǎn)化過(guò)程中的一道新齒輪。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI智能體,人工智能的“增程模式”?

人工智能的齒輪再次轉(zhuǎn)動(dòng)。

文 | 極智GeeTech

在人工智能的發(fā)展長(zhǎng)河中,我們正站在一個(gè)激動(dòng)人心的轉(zhuǎn)折點(diǎn)。

想象一下,未來(lái)的人工智能什么樣?只需簡(jiǎn)單一個(gè)指令,它們便能領(lǐng)悟并執(zhí)行復(fù)雜的任務(wù);它們還能通過(guò)視覺(jué)捕捉用戶的表情和動(dòng)作,判斷其情緒狀態(tài)。這不再是好萊塢科幻電影中的場(chǎng)景,而是正逐步走進(jìn)現(xiàn)實(shí)的AI智能體時(shí)代。

早在2023年11月,微軟創(chuàng)始人比爾·蓋茨就發(fā)文表示,智能體不僅會(huì)改變每個(gè)人與計(jì)算機(jī)交互的方式,還將顛覆軟件行業(yè),帶來(lái)自我們從鍵入命令到點(diǎn)擊圖標(biāo)以來(lái)最大的計(jì)算革命。OpenAI首席執(zhí)行官山姆·奧特曼也曾在多個(gè)場(chǎng)合表示:構(gòu)建龐大AI模型的時(shí)代已經(jīng)結(jié)束,AI智能體才是未來(lái)的真正挑戰(zhàn)。今年4月份,AI著名學(xué)者、斯坦福大學(xué)教授吳恩達(dá)指出,智能體工作流將在今年推動(dòng)AI取得巨大進(jìn)步,甚至可能超過(guò)下一代基礎(chǔ)模型。

類(lèi)比智能電動(dòng)汽車(chē),猶如其在新能源技術(shù)應(yīng)用和里程焦慮之間尋找到某種平衡的增程路線一樣,AI智能體讓人工智能進(jìn)入了“增程模式”,在AI技術(shù)和行業(yè)應(yīng)用之間盡可能達(dá)成新的平衡。

被看好的AI智能體

顧名思義,AI智能體就是具有智能的實(shí)體,能夠自主感知環(huán)境、做出決策并執(zhí)行行動(dòng),它可以是一個(gè)程序、一個(gè)系統(tǒng),也可以是一個(gè)機(jī)器人。

去年,斯坦福大學(xué)和谷歌的聯(lián)合研究團(tuán)隊(duì)發(fā)表了一篇題為《生成式智能體:人類(lèi)行為的交互式模擬》的研究論文。在文中,居住在虛擬小鎮(zhèn)Smallville的25個(gè)虛擬人在接入ChatGPT之后,表現(xiàn)出各種類(lèi)似人類(lèi)的行為,由此帶火了AI智能體概念。

此后,很多研究團(tuán)隊(duì)將自己研發(fā)的大模型接入《我的世界》等游戲,比如,英偉達(dá)首席科學(xué)家Jim Fan在《我的世界》中創(chuàng)造出了一個(gè)名叫Voyager的AI智能體,很快, Voyager表現(xiàn)出了十分高超的學(xué)習(xí)能力,可以無(wú)師自通地學(xué)習(xí)到挖掘、建房屋、收集、打獵等游戲中的技能,還會(huì)根據(jù)不同的地形條件調(diào)整自己的資源收集策略。

OpenAI曾列出實(shí)現(xiàn)通用人工智能的五級(jí)路線圖:L1是聊天機(jī)器人;L2是推理者,即像人類(lèi)一樣能夠解決問(wèn)題的AI;L3是智能體,即不僅能思考,還可采取行動(dòng)的AI系統(tǒng);L4是創(chuàng)新者;L5是組織者。這其中,AI智能體恰好位于承前啟后的關(guān)鍵位置。

作為人工智能領(lǐng)域的一個(gè)重要概念,學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)AI智能體提出了各種定義。大致來(lái)說(shuō),一個(gè)AI智能體應(yīng)具備類(lèi)似人類(lèi)的思考和規(guī)劃能力,并具備一定的技能以便與環(huán)境和人類(lèi)進(jìn)行交互,完成特定的任務(wù)。

或許把AI智能體類(lèi)比成計(jì)算機(jī)環(huán)境中的數(shù)字人,我們會(huì)更好理解——數(shù)字人的大腦就是大語(yǔ)言模型或是人工智能算法,能夠處理信息、在實(shí)時(shí)交互中做出決策;感知模塊就相當(dāng)于眼睛、耳朵等感官,用來(lái)獲得文本、聲音、圖像等不同環(huán)境狀態(tài)的信息;記憶和檢索模塊則像神經(jīng)元,用來(lái)存儲(chǔ)經(jīng)驗(yàn)、輔助決策;行動(dòng)執(zhí)行模塊則是四肢,用來(lái)執(zhí)行大腦做出的決策。

長(zhǎng)久以來(lái),人類(lèi)一直在追求更加“類(lèi)人”甚至“超人”的人工智能,而智能體被認(rèn)為是實(shí)現(xiàn)這一追求的有效手段。近些年,隨著大數(shù)據(jù)和計(jì)算能力的提升,各種深度學(xué)習(xí)大模型得到了迅猛發(fā)展。這為開(kāi)發(fā)新一代AI智能體提供了巨大支撐,并在實(shí)踐中取得了較為顯著的進(jìn)展。

比如,谷歌DeepMind人工智能系統(tǒng)展示了用于機(jī)器人的AI智能體“RoboCat”;亞馬遜云科技推出了Amazon Bedrock智能體,可以自動(dòng)分解企業(yè)AI應(yīng)用開(kāi)發(fā)任務(wù)等等。Bedrock中的智能體能夠理解目標(biāo)、制定計(jì)劃并采取行動(dòng)。新的記憶保留功能允許智能體隨時(shí)間記住并從互動(dòng)中學(xué)習(xí),實(shí)現(xiàn)更復(fù)雜、更長(zhǎng)期運(yùn)行和更具適應(yīng)性的任務(wù)。

這些AI智能體的核心是人工智能算法,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等技術(shù)。通過(guò)這些算法,AI智能體可以從大量數(shù)據(jù)中學(xué)習(xí)并改進(jìn)自身的性能,不斷優(yōu)化自己的決策和行為,還可以根據(jù)環(huán)境變化做出靈活地調(diào)整,適應(yīng)不同場(chǎng)景和任務(wù)。

目前,AI智能體已在不少場(chǎng)景中得到應(yīng)用,如客服、編程、內(nèi)容創(chuàng)作、知識(shí)獲取、財(cái)務(wù)、手機(jī)助手、工業(yè)制造等。AI智能體的出現(xiàn),標(biāo)志著人工智能從簡(jiǎn)單的規(guī)則匹配和計(jì)算模擬向更高級(jí)別的自主智能邁進(jìn),促進(jìn)了生產(chǎn)效率的提升和生產(chǎn)方式的變革,開(kāi)辟了人們認(rèn)識(shí)和改造世界的新境界。

AI智能體的感官革命

莫拉維克悖論(Moravec’s paradox)指出,對(duì)于人工智能系統(tǒng)而言,高級(jí)推理只需非常少的計(jì)算能力,而實(shí)現(xiàn)人類(lèi)習(xí)以為常的感知運(yùn)動(dòng)技能卻需要耗費(fèi)巨大的計(jì)算資源。實(shí)質(zhì)上,與人類(lèi)本能可以完成的基本感官任務(wù)相比,復(fù)雜的邏輯任務(wù)對(duì)AI而言更加容易。這一悖論凸顯了現(xiàn)階段的AI與人類(lèi)認(rèn)知能力之間的差異。

著名計(jì)算機(jī)科學(xué)家吳恩達(dá)曾說(shuō):“人類(lèi)是多模態(tài)的生物,我們的AI也應(yīng)該是多模態(tài)的?!边@句話道出了多模態(tài)AI的核心價(jià)值——讓機(jī)器更接近人類(lèi)的認(rèn)知方式,從而實(shí)現(xiàn)更自然、更高效的人機(jī)交互。

我們每個(gè)人就像一個(gè)智能終端,通常需要去學(xué)校上課接受學(xué)識(shí)熏陶(訓(xùn)練),但訓(xùn)練與學(xué)習(xí)的目的和結(jié)果是我們有能力自主工作和生活,而不需要總是依賴外部的指令和控制。人們通過(guò)視覺(jué)、語(yǔ)言、聲音、觸覺(jué)、味覺(jué)和嗅覺(jué)等多種感官模式來(lái)了解周?chē)氖澜?,進(jìn)而審時(shí)度勢(shì),進(jìn)行分析、推理、決斷并采取行動(dòng)。

AI智能體的核心在于“智能”,自主性是其主要特點(diǎn)之一。它們可以在沒(méi)有人類(lèi)干預(yù)的情況下,根據(jù)預(yù)設(shè)的規(guī)則和目標(biāo),獨(dú)立地完成任務(wù)。

想象一下,一輛無(wú)人駕駛車(chē)裝備了先進(jìn)的攝像頭、雷達(dá)和傳感器,這些高科技的“眼睛”讓它能夠“觀察”周?chē)氖澜?,捕捉到道路的?shí)時(shí)狀況、其他車(chē)輛的動(dòng)向、行人的位置以及交通信號(hào)的變化等信息。這些信息被傳輸?shù)綗o(wú)人駕駛車(chē)的大腦——一個(gè)復(fù)雜的智能決策系統(tǒng),這個(gè)系統(tǒng)能夠迅速分析這些數(shù)據(jù),并制定出相應(yīng)的駕駛策略。

例如,面對(duì)錯(cuò)綜復(fù)雜的交通環(huán)境,自動(dòng)駕駛汽車(chē)能夠計(jì)算出最優(yōu)的行駛路線,甚至在需要時(shí)做出變道等復(fù)雜決策。一旦決策制定,執(zhí)行系統(tǒng)便將這些智能決策轉(zhuǎn)化為具體的駕駛動(dòng)作,比如轉(zhuǎn)向、加速和制動(dòng)。

在基于龐大數(shù)據(jù)和復(fù)雜算法構(gòu)建的大型智能體模型中,交互性體現(xiàn)得較為明顯。能夠“聽(tīng)懂”并回應(yīng)人類(lèi)復(fù)雜多變的自然語(yǔ)言,正是AI智能體的神奇之處——它們不僅能夠“理解”人類(lèi)的語(yǔ)言,還能夠進(jìn)行流暢而富有洞察力的交互。

AI智能體不僅能迅速適應(yīng)各種任務(wù)和環(huán)境,還能通過(guò)持續(xù)學(xué)習(xí)不斷優(yōu)化自己的性能。自深度學(xué)習(xí)技術(shù)取得突破以來(lái),各種智能體模型通過(guò)不斷積累數(shù)據(jù)和自我完善,變得更加精準(zhǔn)和高效。

此外,AI智能體對(duì)環(huán)境的適應(yīng)性也十分強(qiáng)大,在倉(cāng)庫(kù)工作的自動(dòng)化機(jī)器人能夠?qū)崟r(shí)監(jiān)測(cè)并避開(kāi)障礙物。當(dāng)感知到某個(gè)貨架位置發(fā)生變化時(shí),它會(huì)立即更新其路徑規(guī)劃,有效地完成貨物的揀選和搬運(yùn)任務(wù)。

AI智能體的適應(yīng)性還體現(xiàn)在它們能夠根據(jù)用戶的反饋進(jìn)行自我調(diào)整。通過(guò)識(shí)別用戶的需求和偏好,AI智能體可以不斷優(yōu)化自己的行為和輸出,提供更加個(gè)性化的服務(wù),比如音樂(lè)軟件的音樂(lè)推薦、智能醫(yī)療的個(gè)性化治療等等。

多模態(tài)大模型和世界模型的出現(xiàn),顯著提升了智能體的感知、交互和推理能力。多模態(tài)大模型能夠處理多種感知模式(如視覺(jué)、語(yǔ)言),使智能體能夠更全面地理解和響應(yīng)復(fù)雜的環(huán)境。世界模型則通過(guò)模擬和理解物理環(huán)境中的規(guī)律,為智能體提供了更強(qiáng)的預(yù)測(cè)和規(guī)劃能力。

經(jīng)過(guò)多年的傳感器融合和AI演進(jìn),機(jī)器人現(xiàn)階段基本上都配備有多模態(tài)傳感器。隨著機(jī)器人等邊緣設(shè)備開(kāi)始具備更多的計(jì)算能力,這些設(shè)備正變得愈加智能,能夠感知周?chē)h(huán)境,理解并以自然語(yǔ)言進(jìn)行溝通,通過(guò)數(shù)字傳感界面獲得觸覺(jué),以及通過(guò)加速計(jì)、陀螺儀與磁力計(jì)等的組合,來(lái)感知機(jī)器人的比力、角速度,甚至機(jī)器人周?chē)拇艌?chǎng)。

在Transformer和大語(yǔ)言模型(LLM)出現(xiàn)之前,要在AI中實(shí)現(xiàn)多模態(tài),通常需要用到多個(gè)負(fù)責(zé)不同類(lèi)型數(shù)據(jù)(文本、圖像、音頻)的單獨(dú)模型,并通過(guò)復(fù)雜的過(guò)程對(duì)不同模態(tài)進(jìn)行集成。

而在Transformer和LLM出現(xiàn)后,多模態(tài)變得更加集成化,使得單個(gè)模型可以同時(shí)處理和理解多種數(shù)據(jù)類(lèi)型,從而產(chǎn)生對(duì)環(huán)境綜合感知能力更強(qiáng)大的AI系統(tǒng),這一轉(zhuǎn)變大大提高了多模態(tài)AI應(yīng)用的效率和有效性。

雖然GPT-3等LLM主要以文本為基礎(chǔ),但業(yè)界已朝著多模態(tài)取得了快速進(jìn)展。從OpenAI的CLIP和DALL·E,到現(xiàn)在的Sora和GPT-4o,都是向多模態(tài)和更自然的人機(jī)交互邁進(jìn)的模型范例。

例如,CLIP可理解與自然語(yǔ)言配對(duì)的圖像,從而在視覺(jué)和文本信息之間架起橋梁;DALL·E旨在根據(jù)文本描述生成圖像。我們看到Google Gemini模型也經(jīng)歷了類(lèi)似的演進(jìn)。

2024年,多模態(tài)演進(jìn)加速發(fā)展。今年2月,OpenAI發(fā)布了Sora,它可以根據(jù)文本描述生成逼真或富有想象力的視頻。仔細(xì)想想,這可以為構(gòu)建通用世界模擬器提供一條頗有前景的道路,或成為訓(xùn)練機(jī)器人的重要工具。

3個(gè)月后,GPT-4o顯著提高了人機(jī)交互的性能,并且能夠在音頻、視覺(jué)和文本之間實(shí)時(shí)推理。綜合利用文本、視覺(jué)和音頻信息來(lái)端到端地訓(xùn)練一個(gè)新模型,消除從輸入模態(tài)到文本,再?gòu)奈谋镜捷敵瞿B(tài)的兩次模態(tài)轉(zhuǎn)換,進(jìn)而大幅提升性能。

多模態(tài)大模型有望改變機(jī)器智能的分析、推理和學(xué)習(xí)能力,使機(jī)器智能從專用轉(zhuǎn)向通用。通用化將有助于擴(kuò)大規(guī)模,產(chǎn)生規(guī)?;慕?jīng)濟(jì)效應(yīng),價(jià)格也能隨著規(guī)模擴(kuò)大而大幅降低,進(jìn)而被更多領(lǐng)域采用,從而形成一個(gè)良性循環(huán)。

潛在風(fēng)險(xiǎn)不容忽視

AI智能體通過(guò)模擬和擴(kuò)展人類(lèi)的認(rèn)知能力,有望廣泛應(yīng)用于醫(yī)療、交通、金融及國(guó)防等多個(gè)領(lǐng)域。有學(xué)者推測(cè),到2030年,人工智能將助推全球生產(chǎn)總值增長(zhǎng)12%左右。

不過(guò),在看到AI智能體飛速發(fā)展的同時(shí),也要看到其面臨的技術(shù)風(fēng)險(xiǎn)、倫理和隱私等問(wèn)題。一群證券交易機(jī)器人通過(guò)高頻買(mǎi)賣(mài)合約便在納斯達(dá)克等證券交易所短暫地抹去了1萬(wàn)億美元的價(jià)值,世界衛(wèi)生組織使用的聊天機(jī)器人提供了過(guò)時(shí)的藥品審核信息,美國(guó)一位資深律師沒(méi)能判斷出自己向法庭提供的歷史案例文書(shū)竟然均由ChatGPT憑空捏造……這些真實(shí)發(fā)生的案例表明,AI智能體帶來(lái)的隱患不容小覷。

因?yàn)锳I智能體可以自主決策,又能通過(guò)與環(huán)境交互施加對(duì)物理世界的影響,其一旦失控將給人類(lèi)社會(huì)帶來(lái)極大威脅。哈佛大學(xué)教授齊特雷恩認(rèn)為,這種不僅能與人交談,還能在現(xiàn)實(shí)世界中行動(dòng)的AI智能體,是“數(shù)字與模擬、比特與原子之間跨越血腦屏障的一步”,應(yīng)當(dāng)引起警覺(jué)。

首先,AI智能體在提供服務(wù)的過(guò)程中會(huì)收集大量數(shù)據(jù),用戶需要確保數(shù)據(jù)安全,防止隱私泄露。

其次,AI智能體的自主性越強(qiáng),越有可能在復(fù)雜或未預(yù)見(jiàn)的情境中做出不可預(yù)測(cè)或不當(dāng)?shù)臎Q策。AI智能體的運(yùn)行邏輯可能使其在實(shí)現(xiàn)特定目標(biāo)過(guò)程中出現(xiàn)有害偏差,其帶來(lái)的安全隱患不容忽視。用更加通俗的話來(lái)說(shuō),就是在一些情況下,AI智能體可能只捕捉到目標(biāo)的字面意思,沒(méi)有理解目標(biāo)的實(shí)質(zhì)意思,從而做出了一些錯(cuò)誤的行為。

再次,AI大語(yǔ)言模型本身具備的“黑箱”和“幻覺(jué)”問(wèn)題也會(huì)增加出現(xiàn)操作異常的頻率。還有一些“狡猾”的AI智能體能夠成功規(guī)避現(xiàn)有的安全措施,相關(guān)專家指出,如果一個(gè)AI智能體足夠先進(jìn),它就能夠識(shí)別出自己正在接受測(cè)試。目前已經(jīng)發(fā)現(xiàn)一些AI智能體能夠識(shí)別安全測(cè)試并暫停不當(dāng)行為,這將導(dǎo)致識(shí)別對(duì)人類(lèi)危險(xiǎn)算法的測(cè)試系統(tǒng)失效。

此外,由于目前并無(wú)有效的AI智能體退出機(jī)制,一些AI智能體被創(chuàng)造后可能無(wú)法被關(guān)閉。這些無(wú)法被停用的AI智能體,最終可能會(huì)在一個(gè)與最初啟動(dòng)它們時(shí)完全不同的環(huán)境中運(yùn)行,徹底背離其最初用途。AI智能體也可能會(huì)以不可預(yù)見(jiàn)的方式相互作用,造成意外事故。

為此,人類(lèi)目前需盡快從AI智能體開(kāi)發(fā)生產(chǎn)、應(yīng)用部署后的持續(xù)監(jiān)管等方面全鏈條著手,及時(shí)制定相關(guān)法律法規(guī),規(guī)范AI智能體行為,從而更好地預(yù)防AI智能體帶來(lái)的風(fēng)險(xiǎn)、防止失控現(xiàn)象的發(fā)生。

展望未來(lái),AI智能體有望成為下一代人工智能的關(guān)鍵載體,它將不僅改變我們與機(jī)器交互的方式,更有可能重塑整個(gè)社會(huì)的運(yùn)作模式,正成為推動(dòng)人工智能轉(zhuǎn)化過(guò)程中的一道新齒輪。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。