91久久精品一区二区,日本一卡2卡3卡4卡无卡免费 ,日韩欧美一区二区在线

如果說AIGC開啟了內(nèi)容生成的智能時(shí)代，那么AI Agent則有機(jī)會(huì)把AIGC的能力真正產(chǎn)品化。

與ChatGPT等AI應(yīng)用相比，AI Agent像一位更具象的全能員工，被視為人工智能機(jī)器人的初級(jí)形態(tài)，軟硬件兼顧的智能體能夠如同人類一般觀察周圍的世界、做出決策并自動(dòng)采取相應(yīng)的行動(dòng)。

AI Agent的想象力到底在哪？“大語言模型只能編個(gè)貪吃蛇，而AI Agent可以整出一個(gè)‘王者榮耀’?！边@是網(wǎng)上盛傳的回答，似乎并不夸張。比爾·蓋茨也曾說過，“誰能主宰AI Agent，那才是大事。因?yàn)槟銓⒂肋h(yuǎn)不用去搜索網(wǎng)站或者亞馬遜?！?/p>

從技術(shù)到場(chǎng)景，摸著石頭過河

從AIGC發(fā)展看，大致經(jīng)歷了三波浪潮。第一波是以GPT為代表的大模型的出現(xiàn)；第二波是應(yīng)用層的快速創(chuàng)新，如微軟Copilot，使智能化從Chat向Work轉(zhuǎn)化；第三波則是深度業(yè)務(wù)場(chǎng)景的應(yīng)用，打通業(yè)務(wù)數(shù)字化全流程，服務(wù)實(shí)體經(jīng)濟(jì)。

在滿足企業(yè)智能化需求、打通業(yè)務(wù)場(chǎng)景的過程中，AI Agent作為一種理想的產(chǎn)品化落地形態(tài)，正在承接日益復(fù)雜的提質(zhì)增效需求，并強(qiáng)化內(nèi)外部協(xié)同效能，釋放組織核心生產(chǎn)力，對(duì)抗組織熵增帶來的挑戰(zhàn)。

AI Agent通常被視為一種融合感知、分析、決策和執(zhí)行能力的智能體，它可以具備相當(dāng)顯著的主動(dòng)性，成為人類的理想智能助手。例如，AI Agent可以根據(jù)個(gè)人在線互動(dòng)和參與事務(wù)處置時(shí)的信息，了解和記憶個(gè)體的興趣、偏好、日常習(xí)慣，識(shí)別個(gè)體的意圖，主動(dòng)提出建議，并協(xié)調(diào)多個(gè)應(yīng)用程序去完成任務(wù)。

Agent的概念由Minsky在其1986年出版的《思維的社會(huì)》一書中提出，Minsky認(rèn)為社會(huì)中的某些個(gè)體經(jīng)過協(xié)商之后可求得問題的解，這些個(gè)體就是Agent。他還認(rèn)為，Agent應(yīng)具有社會(huì)交互性和智能性。Agent的概念由此被引入人工智能和計(jì)算機(jī)領(lǐng)域，并迅速成為研究熱點(diǎn)。但苦于數(shù)據(jù)和算力限制，想要實(shí)現(xiàn)真正智能的AI Agents缺乏必要的現(xiàn)實(shí)條件。

AI Agent和大模型的區(qū)別在于，大模型與人類之間的交互是基于提示詞（prompt）實(shí)現(xiàn)的。ChatGPT誕生后，AI從真正意義上具備了和人類進(jìn)行多輪對(duì)話的能力，并且能針對(duì)相應(yīng)問題給出具體回答與建議。用戶prompt是否清晰明確會(huì)影響大模型回答的效果，例如ChatGPT和這些Copilot都需要明確任務(wù)才能得到有用的回答。

當(dāng)AI從被使用的工具變成可以使用工具的主體，這種具備任務(wù)規(guī)劃和使用工具能力的AI系統(tǒng)可被稱為Auto-Pilot主駕駛，即AI Agent。在Co-Pilot模式下，AI是人類的助手，與人類協(xié)同參與到工作流程中；在Auto-Pilot模式下，AI是人類的代理，獨(dú)立地承擔(dān)大部分工作，人類只負(fù)責(zé)設(shè)定任務(wù)目標(biāo)和評(píng)估結(jié)果。

AI Agent的工作僅需給定一個(gè)目標(biāo)，它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng)，它會(huì)根據(jù)給定任務(wù)詳細(xì)拆解出每一步的計(jì)劃步驟，依靠來自外界的反饋和自主思考，自己給自己創(chuàng)建prompt，來實(shí)現(xiàn)目標(biāo)。

從1997年“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫開始，沃森在智力問答節(jié)目《危險(xiǎn)邊緣》中戰(zhàn)勝人類冠軍、ResNet在ImageNet圖像識(shí)別比賽中的準(zhǔn)確率超過人類、AlphaGo在圍棋比賽中戰(zhàn)勝李世石、OpenAI Five在多人策略游戲Dota2中戰(zhàn)勝人類職業(yè)戰(zhàn)隊(duì)冠軍、AlphaFold的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率超過人類等，完成這些任務(wù)背后的能力涵蓋了人類智能感知、認(rèn)知、決策的各個(gè)方面，也不斷塑造著AI Agent的技術(shù)內(nèi)核。

實(shí)際上，人工智能自誕生之初就開始探索AI Agent的解決方案。最近經(jīng)歷了基于規(guī)則設(shè)計(jì)、基于強(qiáng)化學(xué)習(xí)和目前基于預(yù)訓(xùn)練大模型三種范式。其中基于強(qiáng)化學(xué)習(xí)的AI Agent代表是AlphaGo和OpenAI Five，這類方法仍然是面向?qū)Ｓ萌蝿?wù)的特定環(huán)境進(jìn)行交互。預(yù)訓(xùn)練大模型學(xué)習(xí)到了通用世界知識(shí)，并可以通過語言的形式輸入和輸出，因而可以泛化到不同任務(wù)和環(huán)境。

基于預(yù)訓(xùn)練大模型的AI Agent又包括兩類，即智能代理和智能體。預(yù)訓(xùn)練大模型的“通用”能力不僅體現(xiàn)在內(nèi)容理解和生成上，還擴(kuò)展到了規(guī)劃和使用工具這類思考和決策任務(wù)。比如，我們對(duì)著一張有幾個(gè)孩子和一些小面包的圖片問“每個(gè)孩子可以平均分到幾個(gè)小面包”，大模型可以將任務(wù)規(guī)劃成檢測(cè)小面包、檢測(cè)孩子、做除法三步，并在每一步調(diào)用對(duì)應(yīng)的目標(biāo)檢測(cè)模型或除法工具來完成。

在圖靈獎(jiǎng)得主Yoshua Bengio設(shè)計(jì)的AGI五個(gè)層次中，AI Agent目前大致處于第三個(gè)層次——多模態(tài)感知和第四個(gè)層次——具身與行動(dòng)之間。

第一個(gè)層次是小數(shù)據(jù)訓(xùn)練小模型，過去幾十年的傳統(tǒng)方法都處于這個(gè)階段。

第二個(gè)層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓(xùn)練大模型，以GPT-3為代表。

第三個(gè)層次是從單模態(tài)到多模態(tài)，比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

第四個(gè)層次是從開環(huán)系統(tǒng)到閉環(huán)控制，就是說考慮環(huán)境反饋并結(jié)合自身狀態(tài)，給出下一步操作對(duì)環(huán)境產(chǎn)生影響同時(shí)更新自身狀態(tài)，比如以AutoGPT為代表的智能體和具身智能機(jī)器人。

第五個(gè)層次是從單智能體到多智能體協(xié)作，也包括機(jī)器與人類的協(xié)作，由群體智能完成復(fù)雜任務(wù)，比如多智能體原型AutoGen模擬軟件公司的不同職位協(xié)作從而實(shí)現(xiàn)高質(zhì)量的代碼自動(dòng)開發(fā)和文檔自動(dòng)生成。

從應(yīng)用場(chǎng)景來看，AI Agent能夠幫助未來企業(yè)構(gòu)建以“人機(jī)協(xié)同”為核心的智能化運(yùn)營新常態(tài)。越來越多的業(yè)務(wù)活動(dòng)都將被委托給AI，而人類則只需要聚焦于企業(yè)愿景、戰(zhàn)略和關(guān)鍵路徑的決策上。人與大量AI實(shí)體之間的協(xié)同工作模式，將顛覆當(dāng)前企業(yè)的運(yùn)行基礎(chǔ)，讓企業(yè)運(yùn)營成效獲得成倍提升。

比如在電商領(lǐng)域，AI Agent能夠根據(jù)用戶的購物歷史、瀏覽行為和偏好提供個(gè)性化的產(chǎn)品推薦，這不僅能提高用戶滿意度，還能增加銷售額和客戶忠誠度；AI Agent還可以作為智能客服，通過自然語言處理和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)回答用戶咨詢，處理訂單問題和退貨請(qǐng)求，從而提高客戶服務(wù)效率。

在教育領(lǐng)域，AI Agent可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度、興趣和能力提供個(gè)性化的學(xué)習(xí)資源和輔導(dǎo)；而在金融領(lǐng)域，AI Agent可以幫助用戶管理個(gè)人財(cái)務(wù)，提供投資建議，甚至預(yù)測(cè)股票走勢(shì)。

在交通領(lǐng)域，AI Agent可以通過分析交通數(shù)據(jù)和實(shí)時(shí)路況提供最佳的路線規(guī)劃和交通建議。

在醫(yī)療領(lǐng)域，AI Agent可以幫助醫(yī)生進(jìn)行疾病診斷和治療方案的制定。

在社會(huì)交互方面，AI Agent的一個(gè)重要場(chǎng)景是虛擬陪伴，從任務(wù)復(fù)雜度和容錯(cuò)率兩方面看都是短期容易實(shí)現(xiàn)的，已經(jīng)出現(xiàn)的是像Character.ai、Talkie、Linky等面向成年人的IP類和交友類應(yīng)用，未來面向老年人和兒童的AI Agent虛擬陪伴可能是更具社會(huì)價(jià)值的。從技術(shù)的角度看，提升大模型的角色扮演能力、分析和調(diào)整大模型的性格特征等都是兼具研究意義和應(yīng)用價(jià)值的方向。

大數(shù)據(jù)，進(jìn)化之路的最大變量

從AI發(fā)展角度看，大模型為AI Agent和機(jī)器人領(lǐng)域所帶來的是更強(qiáng)大的感知能力，這種強(qiáng)感知能力是建立在大參數(shù)模型和巨量數(shù)據(jù)展現(xiàn)出來的智能。

AI Agent的出現(xiàn)，使得大模型從“超級(jí)大腦”進(jìn)化為人類的“全能助手”。AI Agent不僅需要具備處理任務(wù)和問題的智能能力，還需要擁有與人類進(jìn)行自然交互的社交智能。

在AI Agent和機(jī)器人領(lǐng)域，一個(gè)最大的難點(diǎn)便是缺乏與物理世界的真實(shí)數(shù)據(jù)，而得不到這些數(shù)據(jù)，就無從進(jìn)行訓(xùn)練；即使是互聯(lián)網(wǎng)上得到的信息，在過去也很難根據(jù)這些信息進(jìn)行擴(kuò)展，并使AI Agent和機(jī)器人更好地理解世界。

而大模型則很好地解決了這一問題。如今的大模型已經(jīng)實(shí)現(xiàn)了視覺語言上的智能涌現(xiàn)，這就意味著，通過互聯(lián)網(wǎng)上的數(shù)據(jù)，機(jī)器人的感知已經(jīng)出現(xiàn)了相當(dāng)強(qiáng)的泛化，因此能夠更好地理解真實(shí)的物理世界。

實(shí)際上，除了AI Agent，被大模型隨之帶火的還有自動(dòng)駕駛。像英國自動(dòng)駕駛獨(dú)角獸Wayve在融資當(dāng)天，不惜花大量筆墨描繪了一個(gè)屬于“AI Agent”的未來，類似的言論也同樣出現(xiàn)在不少機(jī)器人公司的內(nèi)部。

AI大模型對(duì)于AI Agent能力提升的重要性，主要體現(xiàn)在三個(gè)方面。

首先，大模型顯著提升了AI Agent解決復(fù)雜任務(wù)的能力，根據(jù)理解，把復(fù)雜任務(wù)拆解成一系列可執(zhí)行的任務(wù)。

之后，在多模態(tài)大模型的能力下，AI Agent可以依托視覺、觸覺等在更復(fù)雜的場(chǎng)景里做事。

最后，體現(xiàn)在運(yùn)動(dòng)能力上，AI Agent可以根據(jù)AI合成的數(shù)據(jù)做模擬訓(xùn)練。如果沒有大模型，機(jī)器人實(shí)現(xiàn)的功能會(huì)相對(duì)受限。

由此也看出，數(shù)據(jù)是除了大模型技術(shù)外，制約機(jī)器人下一步進(jìn)化最為關(guān)鍵的要素。

如今的AI Agent與2015、2016年的自動(dòng)駕駛更為類似，兩者的難點(diǎn)都在于高質(zhì)量數(shù)據(jù)的獲取。而如果以L0-L5幾個(gè)階段來詮釋，目前大多數(shù)AI Agent公司都處于L0到L4的過程中，而到真正的L5則還有一段距離。具體而言，L4狀態(tài)指大多數(shù)場(chǎng)景下，機(jī)器人可以完成某個(gè)指定動(dòng)作；而L5則指任意場(chǎng)景下，機(jī)器人可以完成某一動(dòng)作。

為了獲取足夠用于AI Agent和機(jī)器人訓(xùn)練的數(shù)據(jù)，不少廠商通過真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)結(jié)合的方式解決。在真實(shí)數(shù)據(jù)的獲取中，廠商一般通過真人動(dòng)作和機(jī)器人遙操作的方式，將任務(wù)過程中的數(shù)據(jù)“喂”給大模型。而仿真數(shù)據(jù)則是通過搭建一個(gè)盡量真實(shí)的場(chǎng)景，設(shè)定盡可能多的建模和現(xiàn)實(shí)參數(shù)，讓虛擬化的機(jī)器人進(jìn)行訓(xùn)練。

不過，上述的兩種方式還是存在著各自的短板，當(dāng)前AI Agent還遠(yuǎn)未達(dá)到數(shù)據(jù)飛輪的啟動(dòng)時(shí)刻。一方面真實(shí)數(shù)據(jù)的成本極高，AI Agent當(dāng)前還達(dá)不到自動(dòng)駕駛般的普及度。在真實(shí)數(shù)據(jù)足夠多之前，廠商需要花長時(shí)間和配備數(shù)據(jù)標(biāo)準(zhǔn)團(tuán)隊(duì)來一點(diǎn)點(diǎn)積累。而對(duì)于仿真數(shù)據(jù)而言，最大的問題還是現(xiàn)實(shí)仿真不夠真實(shí)。AI Agent在模擬世界能成功，但導(dǎo)入到現(xiàn)實(shí)世界就會(huì)有一定的失敗率。

現(xiàn)階段，對(duì)AI Agent最大的一個(gè)限制，還是數(shù)據(jù)質(zhì)量、數(shù)據(jù)規(guī)模、應(yīng)用場(chǎng)景不足。AI模型、AI訓(xùn)練數(shù)據(jù)集、AI場(chǎng)景落地部署，都遠(yuǎn)遠(yuǎn)不夠。而隨著更高效的算法和算法的泛化能力提升，未來AI Agent學(xué)習(xí)一個(gè)技能的數(shù)據(jù)量將會(huì)從現(xiàn)在的幾千、幾萬，下降到一千甚至幾百幾十的數(shù)量級(jí)。

參考自動(dòng)駕駛行業(yè)由量產(chǎn)帶來的數(shù)據(jù)飛輪，為了進(jìn)一步解決數(shù)據(jù)問題，不少機(jī)器人廠商正在探索從量產(chǎn)中獲取數(shù)據(jù)。

邁出實(shí)驗(yàn)室，還要答好幾道題？

AI Agent的想象力不言而喻，但現(xiàn)在的情況是廠商都在說自己是做Agent的，那么現(xiàn)階段Agent到底能做什么，沒人可以說得清楚。

雖然與大模型相比，Agent更貼近產(chǎn)業(yè)，但不論是對(duì)客戶還是對(duì)開發(fā)者，Agent帶來的收益是否邁過了成本的門檻仍是未知數(shù)。Agent的發(fā)展基于大模型，而當(dāng)前大模型賽道的特點(diǎn)是技術(shù)門檻高、資金投入多、商業(yè)模式尚且發(fā)展不成熟。

首先，現(xiàn)有的技術(shù)條件下，如何解決大模型幻覺是大模型走向全面產(chǎn)業(yè)應(yīng)用的難點(diǎn)。所謂大模型幻覺，主要指的是模型輸出了和現(xiàn)實(shí)世界不一致的內(nèi)容，例如捏造事實(shí)、分不清虛構(gòu)與現(xiàn)實(shí)、相信謠言和傳說等，也就是常說的“一本正經(jīng)的胡說八道”。

這個(gè)問題若不解決，在實(shí)際應(yīng)用場(chǎng)景中，這不僅會(huì)影響模型的準(zhǔn)確性和穩(wěn)定性，還制約了大模型在真實(shí)場(chǎng)景中的廣泛應(yīng)用的可靠性，這就還有很長的一步路走。

眾所周知，AI Agent發(fā)展的前提條件是多模態(tài)。在很多情況下，如智能客服場(chǎng)景，用戶可能會(huì)通過多種方式提供信息，多模態(tài)具有很好的感知價(jià)值。但至今在解決一些邏輯、推理等核心問題上，Agent的能力還有偏弱。因此，Agent各模塊之間如何配合、多個(gè)Agent如何交互、人類與Agent如何互動(dòng)等方面，Agent技術(shù)尚處于早期階段。

其次，如何控制高昂的調(diào)用成本是擺在AI Agent面前的另一大難題。接入Agent后，所有需要處理的業(yè)務(wù)場(chǎng)景，都會(huì)轉(zhuǎn)化成需要底層大模型理解的數(shù)據(jù)，產(chǎn)生高昂的推理成本。舉個(gè)例子，斯坦福的虛擬小鎮(zhèn)框架開源后，每個(gè)Agent一天就需要消耗20美金的Token數(shù)，比用人成本還要高。

第三，國內(nèi)智能算力較為短缺的現(xiàn)狀下，各家大模型在持續(xù)投入人力、算力、資金并實(shí)現(xiàn)商業(yè)化落地方面，可能會(huì)面臨較大挑戰(zhàn)。因此，Agent想要真正實(shí)現(xiàn)規(guī)?；涞兀雷枨议L。

還有很重要的一點(diǎn)，Agent如何保證用戶的數(shù)據(jù)安全和隱私。Agent一旦投入應(yīng)用，勢(shì)必會(huì)接觸到客戶的核心數(shù)據(jù)，倘若數(shù)據(jù)泄漏，可能讓用戶和社會(huì)蒙受巨大損失。

對(duì)于AI Agent，一個(gè)很殘酷的現(xiàn)實(shí)是，看項(xiàng)目的大有人在，投項(xiàng)目的屈指可數(shù)。

如今，各行各業(yè)都已不是PPT融資的時(shí)代了，無論多么前沿的技術(shù)，也只有落地走通盈利模式才能實(shí)現(xiàn)價(jià)值。AI Agent的未來一定是一場(chǎng)馬拉松，只有扎實(shí)做好大模型技術(shù)和找到商業(yè)化落地的路徑，才能在未來有機(jī)會(huì)不被趕下“牌桌”。

如果說AIGC開啟了內(nèi)容生成的智能時(shí)代，那么AI Agent則有機(jī)會(huì)把AIGC的能力真正產(chǎn)品化。

從技術(shù)到場(chǎng)景，摸著石頭過河

第一個(gè)層次是小數(shù)據(jù)訓(xùn)練小模型，過去幾十年的傳統(tǒng)方法都處于這個(gè)階段。

第二個(gè)層次是用互聯(lián)網(wǎng)規(guī)模的海量數(shù)據(jù)訓(xùn)練大模型，以GPT-3為代表。

第三個(gè)層次是從單模態(tài)到多模態(tài)，比如GPT-4o和Gemini是文字視覺語音的多模態(tài)大模型。

在交通領(lǐng)域，AI Agent可以通過分析交通數(shù)據(jù)和實(shí)時(shí)路況提供最佳的路線規(guī)劃和交通建議。

在醫(yī)療領(lǐng)域，AI Agent可以幫助醫(yī)生進(jìn)行疾病診斷和治療方案的制定。

大數(shù)據(jù)，進(jìn)化之路的最大變量

AI大模型對(duì)于AI Agent能力提升的重要性，主要體現(xiàn)在三個(gè)方面。

首先，大模型顯著提升了AI Agent解決復(fù)雜任務(wù)的能力，根據(jù)理解，把復(fù)雜任務(wù)拆解成一系列可執(zhí)行的任務(wù)。

之后，在多模態(tài)大模型的能力下，AI Agent可以依托視覺、觸覺等在更復(fù)雜的場(chǎng)景里做事。

由此也看出，數(shù)據(jù)是除了大模型技術(shù)外，制約機(jī)器人下一步進(jìn)化最為關(guān)鍵的要素。

邁出實(shí)驗(yàn)室，還要答好幾道題？

AI Agent的想象力不言而喻，但現(xiàn)在的情況是廠商都在說自己是做Agent的，那么現(xiàn)階段Agent到底能做什么，沒人可以說得清楚。

第三，國內(nèi)智能算力較為短缺的現(xiàn)狀下，各家大模型在持續(xù)投入人力、算力、資金并實(shí)現(xiàn)商業(yè)化落地方面，可能會(huì)面臨較大挑戰(zhàn)。因此，Agent想要真正實(shí)現(xiàn)規(guī)模化落地，道阻且長。

對(duì)于AI Agent，一個(gè)很殘酷的現(xiàn)實(shí)是，看項(xiàng)目的大有人在，投項(xiàng)目的屈指可數(shù)。

歷史搜索全部刪除

熱門搜索

AI Agent，下一個(gè)爆款級(jí)AI應(yīng)用？

從技術(shù)到場(chǎng)景，摸著石頭過河

大數(shù)據(jù)，進(jìn)化之路的最大變量

邁出實(shí)驗(yàn)室，還要答好幾道題？

評(píng)論

AI Agent，下一個(gè)爆款級(jí)AI應(yīng)用？

從技術(shù)到場(chǎng)景，摸著石頭過河

大數(shù)據(jù)，進(jìn)化之路的最大變量

邁出實(shí)驗(yàn)室，還要答好幾道題？

AI Agent，下一個(gè)爆款級(jí)AI應(yīng)用？

從技術(shù)到場(chǎng)景，摸著石頭過河

大數(shù)據(jù)，進(jìn)化之路的最大變量

邁出實(shí)驗(yàn)室，還要答好幾道題？

評(píng)論

AI Agent，下一個(gè)爆款級(jí)AI應(yīng)用？

從技術(shù)到場(chǎng)景，摸著石頭過河

大數(shù)據(jù)，進(jìn)化之路的最大變量

邁出實(shí)驗(yàn)室，還要答好幾道題？

AI Agent，下一個(gè)爆款級(jí)AI應(yīng)用？

邁出實(shí)驗(yàn)室，還要答好幾道題？

AI Agent，下一個(gè)爆款級(jí)AI應(yīng)用？

大數(shù)據(jù)，進(jìn)化之路的最大變量

邁出實(shí)驗(yàn)室，還要答好幾道題？