文|正見TrueView 阿文
編輯|詠鵝
智能體,正處于大爆發(fā)的前夜。
近日,在Agent OpenDay上,智譜AI展示了在AI Agent(智能體)方面最新成果,發(fā)布了用AI替代人類執(zhí)行任務(wù)的三款智能體,分別是面向手機的phone use——AutoGLM,面向電腦的compute use——GLM PC,以及面向網(wǎng)頁的GLM-Web能力。
此前,微軟也宣布,已建立全球規(guī)模最大的企業(yè)級AI Agent生態(tài)系統(tǒng)。加之谷歌Jarvis意外泄露、OpenAI即將推出Operator……似乎過不了多久,AI Agent就將接管我們的生活和工作。
那么AI Agent到底是什么?
從概念上來說,AI Agent是一種不需要持續(xù)人類干預的AI系統(tǒng),可以基于環(huán)境和背景信息,自主分析各種問題,做出邏輯決策,并且在沒有持續(xù)人類輸入的情況下處理多種任務(wù),比如AlphaGo是一個典型的AI Agent,它可以在和人類對弈圍棋的過程中,根據(jù)當前的棋局和對手的行動,自主決策下一步的動作。
AI技術(shù)從基礎(chǔ)模型到Agent概念興起,再到如今能自主推理,還能操作執(zhí)行特定任務(wù)的軟件,經(jīng)歷了一個漫長而復雜的技術(shù)演變過程。
強化學習是AI Agent發(fā)展的關(guān)鍵技術(shù)之一,大語言模型(LLM)的發(fā)展為AI Agent提供了新的可能性。LLM作為AI Agent的核心大腦,可以實現(xiàn)復雜問題的拆解、類人的自然語言交互等能力。
AI Agent代表著AI技術(shù)邁向更智能、更自主交互的新階段。它不再僅僅是簡單地執(zhí)行指令,而是能夠像人類助手一樣,根據(jù)復雜的情境和目標進行自主規(guī)劃、決策與執(zhí)行任務(wù)。想象一下,如果你餓了,你只需要給AI助手下達“點個外賣”的指令,AI助手就能自動幫你完成從外賣搜索、查詢、下單、確認的全部動作。
這不僅僅是提升效率的表現(xiàn),還是一種全新的人機交互模式,可以讓機器和人之間的關(guān)系更加緊密。去年12月比爾·蓋茨曾預測,Agent不僅將改變?nèi)藗兣c計算機的互動方式,還將顛覆軟件行業(yè);李彥宏也認為,智能體是AI時代的網(wǎng)站,將會有幾百萬,甚至更大量的智能體出現(xiàn)形成龐大生態(tài)。
Part.1 AI Agent進化史:從簡單對話到私人助理
Agent概念并非是人工智能第三次浪潮的產(chǎn)物,而是伴隨人工智能出現(xiàn)的“智能實體”概念不斷進化的結(jié)果。
1966年,MIT人工智能實驗室的Joseph Weizenbaum開發(fā)出了歷史上第一個聊天機器人ELIZA,名字源于蕭伯納戲劇作品《賣花女》中的主角名,它只有200行程序代碼和一個有限的對話庫,可以針對提問中的關(guān)鍵詞,進行答復。
ELIZA其實沒有任何智能性可言。它基于規(guī)則運作,既不理解對方的內(nèi)容,也不知道自己在說什么。但即便如此,它還是開創(chuàng)了人機對話的先河。ELIZA可以說是現(xiàn)在Siri、小愛同學等問答交互工具的鼻祖。
進入21世紀后,隨著技術(shù)的不斷發(fā)展,AI Agent的發(fā)展進入平穩(wěn)期,機器學習技術(shù)的興起為AI Agent的智能提升提供了動力,深度學習技術(shù)的突破為AI Agent的發(fā)展帶來了革命性的進步,使得AI Agent在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了重大突破。
目前,人工智能已經(jīng)廣泛應(yīng)用于各個領(lǐng)域,如醫(yī)療、教育、交通、金融等,AI Agent在這些領(lǐng)域的應(yīng)用提高了工作效率。
2011年,可以說具備關(guān)鍵轉(zhuǎn)折意義的一年。首先,IBM Watson在智力問答節(jié)目Jeopardy!中戰(zhàn)勝人類選手,展示了AI的強大潛力;其次,這一年,蘋果推出Siri,開創(chuàng)了移動智能助手的新時代。2014年,微軟在中國推出AI聊天機器人“小冰”,首次展現(xiàn)了AI在情感計算和社交互動方面的潛力。
但嚴格意義上來說,AI Agent真正到來的開端是2022年11月,OpenAI發(fā)布ChatGPT,掀起了全球AI熱潮。2023年3月14日多模態(tài)大模型GPT-4發(fā)布,支持圖像輸入,其理解力和生成能力大幅提升,開創(chuàng)了自主AI Agent的先河??梢哉f,ChatGPT的問世,實現(xiàn)了從“說”到“做”,不再僅僅停留在對話層面,而是能夠自主執(zhí)行復雜任務(wù)。
AI Agent能有如今的發(fā)展速度,離不開關(guān)鍵技術(shù)的突破,如深度學習與神經(jīng)網(wǎng)絡(luò)的發(fā)展、大規(guī)模預訓練語言模型、強化學習與人類反饋、多模態(tài)交互能力以及工具使用和環(huán)境適應(yīng)能力等等。
據(jù)悉,智能體的數(shù)量呈爆發(fā)式增長,國內(nèi)智能體總數(shù)1年超1000萬個,是蘋果應(yīng)用商店每年上線應(yīng)用數(shù)量的85倍。智能體創(chuàng)作平臺也被比爾·蓋茨認為是繼Android、iOS和Windows后的下一代應(yīng)用開發(fā)平臺。
Part.2 大廠紛紛下場,AI Agent涌向終端市場
智能體或?qū)⒊蔀槔^PC、移動終端后的下一個爆發(fā)點。李彥宏曾公開表示,基礎(chǔ)模型本身是需要靠應(yīng)用才能顯現(xiàn)出來的價值。智能體就是一個幾乎可以是放之四海而皆準的基于大模型的應(yīng)用。
數(shù)據(jù)顯示,2024年1月到10 月,中國AI原生應(yīng)用(App)累計下載量排名前5的應(yīng)用豆包、文小言(原文心一言)、Kimi、星野、天工AI累計下載量分別為1.08億、2260萬、2100萬、1790萬、1170萬。
國內(nèi)最早上線大模型原生應(yīng)用的是百度,于2023年3月16日上線文心一言,與OpenAI發(fā)布ChatGPT僅相距三個月時間。隨后國內(nèi)互聯(lián)網(wǎng)大廠和創(chuàng)業(yè)新秀們陸陸續(xù)續(xù)上線國產(chǎn)AI大模型應(yīng)用,如阿里通義千問大模型2023年4月上線,訊飛星火大模型2023年5月上線,智譜AI 2023年9月上線,后起之秀Kimi智能助手稍晚,但也于2023年10月上線,距ChatGPT發(fā)布不過10個月。
2024年6月25日OpenAI宣布中國不在當前支持API服務(wù)的188個國家和地區(qū)名單中,這意味著ChatGPT將終止在中國的服務(wù)。而對于國內(nèi)的AI玩家和智能體開發(fā)者來說,這無疑是天大的利好機會。
據(jù)悉,互聯(lián)網(wǎng)大廠中,百度、阿里、騰訊、字節(jié)跳動、華為等皆已布局智能體賽道,并推出一站式智能體開發(fā)平臺。一時間,字節(jié)跳動的扣子、騰訊云的騰訊元器、百度智能云千帆AgentBuilder、阿里云大模型平臺百煉、科大訊飛星火智能體平臺等智能體開發(fā)平臺百花齊放。
相較于大廠的算力、數(shù)據(jù)、人才等資源優(yōu)勢,能夠在模型端、應(yīng)用端以及中間層智能體開發(fā)平臺協(xié)同閉環(huán)發(fā)展,其他規(guī)模廠商的大模型技術(shù)路徑雖各有側(cè)重,但都有一定的大模型研發(fā)基礎(chǔ)。
2023年4月,商湯科技推出名為“日日新SenseNova”的大模型,集成了自然語言處理、內(nèi)容生成、自動化數(shù)據(jù)標注、自定義模型訓練等多種強大功能。
再比如百川智能,由搜狗創(chuàng)始人王小川創(chuàng)立,自2023年成立以來便以驚人的速度發(fā)展。短短半年多時間,百川智能便接連發(fā)布了Baichuan-7B/13B、Baichuan2-7B/13B四款開源可免費商用大模型,以及Baichuan-53B、Baichuan2-53B兩款閉源大模型,平均每28天就會有一款新的大模型問世。
智譜AI自2019年成立以來,便深耕于大模型研發(fā)領(lǐng)域,憑借著清華大學知識工程實驗室(KEG)的強大技術(shù)支撐。2023年,其推出面向C端用戶的聊天對話應(yīng)用“智譜清言”。
和互聯(lián)網(wǎng)大廠不同的是,智譜AI、百川智能等初創(chuàng)企業(yè),更多的是以AI應(yīng)用助手的產(chǎn)品形式為主,暫未推出智能體開發(fā)平臺。
值得注意的是,2024年,越來越多的手機廠商開始頻繁提及手機智能體相關(guān)概念。近日,vivo在其2024開發(fā)者大會上推出了名為PhoneGPT的手機智能體,是手機中可以基于用戶意圖主動完成任務(wù)的多模態(tài)助理,它可以準確地識別手機屏幕界面中的內(nèi)容,自動操作手機中各種各樣的應(yīng)用,完成用戶交代的任務(wù),比如打電話、短信等。
早在今年9月,榮耀在2024德國柏林消費電子展上發(fā)布跨應(yīng)用開放生態(tài)智能體。更早之前,6月,華為也在其開發(fā)者大會期間宣布了“鴻蒙原生智能”(Harmony Intelligence),小藝升級為系統(tǒng)級智能體。
比爾·蓋茨曾預測,AI Agent將是大模型之后的下一個平臺,越來越多的大模型公司和科技企業(yè)都開始布局Agent。在大模型這場競爭裝備賽中,如果說上半場卷的是基礎(chǔ)能力,那么現(xiàn)在,AI Agent的應(yīng)用落地成為最重要的產(chǎn)品競爭形態(tài)。
Part.3 爆發(fā)前夜:全民智能體能否成為現(xiàn)實?
AI Agent的能力會不斷完善。首先,能夠分解任務(wù)并制定執(zhí)行計劃;其次,可以調(diào)用API、訪問網(wǎng)絡(luò)、操作軟件;第三,具備持續(xù)學習和知識積累能力。最后,能夠在復雜環(huán)境中做出自主判斷。
智能體不僅能對話,還具有反思和規(guī)劃能力。如果用戶反饋結(jié)果不對,它會自己思考哪里出問題了,還能夠?qū)Ψ峙涞娜蝿?wù)進行自主規(guī)劃、思考調(diào)用什么工具能夠?qū)崿F(xiàn)最終目標。
因此也可以預判,隨著技術(shù)的成熟和應(yīng)用場景的明確,AI Agent的能力維度逐步完善,用戶體驗效果也會更好。這對于企業(yè)級智能體應(yīng)用也將十分有價值。未來,企業(yè)級AI Agent或?qū)⒂瓉砜焖僭鲩L期,各行各業(yè)都將開始大規(guī)模采用定制化的Agent解決方案。
此外,未來的AI系統(tǒng)將不再是獨立運行的單個Agent,而是多Agent協(xié)作將取代單Agent系統(tǒng),即由多個專業(yè)化Agent組成的協(xié)作網(wǎng)絡(luò),它們能夠分工合作,共同完成復雜任務(wù)。
銀河證券研報指出,AI Agent的崛起正重塑AI產(chǎn)業(yè)鏈并帶來投資新機遇。預計到2028年,中國AI代理市場規(guī)模將激增至8520億元,年復合增長率達72.7%。AI Agent產(chǎn)業(yè)鏈是多元化且高度協(xié)同生態(tài)系統(tǒng),未來市場空間廣闊。AI Agent推動App生態(tài)逐漸向端側(cè)生態(tài)轉(zhuǎn)變,將成為AI應(yīng)用發(fā)展新趨勢。傳統(tǒng)端側(cè)AI之前的痛點之一是無法通過用戶指令調(diào)用操作界面并實現(xiàn)用戶目標。AI Agent模型通過實現(xiàn)自然語言與硬件的交互,解決端側(cè)AI痛點。
AI Agent雖然帶來了諸多想象力,但在真正的落地應(yīng)用中還存在諸多挑戰(zhàn)。比如,可靠性、性能和成本依舊是一個大難題。眾所周知,LLM容易產(chǎn)生幻覺和不一致性,將多個 AI步驟連接起來會加劇這些問題,尤其是對于需要精確輸出的任務(wù)。此外,GPT-4、Gemini-1.5和Claude Opus在使用工具/函數(shù)調(diào)用方面表現(xiàn)不錯,但它們?nèi)匀惠^慢且成本高,特別是需要進行循環(huán)和自動重試時。
風口之上,任何一家企業(yè)與個體都想要抓住它,但Agent如何保證用戶的數(shù)據(jù)安全和隱私一直是業(yè)界討論最多的問題之一。
Agent一旦投入應(yīng)用,勢必會接觸到客戶的核心數(shù)據(jù),倘若數(shù)據(jù)泄漏,可能讓用戶和社會蒙受巨大損失。如若在賬單、密碼、購物等涉及支付或個人信息的敏感動作中,用戶信任很難建立。但數(shù)據(jù)又是模型訓練不可缺少的“生產(chǎn)資料”。
當前,中國正處于AI智能體應(yīng)用快速發(fā)展的關(guān)鍵節(jié)點,有挑戰(zhàn)是正?,F(xiàn)象。誰能快速適應(yīng)并利用好智能體技術(shù),將直接影響該企業(yè)未來能否在市場競爭中脫穎而出。而AI Agent的火爆,會迎來一個比互聯(lián)網(wǎng)時代還要火爆的黃金年代嗎?我們拭目以待。