文丨盧向華(復(fù)旦大學(xué)管理學(xué)院教授)
當(dāng)高度發(fā)達(dá)的AI技術(shù)“包辦”方方面面,人類會不會變得“不思進(jìn)取”,科幻作品想象中的畫面是否會成為現(xiàn)實(shí)?而在此之前,人類又該如何避免這樣的“退化”發(fā)生?人類與AI協(xié)作進(jìn)入常態(tài)化發(fā)展的當(dāng)下,怎樣通過設(shè)計更好的協(xié)作機(jī)制,以實(shí)現(xiàn)人類與AI的共同演化和提升。
使用AI的人比AI本身更關(guān)鍵
人和AI如何協(xié)作能產(chǎn)生更好的效果?
讓我們先從用戶異質(zhì)性的角度討論AI對不同個體帶來的差異性效果,然后分析人與AI如何互補(bǔ)的協(xié)同工作機(jī)制。最后,從長期動態(tài)的角度探討人和AI如何互相增強(qiáng)、互相學(xué)習(xí),以實(shí)現(xiàn)共同的演化和提升。
首先,我們都意識到在AI系統(tǒng)中,人的角色不可或缺。最近,清華大學(xué)的李寧老師在一項研究中發(fā)現(xiàn),使用ChatGPT3.5或是ChatGPT4.0對任務(wù)的完成質(zhì)量并沒有明顯差異,但不同的人使用相同版本的ChatGPT3.5完成任務(wù)時,質(zhì)量差異卻顯著。
基于這一發(fā)現(xiàn),他們提出了一個觀點(diǎn):使用AI的人比AI技術(shù)本身更為關(guān)鍵。學(xué)術(shù)研究中也有許多相關(guān)發(fā)現(xiàn)。例如,一些研究表明,越開放、越外向的人與AI的協(xié)作效果越好。
另外,還有一項有趣的研究發(fā)現(xiàn),認(rèn)真負(fù)責(zé)的人實(shí)際上并不太喜歡AI,因?yàn)锳I與傳統(tǒng)技術(shù)不同,能夠自主做出決策,而這一特性與認(rèn)真負(fù)責(zé)的員工的本質(zhì)有所重疊。因此,認(rèn)真負(fù)責(zé)的員工從AI中獲益可能會比不那么認(rèn)真的員工少一些。相關(guān)研究還有很多。
然而,最為重要的用戶異質(zhì)性因素可能是工作經(jīng)驗(yàn)。
工作經(jīng)驗(yàn)在人和機(jī)器合作中起著雙刃劍的作用。一方面,工作經(jīng)驗(yàn)可以增加對算法建議的補(bǔ)充能力,從而提升協(xié)作效果;但另一方面,有經(jīng)驗(yàn)的人往往更加相信自己,不太信任算法,也不愿意與AI合作,這會導(dǎo)致協(xié)作效果變差。
因此,根據(jù)這一推理,AI與人協(xié)作的效果通常與工作經(jīng)驗(yàn)呈現(xiàn)出一種“倒U形”的關(guān)系,即隨著用戶工作經(jīng)驗(yàn)的增加,效果先增加后減少。這一推理已在許多研究中得到證實(shí)。
比如,一項在2023年的研究發(fā)現(xiàn),資歷高的員工從AI中獲益較少。具體而言,經(jīng)驗(yàn)較少的員工的獲益比例達(dá)40%,而資歷較高的員工從AI中獲益僅約為10%到15%左右。然而,研究也發(fā)現(xiàn),當(dāng)將經(jīng)驗(yàn)用任務(wù)專業(yè)度來衡量時,具有高專業(yè)性的人仍然能夠從AI中獲益。這一發(fā)現(xiàn)與我們即將介紹的另一項研究結(jié)論一致。
AI搞定“重復(fù)性”,人類負(fù)責(zé)“創(chuàng)造性”
對于人機(jī)協(xié)作系統(tǒng)而言,除了單獨(dú)考慮AI系統(tǒng)和人的因素外,更重要的是如何充分發(fā)揮整體的能動性和優(yōu)勢,以平衡匹配人的特征和系統(tǒng)的特征,從而實(shí)現(xiàn)任務(wù)的最優(yōu)價值。
其中一種方法是通過分工,讓雙方各自發(fā)揮所長。換句話說,讓AI處理那些可重復(fù)、結(jié)構(gòu)化程度高的任務(wù),而讓人更好地發(fā)揮自己的靈活性和創(chuàng)造力,解決那些情況多變、復(fù)雜度高的問題。
最近在《管理學(xué)雜志》上發(fā)表的一篇論文對信用卡電話營銷中的人機(jī)協(xié)同進(jìn)行了相關(guān)研究。信用卡電話營銷通常分為兩個階段:第一階段是識別和篩選出感興趣的目標(biāo)客戶,第二階段是為客戶提供服務(wù)并最終說服他們購買信用卡。第一階段的銷售線索生成工作相對較為重復(fù)、規(guī)范和結(jié)構(gòu)化,因此,AI對話機(jī)器人可以相對熟練地處理這項工作。
然而,在第二階段,AI的能力明顯力不從心了,它們無法靈活應(yīng)對客戶需求,尤其是那些超出了腳本范圍的問題。因此,研究發(fā)現(xiàn)需要及時將人類推銷員接入系統(tǒng),以解決這些靈活多變的客戶需求。
這種人機(jī)互補(bǔ)模式特別有助于人類更好地集中精力思考之前未曾遇到的客戶需求和問題,并針對這些問題提供創(chuàng)新的腳本。而這些創(chuàng)新的腳本又進(jìn)一步補(bǔ)充了AI的知識體系,使得AI系統(tǒng)在未來的電話營銷中能夠處理這些新問題。
這個例子揭示了人和AI能力的差異和互補(bǔ)性,這實(shí)際上是人機(jī)協(xié)作系統(tǒng)的核心價值所在。有效的人機(jī)協(xié)作系統(tǒng)需要持續(xù)監(jiān)控和管理,不斷提升AI系統(tǒng)的算法能力,并將用戶的能力融入其中,以確保實(shí)現(xiàn)預(yù)期的設(shè)計目標(biāo)。
因此,在人機(jī)協(xié)作過程中,經(jīng)常聽到人機(jī)回環(huán)(Human-in-the-loop)或基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback) 。盡管這些術(shù)語較為技術(shù)化,早期更多用于指導(dǎo)人工修正AI算法設(shè)計,但現(xiàn)在更多地指代,人機(jī)協(xié)作系統(tǒng)自動將人類判斷融入AI系統(tǒng)流程中,構(gòu)建任務(wù)流程的閉環(huán)。
例如,在自動駕駛汽車中,機(jī)器可以感知環(huán)境并做出決策,但遇到不確定情況時,需要人類介入干預(yù)和決策。只有通過人和AI算法相互補(bǔ)充的方式,才能提高汽車駕駛的效率和準(zhǔn)確性。這種人機(jī)互補(bǔ)的協(xié)作方式可以使人類在機(jī)器無法處理的情況下發(fā)揮更大的作用,從而提高整體系統(tǒng)的性能。
警惕AI對人類的“阿諛奉承”
在人和AI緊密互補(bǔ)的合作過程中,必須警惕的是,人是否過于依賴AI,從而失去自己的思考判斷能力,導(dǎo)致思維上的“惰化”。
最近的一項研究向?qū)嶒?yàn)參與者提供了模糊的電路板圖像,并要求他們檢查是否存在缺陷。其中一半的參與者被告知,他們要處理的電路板已經(jīng)由一臺名為“熊貓”的AI機(jī)器人檢查過,并標(biāo)記出了缺陷。
結(jié)果顯示,與“熊貓”一起工作的參與者在任務(wù)后期發(fā)現(xiàn)的缺陷更少,平均僅發(fā)現(xiàn)了3.3個缺陷,而獨(dú)自完成任務(wù)的參與者平均發(fā)現(xiàn)了4.23個缺陷。
這主要是因?yàn)榕c“熊貓”合作的參與者認(rèn)為這個AI機(jī)器是可靠的,因此他們傾向于懶得花更多精力去認(rèn)真檢查缺陷。尤其是當(dāng)任務(wù)變得例行化,且工作環(huán)境中缺乏性能監(jiān)測和反饋時,人類的努力會減少得更多。
因此,有人認(rèn)為,在AI時代,人類最大的危機(jī)不是被AI取代,而是“懶到退化”,即人過于依賴AI的情況。
同時,也會出現(xiàn)一種情況,即AI可能會錯誤地向人學(xué)習(xí),表現(xiàn)出一種討好的行為。
例如,OpenAI的競爭對手Anthropic在研究ChatGPT4.0等AIGC應(yīng)用時發(fā)現(xiàn),GPT4.0經(jīng)常會“錯誤地承認(rèn)錯誤”,即使自己并沒有錯,但是當(dāng)用戶指出GPT的錯誤時,它會錯誤地承認(rèn)錯誤,并模仿用戶的錯誤。
這種“阿諛奉承”的現(xiàn)象在各種AIGC模型和情境中都有存在,這并不僅是GPT4.0的特征,而是某種程度上表明了AI會傾向于產(chǎn)生符合用戶觀點(diǎn)或信仰的回應(yīng)。換句話說,當(dāng)AI的回復(fù)與用戶的觀點(diǎn)或信仰一致時,用戶更有可能給予積極的反饋。因此,為了獲得更多積極的反饋,大型模型會學(xué)習(xí)出現(xiàn)討好用戶的行為。
高經(jīng)驗(yàn)用戶將成為企業(yè)“寶藏”
如果說,在AI的初期引入階段,人機(jī)系統(tǒng)的設(shè)計可能缺乏和人交互的經(jīng)驗(yàn),同時人類也缺乏和AI交互的先驗(yàn)經(jīng)驗(yàn),這可能導(dǎo)致人機(jī)之間存在不信任或者合作不順暢的現(xiàn)象。那么,隨著時間的推移,和“1到N”的長期協(xié)同階段的到來,這種不信任或合作不順暢的現(xiàn)象會逐漸弱化。
更多的挑戰(zhàn)則來自人機(jī)系統(tǒng)如何不斷優(yōu)化迭代。換句話說,AI需要向優(yōu)秀的人學(xué)習(xí),而人也需要向AI學(xué)習(xí),雙方相互增強(qiáng),使得人機(jī)協(xié)作系統(tǒng)的能力不斷呈現(xiàn)動態(tài)螺旋上升的過程。
因此,在當(dāng)前“1到N”的長期協(xié)同階段,研究重點(diǎn)會與“0到1”階段有所不同。我們團(tuán)隊近兩年在這方面進(jìn)行了一些相關(guān)的探索。
在外賣配送場景中,當(dāng)騎手需要同時取多個訂單并且送達(dá)它們時,AI通常會提供建議的配送順序。騎手可以選擇遵循AI的建議,也可以自行決定如何派送這些訂單。為了進(jìn)一步提升騎手配送的效率,外賣平臺分析了表現(xiàn)最優(yōu)秀的騎手的配送順序,然后根據(jù)這些分析結(jié)果對AI算法進(jìn)行了升級。
AI算法的升級引發(fā)了一個有趣的問題:在此之前,騎手和AI系統(tǒng)已經(jīng)建立了一種相對穩(wěn)定的合作關(guān)系?,F(xiàn)在,隨著AI算法的明顯提升,用戶是否會改變他們的協(xié)作行為?若改變了,他們的績效又會如何變化?在這個過程中,不同經(jīng)驗(yàn)水平的用戶又會對感知和響應(yīng)AI系統(tǒng)能力提升的上有什么不同的表現(xiàn)?
我們和某外賣平臺合作的研究結(jié)果表明,高經(jīng)驗(yàn)的騎手相比于低經(jīng)驗(yàn)的騎手,更能夠感知到AI系統(tǒng)能力的提升。因此,在AI算法能力提升后,高經(jīng)驗(yàn)的騎手與AI算法的一致性有了明顯的提升,而低經(jīng)驗(yàn)的騎手的一致性提升則并不明顯。
這些騎手和AI的一致性提高了之后,我們還發(fā)現(xiàn)高經(jīng)驗(yàn)的騎手短期績效受到了部分影響。盡管他們的時效,也就是每小時送的訂單數(shù)量被提高了,但是以往他們的高準(zhǔn)時率,受到了一定的影響,這可能主要因?yàn)锳I會試圖改變,高經(jīng)驗(yàn)用戶以往的一些認(rèn)知,而這些高經(jīng)驗(yàn)的騎手,在認(rèn)知轉(zhuǎn)換過程中,又存在一定不適應(yīng)所導(dǎo)致的。
但這些高經(jīng)驗(yàn)的騎手往往有著相對高的自我要求和業(yè)務(wù)能力。因此,當(dāng)他們意識到自己的準(zhǔn)時率受到影響時,會努力尋找方法來恢復(fù)受損的準(zhǔn)時率。正如圖表所示,他們受損的準(zhǔn)時率逐漸恢復(fù)到之前的水平。對于外賣平臺而言,這意味著在人機(jī)系統(tǒng)的共同努力下,時效性和準(zhǔn)時率可以提升到一個新的水平。
我們的實(shí)證結(jié)果表明,人機(jī)回環(huán)的動態(tài)演進(jìn)過程可以如圖所示。低經(jīng)驗(yàn)的用戶通常目標(biāo)相對隨機(jī),因此無論AI能力如何提升,他們都會保持相對穩(wěn)定的AI遵從率,并享受AI能力帶來的紅利,其績效持續(xù)改善。
而高經(jīng)驗(yàn)的用戶一旦察覺到AI變得更聰明,他們會迅速調(diào)整與AI的合作方式,提高AI遵從率并向AI學(xué)習(xí)。即使在向AI學(xué)習(xí)的過程中,他們的部分績效可能會受損,但他們會主動采取措施調(diào)整,并繼續(xù)實(shí)現(xiàn)自己設(shè)定的高目標(biāo)。因此,從長期來看,他們的績效不斷提升。這些用戶的績效提升融合了他們自身的努力和智慧,因此有利于系統(tǒng)進(jìn)一步向他們學(xué)習(xí),推動新一輪的迭代優(yōu)化。相比之下,低經(jīng)驗(yàn)的用戶在這方面幾乎沒有貢獻(xiàn)。
從人機(jī)合作的角度來看,這些高經(jīng)驗(yàn)用戶對于系統(tǒng)整體優(yōu)化迭代的作用尤為關(guān)鍵,因此他們是企業(yè)非常寶貴的財富。
(文章僅代表作者觀點(diǎn)。責(zé)編郵箱:yanguihua@jiemian.com。)