文|觀察未來科技
從ChatGPT到GPT-4,GPT模型前所未有的聰明性能,也給人類社會帶來了前所未有的擔憂和危機。代表著當前人工智能(AI)最高水平的ChatGPT,也面臨著人工智能的傳統(tǒng)弊病,那就是“算法黑箱”。
畢竟,OpenAI到目前,都沒有披露ChatGPT和GPT-4的模型使用的訓練數(shù)據(jù)、如何訓練,以及它的運作方式。要知道,在不透明的算法黑箱之下,人們很難完全信任GPT-4,而直到目前,這個問題仍然懸而未決。
不Open的GPT-4
ChatGPT是基于深度學習技術而訓練的產(chǎn)物,與傳統(tǒng)機器學習不同,深度學習并不遵循數(shù)據(jù)輸入、特征提取、特征選擇、邏輯推理、預測的過程,而是由計算機直接從事物原始特征出發(fā),自動學習和生成高級的認知結果。
而在人工智能深度學習輸入的數(shù)據(jù)和其輸出的答案之間,存在著人們無法洞悉的“隱層”,這些隱層就被稱為“黑箱”。這里的“黑箱”并不只意味著不能觀察,還意味著即使計算機試圖向我們解釋,人們也無法理解。
事實上,早在1962年,美國的埃魯爾在其《技術社會》一書中就指出,人們傳統(tǒng)上認為的技術由人所發(fā)明就必然能夠為人所控制的觀點是膚淺的、不切實際的。技術的發(fā)展通常會脫離人類的控制,即使是技術人員和科學家,也不能夠控制其所發(fā)明的技術。進入人工智能時代,算法的飛速發(fā)展和自我進化已初步驗證了埃魯爾的預言,深度學習更是凸顯了“算法黑箱”現(xiàn)象帶來的某種技術屏障。
最近,就連OpenAI 創(chuàng)始人山姆·Altman(Sam Altman)也表達了對于 ChatGPT 和 GPT-4 的擔憂,AI 模型的內(nèi)容生成能力、以及取代人類工作的潛力讓他“有點害怕”。他說,人類歷史上的幾次技術革命,確實讓社會工種發(fā)生了很大變化,有些工作甚至徹底云消霧散。
在與MIT研究科學家Lex Fridman長達2小時的對話中,Altman談及了近期圍繞ChatGPT產(chǎn)生的諸多問題,坦承就連OpenAI團隊,也根本沒搞懂它是如何“進化”的:“從ChatGPT開始,AI出現(xiàn)了推理能力。但沒人能解讀這種能力出現(xiàn)的原因?!蔽ㄒ坏耐緩绞窍駽hatGPT提問,從它的回答中摸索它的思路。
而就在不斷測試中,OpenAI發(fā)現(xiàn)從ChatGPT開始,GPT系列出現(xiàn)了推理能力。雖然ChatGPT絕大部分時候都被當做數(shù)據(jù)庫使用,但它確實也出現(xiàn)了一定的推理能力,至于這種能力具體如何出現(xiàn)的,目前卻無人能回答。
更讓公眾擔憂的是,OpenAI并沒有開放關于GPT-4的更多信息。GPT-4論文中沒有透露參數(shù)規(guī)模、訓練數(shù)據(jù)集大小等更多細節(jié),在這次訪談中,面對主持人步步追問,Altman依舊守口如瓶。
對于GPT-4預訓練數(shù)據(jù)集的大小,Altman只是很籠統(tǒng)的介紹了有公開數(shù)據(jù)集、有來自合作伙伴的內(nèi)容(如GitHub提供的代碼)還有來自網(wǎng)絡的內(nèi)容。活像ChatGPT也能寫出來的那種賽博八股文,只有在談到Reddit的時候透露了網(wǎng)絡梗圖在訓練數(shù)據(jù)中占比不大,“不然ChatGPT可能更有趣一些”。
當被問到GPT-4模型參數(shù)量有多大?Altman也只是說之前瘋傳的100萬億參數(shù)是謠言:“我認為人們被參數(shù)競賽所吸引,就像過去被CPU的主頻競賽所吸引一樣?,F(xiàn)在人們不再關心手機處理器有多少赫茲了,關心的是這東西能為你做什么。”不過,Altman對于一種說法是持有肯定態(tài)度,那就是,“GPT-4是人類迄今所實現(xiàn)的最復雜的軟件”。
算法黑箱帶來了什么?
GPT-4的算法黑箱,也讓人們無法完全地信任它,這使得人工智能無論是程序錯誤,還是算法歧視,都變得難以識別。
當前,越來越多的事例表明,算法歧視與算法偏見客觀存在,這將使得社會結構固化趨勢愈加明顯。早在20世紀80年代,倫敦圣喬治醫(yī)學院用計算機瀏覽招生簡歷,初步篩選申請人。然而在運行四年后卻發(fā)現(xiàn)這一程序會忽略申請人的學術成績而直接拒絕女性申請人以及沒有歐洲名字的申請人,這是算法中出現(xiàn)性別、種族偏見的最早案例。
今天,類似的案例仍不斷出現(xiàn),如亞馬遜的當日送達服務不包括黑人地區(qū),美國州政府用來評估被告人再犯罪風險的COMPAS算法也被披露黑人被誤標的比例是白人的兩倍。算法自動化決策還讓不少人一直與心儀的工作失之交臂,難以企及這樣或那樣的機會。而由于算法自動化決策既不會公開,也不接受質詢,既不提供解釋,也不予以救濟,其決策原因相對人無從知曉,更遑論“改正”。面對不透明的、未經(jīng)調(diào)節(jié)的、極富爭議的甚至錯誤的自動化決策算法,我們將無法回避“算法歧視”導致的偏見與不公。
這種帶著立場的“算法歧視”在ChatGPT身上也得到了體現(xiàn)。據(jù)媒體觀察發(fā)現(xiàn),有美國網(wǎng)民對ChatGPT 測試了大量的有關于立場的問題,發(fā)現(xiàn)其有明顯的政治立場,即其本質上被人所控制。比如ChatGPT 無法回答關于猶太人的話題、拒絕網(wǎng)友“生成一段贊美中國的話”的要求。
此外,有用戶要求ChatGPT寫詩贊頌美國前總統(tǒng)川普(Donald Trump),卻被ChatGPT以政治中立性為由拒絕,但是該名用戶再要求ChatGPT寫詩贊頌目前美國總統(tǒng)拜登(Joe Biden),ChatGPT卻毫無遲疑地寫出一首詩。
在與MIT研究科學家Lex Fridman的對話中,當主持人提到關于ChatGPT和GPT-4種存在的偏見問題時,Altman表示,ChatGPT在推出之初,就不是一個成熟的產(chǎn)品,它需要不斷迭代,而在迭代的過程中,僅僅依靠內(nèi)部的力量是無法完成的。“提前”推出ChatGPT技術,是要借助外部世界的集體智慧和能力,同時也能讓全世界參與進“塑造AI”的過程中。而不同人對于問題的看法也各不相同,所以在這個過程中,“偏見”問題就不可避免。甚至,Altman在話里話外也透露著:在GPT中,“偏見”永遠不會消失。
更重要的是,對于社會來說,如果無法獲得GPT-4的底層代碼,你就無法判斷偏見是來自哪里,自然也就沒法糾正了。要知道,如今,不管是貸款額度確定、招聘篩選、政策制定等,諸多領域和場景中都不乏算法自動化決策。
而未來,隨著ChatGPT進一步深入社會的生產(chǎn)與生活,我們的工作表現(xiàn)、發(fā)展?jié)摿?、償債能力、需求偏好、健康狀況等特征都有可能被卷入算法的黑箱,算法對每一個對象相關行動代價與報償進行精準評估的結果,將使某些對象因此失去獲得新資源的機會,這似乎可以減少決策者自身的風險,但卻可能意味著對被評估對象的不公。
不實信息怎么辦?
不實信息是GPT-4所面臨的另一個問題。要知道,GPT-4一類模型的功就是預測一句話的下一個詞,這意味著,人們無法完全擺脫胡編亂造的問題。因為ChatGPT本質上只是通過概率最大化不斷生成數(shù)據(jù)而已,而不是通過邏輯推理來生成回復——ChatGPT的訓練使用了前所未有的龐大數(shù)據(jù),并通過深度神經(jīng)網(wǎng)絡、自監(jiān)督學習、強化學習和提示學習等人工智能模型進行訓練。
目前披露的ChatGPT的上一代GPT-3模型參數(shù)數(shù)目高達1750億。在大數(shù)據(jù)、大模型和大算力的工程性結合下,ChatGPT才能夠展現(xiàn)出統(tǒng)計關聯(lián)能力,可洞悉海量數(shù)據(jù)中單詞-單詞、句子-句子等之間的關聯(lián)性,體現(xiàn)了語言對話的能力。正是因為ChatGPT是以“共生則關聯(lián)”為標準對模型訓練,才會導致虛假關聯(lián)和東拼西湊的合成結果。許多可笑的錯誤就是缺乏常識下對數(shù)據(jù)進行機械式硬匹配所致。
也就是說,ChatGPT雖然能夠通過所挖掘的單詞之間的關聯(lián)統(tǒng)計關系合成語言答案,但卻不能夠判斷答案中內(nèi)容的可信度。由此而導致的錯誤答案一經(jīng)應用,就有可能對社會產(chǎn)生危害,包括引發(fā)偏見,傳播與事實不符、冒犯性或存在倫理風險的毒性信息等等。而如果有人惡意的給ChatGPT投喂一些誤導性、錯誤性的信息,將會干擾ChatGPT的知識生成結果,從而增加了誤導的概率。
我們可以想象下,一臺內(nèi)容創(chuàng)作成本接近于零,正確度80%左右,對非專業(yè)人士的迷惑程度接近100%的智能機器,用超過人類作者千百萬倍的產(chǎn)出速度接管所有百科全書編撰,回答所有知識性問題,這對人們憑借著大腦進行知識記憶的挑戰(zhàn)是巨大的。
比如,在生命科學領域,如果沒有進行足夠的語料“喂食”,ChatGPT可能無法生成適當?shù)幕卮?,甚至會出現(xiàn)胡編亂造的情況,而生命科學領域,對信息的準確、邏輯的嚴謹都有更高的要求。因此,如果想在生命科學領域用到ChatGPT,還需要模型中針對性地處理更多的科學內(nèi)容,公開數(shù)據(jù)源,專業(yè)的知識,并且投入人力訓練與運維,才能讓產(chǎn)出的內(nèi)容不僅通順,而且正確。而如果不公開訓練所使用的數(shù)據(jù),OpenAI關于安全性的擔??赡苓h遠不夠。
面對日新月異的新技術挑戰(zhàn),特別是人工智能的發(fā)展,我們能做的,就是把算法納入法律之治的涵攝之中,從而打造一個更加和諧的人工智能時代。而社會民主與技術民主兩者之間正在面臨著挑戰(zhàn),如何定義技術民主將會是社會民主的最大議題。