文|三易生活
過去二十年間,試圖在搜索引擎領域掀翻谷歌王座的挑戰(zhàn)者不知凡幾,可谷歌可謂是從來都穩(wěn)坐釣魚臺。直到2023年AI搜索引擎Perplexity橫空出世,“谷歌殺手”這一次具象化了,而貝佐斯、孫正義等一眾大咖的青睞更是讓谷歌感受到了壓力。為了應對挑戰(zhàn),今年5月舉行的I/O開發(fā)者大會上,谷歌方面公布了AI Overviews(AI概覽),使得AI搜索不再由Perplexity獨享。
基于AI概覽功能,用戶在搜索問題時,谷歌AI會自動抓取網(wǎng)頁內(nèi)容生成總結,用戶也不再需要點擊網(wǎng)頁去尋找所需的信息。然而遺憾的是,號稱“重新定義搜索體驗”的AI概覽,上線之后的表現(xiàn)卻只能用“丟人現(xiàn)眼”來形容。例如當用戶查詢?nèi)绾螌⒅ナ亢团_餅胚粘在一起的時候,AI概覽的回答是“加點膠水”。
膠水確實是有效的粘合劑,但使用它的代價是披薩也就不能吃了。顯而易見,AI概覽給出的回答并不靠譜。緊接著就在外界以為這又是困擾AI大模型的幻覺問題作祟時,神通廣大的網(wǎng)友很快給出了AI概覽會回答“在披薩上涂膠水”的理由,因為這個回答實際上來源于一位Reddit用戶在11年前發(fā)的帖子。
由于Reddit以6000萬美元的價格與谷歌簽署了一項內(nèi)容授權協(xié)議,所以后者使用Reddit的數(shù)據(jù)很正常。但不正常的是,谷歌的AI概覽居然會在常識問題上翻車。為此,谷歌方面不得不緊急對其進行“十多項技術改進和更新”,以避免一些奇怪的、不準確的或無益的搜索結果出現(xiàn)。
就在網(wǎng)友們以為AI概覽的翻車只不過是新技術的陣痛,經(jīng)過谷歌的改進后,AI概率已經(jīng)“藥到病除”之后,現(xiàn)實卻超乎了幾乎所有人的想象,谷歌方面其實并沒有從技術上解決AI概覽生成錯誤的結果,而是通過降低AI概覽出現(xiàn)的頻率、以避免再次翻車。
日前據(jù)數(shù)字營銷和SEO網(wǎng)站Search Engine Land的相關報道顯示,現(xiàn)在AI概覽僅在7%的搜索結果中展示,而在5月下旬該功能剛剛發(fā)布時,這個數(shù)字還高達80%。具體來說,教育類問題中AI概覽的出現(xiàn)率從26%下降到了13%,電商類問題中的出現(xiàn)率從26%下降到9%,而娛樂類問題里的AI概覽則根本不再顯示。
同時Search Engine Land方面還發(fā)現(xiàn),當用戶使用的搜索關鍵詞包含“最佳”、“是什么”、“如何”、“癥狀”等確定性描述時,更容易喚起AI概覽。再結合6月下旬,他們發(fā)現(xiàn)谷歌方面對搜索算法進行了一項調(diào)整,旨在降低Reddit內(nèi)容在AI搜索結果中的權重。如此一來,對于AI概覽翻車,谷歌的做法似乎是“頭痛醫(yī)頭,腳痛醫(yī)腳”。
那么問題來了,為什么對于AI概覽這一展示自己AI搜索技術實力的功能,谷歌會選擇“擺爛”,或者說Perplexity怎么就沒出這樣的大問題呢?最直接的解釋,可能就是谷歌在數(shù)據(jù)清洗上出現(xiàn)了紕漏,他們的數(shù)據(jù)標注人員或者AI未能成功地從Reddit的內(nèi)容數(shù)據(jù)里分辨出類似“在披薩上涂膠水”這樣的無價值內(nèi)容。
其實谷歌方面在數(shù)據(jù)清洗上翻車的可能性并不低,因為過去一年多的時間里,OpenAI已經(jīng)從谷歌手中奪走了AI賽道領頭羊的地位。
為了追趕OpenAI的GPT-4,谷歌的Gemini Pro去年就已經(jīng)曝出了在訓練數(shù)據(jù)上直接使用百度文心一言輸出結果的丑聞。當然了,概率更大的真相或許是不僅僅高質量的中文語料缺乏,高質量的英文語料同樣也出現(xiàn)了供給不足。
Common Crawl數(shù)據(jù)集、The Pile語料庫已經(jīng)哺育了GPT-4 、Gemini等,一眾海外知名或不知名的大模型。對于數(shù)據(jù)的渴求,甚至讓OpenAI搞出了要求《紐約時報》證明作品原創(chuàng)性的荒誕戲碼。為什么谷歌的AI概覽會直接使用Reddit的數(shù)據(jù),不正是因為開源數(shù)據(jù)庫被薅禿了、閉源數(shù)據(jù)庫卻又待價而沽。
要知道谷歌搜索作為全球用戶量最多的搜索引擎,平均每秒需要處理超過63000次查詢,也就是說每天會有56億的搜索行為發(fā)生。可反觀Perplexity,由于使用人群相對有限,即使有翻車的現(xiàn)象也不過是孤立不證,而放在谷歌身上則是海量的個例。同樣一件事,大公司與初創(chuàng)企業(yè)的地位差異,顯然就決定了前者不得不選擇保守。