正在閱讀:

谷歌搜索下線快照,互聯(lián)網似乎真的要沒有記憶了

掃一掃下載界面新聞APP

谷歌搜索下線快照,互聯(lián)網似乎真的要沒有記憶了

在沒有了快照后,注定就會有一大批網頁因為缺乏維護或內容更新,而遺失在互聯(lián)網龐大的信息海洋里。

文|三易生活

刻在石頭上的碑文會風化、寫在紙上的文字會腐朽,數千年以來,如何保存知識始終是人類文明的一大關鍵課題。直到互聯(lián)網的出現,它成為了一個被認為保存信息的絕妙載體,“互聯(lián)網是有記憶的”這句話在多年以前更是被奉為圭臬。然而時過境遷,“互聯(lián)網沒有記憶”已然成為大家公認的事實,如今谷歌的新動作,則又加深了這一刻板印象。

近期,谷歌搜索公共聯(lián)絡人Danny Sullivan確認,谷歌方面將刪除所有搜索結果中的網頁快照/緩存鏈接,未來用戶將無法在搜索結果里點擊緩存來查看網頁被谷歌爬蟲索引時生成的網頁快照。并且Danny Sullivan還透露,緩存操作符“cache:”預計也將會被移除。為此谷歌給出的解決方案,是在搜索結果中添加互聯(lián)網檔案館(The Internet Archive)的鏈接,以取代“關于本結果”部分的谷歌緩存鏈接。

但作為一家非營利性組織,如今互聯(lián)網檔案館的日子也不太好過,它在去年就先后面臨美國圖書出版商、唱片公司總計3.72億美元的天價索賠。更何況作為全球最受歡迎的搜索引擎,谷歌搜索的用戶規(guī)模極為龐大。按照去年谷歌方面在數字服務法(DSA)要求下向歐盟報告的數據顯示,谷歌搜索僅僅在歐盟地區(qū)的月活就高達3.32億。所以顯而易見,互聯(lián)網檔案館的服務器不太可能及時緩存來自谷歌搜索抓取的網頁。

如此一來,繼國內市場的百度、搜狗、360之后,谷歌搜索也實質上放棄了快照功能。關于為什么會突然不再提供搜索結果中的網頁快照、緩存,谷歌的說法是其最初提供緩存鏈接選項主要為了幫助用戶可靠地訪問網頁,比如面對網頁無法加載時,現在隨著網絡技術的發(fā)展,許多網站已經可以提供很好的可靠性,所以為了防止網頁打不開而進行的緩存,已經沒有必要。

網頁緩存或者說快照,其實可以理解為是一份網頁的副本,早期由于技術條件的限制,有相當多的網站存在訪問不穩(wěn)定的問題,以至于會出現用戶通過搜索引擎的結果訪問時,發(fā)現網站無法打開,這時候快照的作用就出現了,它就好比給網頁拍了一張照片,讓用戶能夠從快照中找出網頁上的有用信息。

同時,網頁通常并不是一成不變的,而是不斷增加、刪除、改動,為了保證用戶使用搜索引擎時總能找到需求的信息,搜索引擎的數據庫定時更新抓取的網頁,就意味著當某個網站刪除一個網頁后,數據庫里的網頁快照并不會立刻被刪除,而是要到下一次更新時才會同步。此外網頁快照還可以避免由于內容太多,想要完整大量儲存網頁內容時帶寬不夠的問題,抓取快照可以以最少的帶寬就將其保存下來。

早期網絡基礎建設不建全、網速慢是常態(tài),再加上網站建設水平良莠不齊,技術不規(guī)范、不成熟等問題,先不說網站本身的體驗如何,很多網站可能單單是打開頁面都費勁,于是搜索引擎為了保障用戶體驗,就搞出了快照這個功能。但隨著時間的推移,特別是云服務相關技術的跨越式發(fā)展,網站訪問不穩(wěn)定的現象幾乎已經成為了傳說,網頁無法打開的情況也愈發(fā)罕見,就使得快照功能存在的意義就沒有了。

要知道,互聯(lián)網上有數以百億計的網頁,為了保存快照信息,即使百度、谷歌將搜索引擎收錄的網頁以純文本的形式備份,其他資源,如樣式表和圖片等內容不會被緩存。在聚沙成塔的情況下,過去二十余年間積累的快照對于服務器顯然已經成為了一個不小的負擔。畢竟快照的存儲必然會產生服務器資源的占用,清空快照頁面就可以將釋放出來的空間挪至其它用途,從而達到“降本”的作用。

在如今全球互聯(lián)網廠商都采取“降本增效”的背景下,砍掉不影響核心體驗的功能已經是大趨勢。再加上AI搜索已然成為了趨勢,當用戶看到的是AI對于用戶需求信息的總結,被索引的網頁主要起到類似“文獻”的作用,以佐證AI總結內容的可靠性時,當用戶在使用搜索引擎時不再需要打開網頁,保存網頁快照又有何用呢?

除了以上兩點外,快照功能最近幾年也逐漸被SEO從業(yè)者濫用。比如可以通過投訴快照來做排名,通過快照做收錄等,SEO從業(yè)者利用模擬點擊來繞開算法,借助快照功能將隨意采集拼湊的垃圾站點快速排到首頁。于是乎,搜索結果頁的內容質量每況愈下,就逼得搜索引擎不得不將其權重降低。

甚至有些黑灰產團隊,還會使用SEO快照劫持來影響搜索引擎的正常排名。通過網站存在的漏洞或其它違規(guī)方式獲取網站后臺權限,再通過注入惡意代碼從而實現快照替換的目的。通常來說,黑灰產會給目標網頁掛上一段加密的JavaScript代碼,該代碼的功能則是判斷訪問網頁的是不是搜索引擎的爬蟲,如果是爬蟲程序則不做任何操作,讓搜索引擎正常抓??;如果判斷是用戶,則會執(zhí)行JS跳轉代碼,將網站的正常頁面替換為惡意網頁。

所以當一個功能用戶不再經常使用、且需要消耗大量服務器資源,同時還可能會被黑灰產利用時,百度、谷歌等搜索引擎將其關閉就再正常不過了。只可惜在沒有了快照后,注定就會有一大批網頁因為缺乏維護或內容更新,而遺失在互聯(lián)網龐大的信息海洋里。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

谷歌

5.9k
  • 高通與谷歌達成多年戰(zhàn)略合作,將提供生成式AI數字座艙解決方案
  • 霍尼韋爾與谷歌達成協(xié)議,將Gemini引入工業(yè)領域

百度

5.8k
  • 李彥宏堅稱不做視頻生成模型,中國版Sora到底值不值得做?
  • 百度智能云海東數據標注基地正式啟動

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

谷歌搜索下線快照,互聯(lián)網似乎真的要沒有記憶了

在沒有了快照后,注定就會有一大批網頁因為缺乏維護或內容更新,而遺失在互聯(lián)網龐大的信息海洋里。

文|三易生活

刻在石頭上的碑文會風化、寫在紙上的文字會腐朽,數千年以來,如何保存知識始終是人類文明的一大關鍵課題。直到互聯(lián)網的出現,它成為了一個被認為保存信息的絕妙載體,“互聯(lián)網是有記憶的”這句話在多年以前更是被奉為圭臬。然而時過境遷,“互聯(lián)網沒有記憶”已然成為大家公認的事實,如今谷歌的新動作,則又加深了這一刻板印象。

近期,谷歌搜索公共聯(lián)絡人Danny Sullivan確認,谷歌方面將刪除所有搜索結果中的網頁快照/緩存鏈接,未來用戶將無法在搜索結果里點擊緩存來查看網頁被谷歌爬蟲索引時生成的網頁快照。并且Danny Sullivan還透露,緩存操作符“cache:”預計也將會被移除。為此谷歌給出的解決方案,是在搜索結果中添加互聯(lián)網檔案館(The Internet Archive)的鏈接,以取代“關于本結果”部分的谷歌緩存鏈接。

但作為一家非營利性組織,如今互聯(lián)網檔案館的日子也不太好過,它在去年就先后面臨美國圖書出版商、唱片公司總計3.72億美元的天價索賠。更何況作為全球最受歡迎的搜索引擎,谷歌搜索的用戶規(guī)模極為龐大。按照去年谷歌方面在數字服務法(DSA)要求下向歐盟報告的數據顯示,谷歌搜索僅僅在歐盟地區(qū)的月活就高達3.32億。所以顯而易見,互聯(lián)網檔案館的服務器不太可能及時緩存來自谷歌搜索抓取的網頁。

如此一來,繼國內市場的百度、搜狗、360之后,谷歌搜索也實質上放棄了快照功能。關于為什么會突然不再提供搜索結果中的網頁快照、緩存,谷歌的說法是其最初提供緩存鏈接選項主要為了幫助用戶可靠地訪問網頁,比如面對網頁無法加載時,現在隨著網絡技術的發(fā)展,許多網站已經可以提供很好的可靠性,所以為了防止網頁打不開而進行的緩存,已經沒有必要。

網頁緩存或者說快照,其實可以理解為是一份網頁的副本,早期由于技術條件的限制,有相當多的網站存在訪問不穩(wěn)定的問題,以至于會出現用戶通過搜索引擎的結果訪問時,發(fā)現網站無法打開,這時候快照的作用就出現了,它就好比給網頁拍了一張照片,讓用戶能夠從快照中找出網頁上的有用信息。

同時,網頁通常并不是一成不變的,而是不斷增加、刪除、改動,為了保證用戶使用搜索引擎時總能找到需求的信息,搜索引擎的數據庫定時更新抓取的網頁,就意味著當某個網站刪除一個網頁后,數據庫里的網頁快照并不會立刻被刪除,而是要到下一次更新時才會同步。此外網頁快照還可以避免由于內容太多,想要完整大量儲存網頁內容時帶寬不夠的問題,抓取快照可以以最少的帶寬就將其保存下來。

早期網絡基礎建設不建全、網速慢是常態(tài),再加上網站建設水平良莠不齊,技術不規(guī)范、不成熟等問題,先不說網站本身的體驗如何,很多網站可能單單是打開頁面都費勁,于是搜索引擎為了保障用戶體驗,就搞出了快照這個功能。但隨著時間的推移,特別是云服務相關技術的跨越式發(fā)展,網站訪問不穩(wěn)定的現象幾乎已經成為了傳說,網頁無法打開的情況也愈發(fā)罕見,就使得快照功能存在的意義就沒有了。

要知道,互聯(lián)網上有數以百億計的網頁,為了保存快照信息,即使百度、谷歌將搜索引擎收錄的網頁以純文本的形式備份,其他資源,如樣式表和圖片等內容不會被緩存。在聚沙成塔的情況下,過去二十余年間積累的快照對于服務器顯然已經成為了一個不小的負擔。畢竟快照的存儲必然會產生服務器資源的占用,清空快照頁面就可以將釋放出來的空間挪至其它用途,從而達到“降本”的作用。

在如今全球互聯(lián)網廠商都采取“降本增效”的背景下,砍掉不影響核心體驗的功能已經是大趨勢。再加上AI搜索已然成為了趨勢,當用戶看到的是AI對于用戶需求信息的總結,被索引的網頁主要起到類似“文獻”的作用,以佐證AI總結內容的可靠性時,當用戶在使用搜索引擎時不再需要打開網頁,保存網頁快照又有何用呢?

除了以上兩點外,快照功能最近幾年也逐漸被SEO從業(yè)者濫用。比如可以通過投訴快照來做排名,通過快照做收錄等,SEO從業(yè)者利用模擬點擊來繞開算法,借助快照功能將隨意采集拼湊的垃圾站點快速排到首頁。于是乎,搜索結果頁的內容質量每況愈下,就逼得搜索引擎不得不將其權重降低。

甚至有些黑灰產團隊,還會使用SEO快照劫持來影響搜索引擎的正常排名。通過網站存在的漏洞或其它違規(guī)方式獲取網站后臺權限,再通過注入惡意代碼從而實現快照替換的目的。通常來說,黑灰產會給目標網頁掛上一段加密的JavaScript代碼,該代碼的功能則是判斷訪問網頁的是不是搜索引擎的爬蟲,如果是爬蟲程序則不做任何操作,讓搜索引擎正常抓??;如果判斷是用戶,則會執(zhí)行JS跳轉代碼,將網站的正常頁面替換為惡意網頁。

所以當一個功能用戶不再經常使用、且需要消耗大量服務器資源,同時還可能會被黑灰產利用時,百度、谷歌等搜索引擎將其關閉就再正常不過了。只可惜在沒有了快照后,注定就會有一大批網頁因為缺乏維護或內容更新,而遺失在互聯(lián)網龐大的信息海洋里。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。