文|產(chǎn)業(yè)家 思杭
編輯|皮爺
每逢淘金熱,最后的贏家都是賣鏟人,而非淘金者。
這是著名的鏟子理論。在今年大模型的風(fēng)口下,向量數(shù)據(jù)庫就成了這把鏟子。
在此之前,向量數(shù)據(jù)庫經(jīng)歷了幾年的沉寂期,現(xiàn)在似乎終于成為資本的“寵兒”。這個(gè)曾經(jīng)冷卻的賽道如今在半年間就收獲了10億元融資,然而,資本“無節(jié)制”的追捧對(duì)于向量數(shù)據(jù)庫賽道究竟是獎(jiǎng)勵(lì),還是懲罰?是終于等到機(jī)會(huì)可以放手一搏?還是前路漫漫,遙遙無期?
判斷一條賽道是否真的有潛力,資本的注入雖是前提,但更重要的還有市場的態(tài)度。大模型應(yīng)用的逐步落地于向量數(shù)據(jù)庫而言,無疑是最好的催熟劑。
然而任何新技術(shù)的到來,都需要更長的時(shí)間才能得到市場的接受。
對(duì)此,產(chǎn)業(yè)家通過了解多家目前已發(fā)布向量數(shù)據(jù)庫的廠商,從他們口中可以窺見出目前的市場態(tài)度。
于星環(huán)科技而言,從5月份正式發(fā)布向量數(shù)據(jù)庫產(chǎn)品至今,已走過近半年的時(shí)間。在他們的觀察中發(fā)現(xiàn),客戶對(duì)大語言模型等深度學(xué)習(xí)應(yīng)用非常感興趣。然而,客戶目前仍處于學(xué)習(xí)和選型的階段。在將新技術(shù)引入實(shí)際業(yè)務(wù)之前,客戶也需要時(shí)間來適應(yīng)和了解這些新概念。
另外,在近期,騰訊云也更是宣布了向量數(shù)據(jù)庫的產(chǎn)品升級(jí)。在發(fā)布會(huì)當(dāng)天,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云對(duì)媒體表示,向量數(shù)據(jù)庫產(chǎn)品目前的對(duì)外客戶數(shù)已過千家。
據(jù)了解,目前騰訊云在向量數(shù)據(jù)庫的發(fā)力點(diǎn)是從已有客戶開始拓展,如今客戶也正處于擁抱和適應(yīng)新技術(shù)的階段。
一份關(guān)于向量數(shù)據(jù)庫更真實(shí)的市場調(diào)查是,隨著AI應(yīng)用場景加速落地,據(jù)西南證券分析,預(yù)計(jì)2025年向量數(shù)據(jù)庫滲透率約為30%,其中,中國向量數(shù)據(jù)庫市場規(guī)模約為82.56億元。而據(jù)中國信通院測算,到2025年,中國數(shù)據(jù)庫市場規(guī)模將達(dá)688億元。這意味著,兩年后向量數(shù)據(jù)庫在中國的滲透率將超過10%。
在國內(nèi),不少數(shù)據(jù)庫廠商都在嘗試推出向量數(shù)據(jù)庫產(chǎn)品,然而從市場驗(yàn)證階段走向?qū)崿F(xiàn)盈利,中間還需要一段更漫長的時(shí)間。
在此過程中,不乏有質(zhì)疑聲出現(xiàn)。比如前段時(shí)間,流數(shù)據(jù)庫公司 RisingWave創(chuàng)始人&CEO吳英駿公開發(fā)文“為什么你不應(yīng)該押注向量數(shù)據(jù)庫?”。在文中,吳英駿表示,盡管他對(duì)向量數(shù)據(jù)庫的前景頗有信心,但目前并不鼓勵(lì)進(jìn)入向量數(shù)據(jù)庫市場。
向量數(shù)據(jù)庫究竟是虛火過旺還是星辰大海?在向量數(shù)據(jù)庫這條賽道,能否看到更遠(yuǎn)的未來?在這一命題下,筆者試圖從向量數(shù)據(jù)庫的市場應(yīng)用和演進(jìn)歷程,來揭開這一神秘的面紗。
一、“單打獨(dú)斗” VS ”團(tuán)隊(duì)協(xié)作“?
大模型解決的是計(jì)算問題,而向量數(shù)據(jù)庫則解決存儲(chǔ)問題。
這是從2023年初向量數(shù)據(jù)庫崛起開始,至今為止行業(yè)內(nèi)公認(rèn)的看法。
“絕大多數(shù)人工智能研發(fā)的項(xiàng)目從未投入生產(chǎn),這其中的關(guān)鍵原因是缺乏正確的工具。而大語言模型與非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合,可以為AI應(yīng)用相關(guān)的創(chuàng)業(yè)者打開新世界?!?/p>
在最吸金的海外向量數(shù)據(jù)庫創(chuàng)業(yè)公司中,Qdrant正是其中一家。其CEO兼聯(lián)合創(chuàng)始人Andre Zayarni對(duì)于當(dāng)前向量數(shù)據(jù)庫與大語言模型的結(jié)合,發(fā)表了上述觀點(diǎn)。
一個(gè)更恰當(dāng)?shù)谋扔魇?,向量?shù)據(jù)庫充當(dāng)了連接非結(jié)構(gòu)化數(shù)據(jù)與AI應(yīng)用的橋梁作用。也可以說,向量數(shù)據(jù)庫是專為AI量身定制的。
實(shí)際上,在Gartner的調(diào)查報(bào)告中曾表示過當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)的增長速度?,F(xiàn)在90%的新數(shù)據(jù)都屬于非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)的增速更是結(jié)構(gòu)化數(shù)據(jù)增速的三倍以上。
然而,非結(jié)構(gòu)化數(shù)據(jù)需求的激增,是否真的能帶來向量數(shù)據(jù)庫需求的增長?兩者也許未必能劃上等號(hào)。
在向量數(shù)據(jù)庫賽道中,一個(gè)更大的爭議點(diǎn)是,是否真的有必要單獨(dú)設(shè)計(jì)一款向量數(shù)據(jù)庫的產(chǎn)品,還是僅僅將向量化搜索能力嵌入到傳統(tǒng)數(shù)據(jù)庫當(dāng)中即可。
回答這一問題前,理解究竟什么是向量數(shù)據(jù)庫,以及向量數(shù)據(jù)庫的具體應(yīng)用則十分必要。
首先,向量數(shù)據(jù)庫的“向量”也可以理解為一種“標(biāo)簽”或某種”屬性“。在AI應(yīng)用中,這些標(biāo)簽可以準(zhǔn)確地幫助AI找到問題的答案,從而通過提取標(biāo)簽來提取數(shù)據(jù)。
一個(gè)生動(dòng)的比喻是,向量就像一張地圖,任何對(duì)象都可以根據(jù)時(shí)間序列信息在列表和表格中找到答案。
對(duì)此,星環(huán)科技基礎(chǔ)架構(gòu)部副總經(jīng)理劉熙給出了更具體的詮釋。與傳統(tǒng)的數(shù)據(jù)庫不同,向量數(shù)據(jù)庫處理的是非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、長文本和音頻等。這些數(shù)據(jù)的意義不在于其物理表示,并不僅僅是一堆字節(jié),真正有意義的地方在于隱藏的語義。
而向量數(shù)據(jù)庫在其中發(fā)揮的作用是,通過AI技術(shù),例如典型的神經(jīng)網(wǎng)絡(luò),來識(shí)別、提取和編碼非結(jié)構(gòu)化數(shù)據(jù)背后的語義特征。最終,將這種數(shù)據(jù)的語義映射或嵌入到高維的向量空間中。
這樣做的好處是,將數(shù)據(jù)庫無法直接處理的語義問題,轉(zhuǎn)化為向量空間中的一個(gè)搜索問題。簡而言之,利用AI技術(shù),將數(shù)據(jù)庫無法直接處理的數(shù)據(jù)背后的語義,轉(zhuǎn)化為一個(gè)結(jié)構(gòu)化的過程。
放在更具體的場景里,比如大語言模型要如何與向量數(shù)據(jù)庫建立連接?
對(duì)此,百度智能云大數(shù)據(jù)技術(shù)負(fù)責(zé)人李蒞之前曾表示,從多個(gè)方面來看,向量數(shù)據(jù)庫都是大模型的必要設(shè)施。首先,大模型自身能夠存儲(chǔ)的數(shù)據(jù)是有限的,而大量的知識(shí)數(shù)據(jù)需要被存儲(chǔ)起來,以供大模型在問答時(shí)使用。
所以向量數(shù)據(jù)庫在其中的作用是,它可以讓大模型回答出更實(shí)時(shí)的內(nèi)容。倘若讓大模型根據(jù)最新的消息做回答,這時(shí)候就需要通過一些外置的數(shù)據(jù)庫,將這些外置數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)直接輸給它,這樣大模型就可以結(jié)合這些數(shù)據(jù)去做更準(zhǔn)確的回答。
而在大模型與向量數(shù)據(jù)庫結(jié)合的應(yīng)用方面,星環(huán)科技提供了一個(gè)真實(shí)案例。在其開發(fā)的金融大模型中,向量數(shù)據(jù)庫就派上了用場。
劉熙告訴產(chǎn)業(yè)家,在金融大模型的開發(fā)場景中,從財(cái)經(jīng)新聞中通過實(shí)體識(shí)別算法可以提取企業(yè)法人等信息。這些信息并不僅僅是向量,它們更像是一些屬性標(biāo)簽。類似地,在以前的電商場景中,對(duì)于商品圖片,除了特征向量外,還可能提取價(jià)格、顏色等結(jié)構(gòu)化標(biāo)簽。
所以,關(guān)于單獨(dú)設(shè)計(jì)向量數(shù)據(jù)庫產(chǎn)品,還是將向量化搜索能力嵌入到傳統(tǒng)數(shù)據(jù)庫中?這是一個(gè)”單打獨(dú)斗“和”團(tuán)隊(duì)協(xié)作“的話題。
在劉熙看來,基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫封裝向量計(jì)算功能,和專業(yè)的向量數(shù)據(jù)庫,是兩條的技術(shù)路線?!叭绻皇切?shù)據(jù)量、訪問并發(fā)延遲這類要求也不 的情況下,從原有數(shù)據(jù)庫 封裝向量計(jì)算的方法可能是可行的;但如果數(shù)據(jù)規(guī)模、訪問并發(fā)等指標(biāo)達(dá)到一定級(jí)別,出于性能、擴(kuò)展性、資源彈性方面的原因,這時(shí)則需要專業(yè)的向量數(shù)據(jù)庫。”
同樣地,羅云也認(rèn)為這兩者并不互斥。但至于單獨(dú)設(shè)計(jì)向量數(shù)據(jù)庫產(chǎn)品,也是一種必然。
具體來看,向量在未來是一種通用人工智能背后的數(shù)據(jù)格式。也就是說,向量需要橋接關(guān)鍵數(shù)據(jù)庫、非關(guān)鍵數(shù)據(jù)庫等所有結(jié)構(gòu)的數(shù)據(jù)。但將不同結(jié)構(gòu)的數(shù)據(jù)放在一個(gè)數(shù)據(jù)管理平臺(tái)上,最后的結(jié)果是,不同數(shù)據(jù)格式的差異會(huì)導(dǎo)致沒有辦法更好地利用非結(jié)構(gòu)化數(shù)據(jù)。
因此,在這種模式下,將向量化搜索能力插件到傳統(tǒng)數(shù)據(jù)庫中是很難的。比如在一個(gè)分布式數(shù)據(jù)庫里去支持向量化插件,讓它來處理騰訊云存儲(chǔ)的數(shù)據(jù),那么它最后也會(huì)變成一個(gè)獨(dú)立的向量數(shù)據(jù)庫。
但如果數(shù)據(jù)庫的場景只是在MYSQL里檢索部分的向量,那么將向量化搜索能力嵌入傳統(tǒng)數(shù)據(jù)庫,這樣的解決方案也成立。
對(duì)此,李蒞的看法是,大模型的核心需求就是向量檢索的能力。按邏輯來講,傳統(tǒng)數(shù)據(jù)庫加上向量引擎,這樣的解決方案能夠行得通。
但問題也在于,業(yè)務(wù)規(guī)模發(fā)展壯大后,這時(shí)就單獨(dú)的向量數(shù)據(jù)庫產(chǎn)品,來支持上億用戶訪問量的大模型應(yīng)用。其中,這里面還要各種架構(gòu)考量,比如存算分離等技術(shù),來保證大模型的規(guī)模化擴(kuò)展。
因此,綜合來看,得出的結(jié)論則是,短時(shí)期內(nèi),在大語言模型還未規(guī)?;褂脮r(shí),“團(tuán)隊(duì)協(xié)作”的方案還能夠解決一些問題。
但站在更長遠(yuǎn)的角度,向量數(shù)據(jù)庫這條賽道一定會(huì)在數(shù)據(jù)庫領(lǐng)域中占有一席之地。
二、向量數(shù)據(jù)庫的前世今生
從2017年到2019年,于向量數(shù)據(jù)庫的發(fā)展而言,是一段更為重要的時(shí)間。
如果說,2023年大模型的爆火,讓向量數(shù)據(jù)庫進(jìn)入到發(fā)展期,那么2017~2019年就是它的萌芽期。
根據(jù)產(chǎn)業(yè)家了解,騰訊云、星環(huán)科技、百度智能云、京東科技等也恰都是在這個(gè)時(shí)間段將向量數(shù)據(jù)庫的相關(guān)組件應(yīng)用到具體的業(yè)務(wù)之上。
這些都是目前市面上已發(fā)布向量數(shù)據(jù)庫產(chǎn)品的廠商。
實(shí)際上,2017~2019年這段時(shí)間所對(duì)應(yīng)的背景也正是,非結(jié)構(gòu)化數(shù)據(jù)需求的激增。
一個(gè)具有代表性的事件是,2017年,短視頻的爆火,催生了新媒體行業(yè),各種結(jié)構(gòu)數(shù)據(jù)也隨之出現(xiàn)。這一現(xiàn)象就導(dǎo)致了不同結(jié)構(gòu)數(shù)據(jù)的處理需求。
除此之外,京東、騰訊和百度的內(nèi)部產(chǎn)品也有更多類似的需求。而向量化引擎也正是從這一時(shí)間點(diǎn)開始萌芽。
2018年,星環(huán)科技內(nèi)部的AI團(tuán)隊(duì)有了向量數(shù)據(jù)庫這一需求。
然而,當(dāng)時(shí)向量數(shù)據(jù)庫的賽道還是一片沉寂,對(duì)于是否要專門研發(fā)處理向量數(shù)據(jù)的數(shù)據(jù)庫,星環(huán)科技內(nèi)部也在謹(jǐn)慎考慮。
當(dāng)時(shí)的場景是,星環(huán)科技AI團(tuán)隊(duì)提出向量數(shù)據(jù)管理對(duì)于其AI業(yè)務(wù)非常重要。雖然當(dāng)時(shí)有Faiss向量庫來處理這類數(shù)據(jù),但由于當(dāng)時(shí)Faiss的版本還處于比較早期的階段,AI團(tuán)隊(duì)需要自己編寫代碼來管理這些向量數(shù)據(jù),基本上每個(gè)項(xiàng)目都需要重復(fù)進(jìn)行這樣的工作,非常費(fèi)時(shí)費(fèi)力,而且可能無法保證高可用性和安全性。
因此,向量數(shù)據(jù)庫的需求也早在當(dāng)時(shí)就誕生了。和現(xiàn)在不同的是,當(dāng)時(shí)并看不到太大的市場,盡管在星環(huán)科技的眼中,這項(xiàng)技術(shù)有十足的潛力。
于是,他們內(nèi)部做出了一個(gè)決定。“即使向量數(shù)據(jù)庫可能不能立即商業(yè)化,但我們?nèi)匀徽J(rèn)為有必要為將來做這樣的技術(shù)儲(chǔ)備。”劉熙回憶道。
那時(shí)星環(huán)還專注于開發(fā)多模型統(tǒng)一處理技術(shù),逐步將一些數(shù)據(jù)庫的通用功能,如分布式存儲(chǔ)、分布式計(jì)算、安全性和資源管理等功能,從緊耦合的架構(gòu)轉(zhuǎn)化為松耦合的架構(gòu),目標(biāo)是通過統(tǒng)一的架構(gòu)來更好地支持各種數(shù)據(jù)庫,例如圖數(shù)據(jù)庫和時(shí)序數(shù)據(jù)庫。
同時(shí),內(nèi)部團(tuán)隊(duì)不需要太多考慮面向客戶的問題,需求相對(duì)明確,因此星環(huán)科技很快就完成了從0到1的第一個(gè)版本,并交付給AI團(tuán)隊(duì)。之后,隨著AI團(tuán)隊(duì)的深入使用,星環(huán)科技向量數(shù)據(jù)庫開始持續(xù)迭代,最終成為一個(gè)成熟產(chǎn)品走向市場。
類似的故事也發(fā)生在京東、騰訊云和百度智能云的內(nèi)部。
京東的故事則發(fā)生于2017年。當(dāng)時(shí),團(tuán)隊(duì)內(nèi)部正在著手處理一些以圖搜圖的應(yīng)用場景。為了解決京東的搜圖場景,團(tuán)隊(duì)構(gòu)建了一個(gè)十億規(guī)模的向量數(shù)據(jù)庫,主要的場景是針對(duì)京東每天上架大量商品時(shí),需要即時(shí)展示商品圖片。而實(shí)時(shí)性成為了當(dāng)時(shí)的重要問題。
而這正是京東向量數(shù)據(jù)庫vearch的誕生背景。
而相比之下,百度智能云的故事就顯得不太一樣。
2019年,百度智能云也將注意力轉(zhuǎn)移到了向量檢索技術(shù)的身上。他們計(jì)劃在Elastic Search公有云場景上去做一些向量的能力。
Elastic Search(ES)屬于NoSQL數(shù)據(jù)庫的一種。如果再細(xì)分,它是文檔型或搜索型數(shù)據(jù)庫。由于有各種搜索場景的需求,所以它會(huì)存向量的數(shù)據(jù)。而既然存了向量的數(shù)據(jù),ES又是一個(gè)搜索型的數(shù)據(jù)庫,自然也要搜索向量的數(shù)據(jù)。這也是百度智能云在此基礎(chǔ)上加向量檢索能力的背景。
具體來講,百度智能云在ES上做了兩點(diǎn)改造:一是支持向量數(shù)據(jù)列式存儲(chǔ)格式,二是基于社區(qū)開源的向量相似度引擎做了一些搜索加速的改進(jìn)。
四年后的今天,向量數(shù)據(jù)庫終于迎來自己了的光輝時(shí)刻。而在各種歡呼聲和質(zhì)疑聲下,向量數(shù)據(jù)庫也在逐漸完成蛻變。
三、向量數(shù)據(jù)庫,展望AGI時(shí)代
從某種程度上而言,無論是向量數(shù)據(jù)庫,還是大模型,歸根結(jié)底,大家在追捧它時(shí)的心態(tài),焦慮大于需求。而這種焦慮則來源于“害怕被落下”。
大模型、多模態(tài)、OpenAI的新應(yīng)用等等新技術(shù)、新應(yīng)用的出現(xiàn),正在迅速刷新著人們對(duì)AGI時(shí)代的期待,仿佛它下一刻就會(huì)到來。
而向量數(shù)據(jù)庫的熱潮,在一定程度上“外化”了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫的實(shí)際價(jià)值,甚至更長遠(yuǎn)的價(jià)值。
雖然,目前向量數(shù)據(jù)庫仍處于發(fā)展初期,但可以確定的是,向量數(shù)據(jù)庫與大模型一定是捆綁關(guān)系。因此,未來其演進(jìn)方向也一定隨著大模型能力的演進(jìn)而發(fā)生變化。
在羅云看來,“未來,向量數(shù)據(jù)庫解決的是整個(gè)智能世界的智能存儲(chǔ)和管理問題?!?/p>
而在具體的演進(jìn)方向上,向量數(shù)據(jù)庫一定會(huì)考慮多模態(tài)數(shù)據(jù)的表達(dá)以及數(shù)據(jù)的智能化管理。
首先,在大模型應(yīng)用百花齊放的背景下,向量數(shù)據(jù)庫對(duì)于多模態(tài)數(shù)據(jù)的處理意義,變得十分重要。
一個(gè)生活化的例子是,吃飯、看電影、聽音樂等等娛樂事項(xiàng),這些記錄了你的一天。接下來,你想通過自然語言將其全部調(diào)取出來。
那么如果沒有一個(gè)單獨(dú)的向量數(shù)據(jù)庫參與,以及沒有合理的多模態(tài)數(shù)據(jù)處理方式,這種情況下是無法查詢出這些數(shù)據(jù)的。而所謂的多模態(tài)也正是除了文字以外的照片、視頻、音頻等數(shù)據(jù)。
但隨著多模態(tài)數(shù)據(jù)規(guī)模上的提升,另一個(gè)問題也隨之出現(xiàn)。不同數(shù)據(jù)庫中數(shù)據(jù)如何將其統(tǒng)一管理并讓數(shù)據(jù)流通起來,這其中涉及到的智能化管理也是向量數(shù)據(jù)庫未來的發(fā)力點(diǎn)。
因此,未來的向量數(shù)據(jù)庫需要承載的是智能化數(shù)據(jù)平臺(tái)。
另外,在星環(huán)科技向量數(shù)據(jù)庫產(chǎn)品Hippo過去的研發(fā)過程中,劉熙對(duì)于擴(kuò)展性、成本、易用性和路徑優(yōu)化方面都提出了挑戰(zhàn)。
首先,在擴(kuò)展性和成本方面,大模型的普及讓向量數(shù)據(jù)的規(guī)模不斷增大。對(duì)于向量數(shù)據(jù)的存儲(chǔ)和索引,也提高了對(duì)硬件資源的要求,成本也自然隨之提升。
而在易用性方面則涉及到了多種參數(shù)的挑戰(zhàn)。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不同,向量搜索涉及到更多維度的考量,包括性能和召回率等。而為了平衡性能和召回率,需要調(diào)整各種參數(shù),但這對(duì)用戶來說并不友好。因此,簡化參數(shù)選擇,提高用戶體驗(yàn)是更加重要的挑戰(zhàn)。
最后則是混合搜索中的路徑優(yōu)化問題。與傳統(tǒng)的優(yōu)化器相比,向量搜索的優(yōu)化器更加復(fù)雜,因?yàn)樗枰紤]多維度的因素。如何設(shè)計(jì)一個(gè)能夠描述向量搜索代價(jià)的模型,以實(shí)現(xiàn)性能和召回率的平衡,是一個(gè)需要解決的難題。
不可否認(rèn)的是,向量數(shù)據(jù)庫的未來有星辰大海,也有曲折的前路。
背靠大模型,向量數(shù)據(jù)庫在2023年成為了資本的“寵兒”。然而,在未來的AGI時(shí)代,向量數(shù)據(jù)庫還有更多實(shí)事要干。