文|產(chǎn)業(yè)家 三七
編輯|皮爺
“錯(cuò)進(jìn),錯(cuò)出?!边@是美國(guó)稅務(wù)局在1963年對(duì)數(shù)據(jù)質(zhì)量提出的解釋,以此來試圖表達(dá)數(shù)據(jù)對(duì)于計(jì)算機(jī)處理結(jié)果質(zhì)量的重要性。
這一觀點(diǎn)的源頭來自“計(jì)算機(jī)之父”查爾斯·巴貝奇。
在巴貝奇的隨筆文集上記錄過這樣一件事,他曾因有人認(rèn)為輸入錯(cuò)誤數(shù)據(jù)下的計(jì)算機(jī)仍然給出正確答案而感到驚愕。而他發(fā)現(xiàn),數(shù)據(jù)繁瑣數(shù)量多,即使經(jīng)過多道人工審核仍存在很多錯(cuò)誤。上世紀(jì)八十年代,巴貝奇研制出無需任何人力計(jì)算便可以自主完成三組十萬以內(nèi)加法的“差分機(jī)”,用來解決輸入數(shù)據(jù)錯(cuò)誤的問題。
資料顯示,如今,我國(guó)數(shù)據(jù)產(chǎn)量占全球數(shù)據(jù)23%左右,在全球數(shù)據(jù)量中占比頗大。由于數(shù)據(jù)能夠?qū)τ?jì)算結(jié)果產(chǎn)生直接影響,一直以來被當(dāng)作極為重要的環(huán)節(jié)。因此,在互聯(lián)網(wǎng)及云計(jì)算發(fā)展下,數(shù)據(jù)處理、數(shù)據(jù)復(fù)用等問題又一次被推上風(fēng)口。
而商業(yè)智能也在幫助企業(yè)現(xiàn)有數(shù)據(jù)進(jìn)行整合的基礎(chǔ)上,承擔(dān)下可視化這一環(huán)節(jié),輔助企業(yè)進(jìn)行業(yè)務(wù)經(jīng)營(yíng)決策。這也隨機(jī)帶來問題:
我國(guó)商業(yè)智能如今發(fā)展現(xiàn)狀如何?
當(dāng)下市場(chǎng),在數(shù)據(jù)處理及復(fù)用上實(shí)際難點(diǎn)有哪些,如何解決?
數(shù)據(jù)處理概念越來越寬泛,在云大物智賦能下,產(chǎn)業(yè)數(shù)據(jù)治理未來發(fā)展趨勢(shì)是怎樣的?
一、商業(yè)智能等于BI嗎?
可以說,數(shù)據(jù)價(jià)值最大化體現(xiàn)在商業(yè)。
以往,我國(guó)商業(yè)數(shù)據(jù)市場(chǎng)從早期數(shù)字化改造向互聯(lián)網(wǎng)爆發(fā)后的基礎(chǔ)軟件普及邁進(jìn)。2013-2015年間,報(bào)表式可視化功能涌現(xiàn),成為商業(yè)數(shù)據(jù)智能的前身。在歷經(jīng)兩年高速成長(zhǎng),目前市面上被廣泛獲知的狹義“商業(yè)數(shù)據(jù)智能”或可視化應(yīng)用逐漸邁入成熟階段。
在人工智能技術(shù)的不斷演進(jìn)下,AI得以與許多工具、技術(shù)結(jié)合。而數(shù)據(jù)可視化實(shí)用性最強(qiáng)的是BI(商業(yè)智能),在人工智能技術(shù)的加持下,商業(yè)智能對(duì)傳統(tǒng)數(shù)據(jù)分析進(jìn)行持續(xù)化、信息化建設(shè),形成1+1>2的表象。
據(jù)艾瑞咨詢估算,2019年至2025年中國(guó)人工智能核心產(chǎn)業(yè)及帶動(dòng)產(chǎn)業(yè)規(guī)模都將保持高速增長(zhǎng)態(tài)勢(shì),復(fù)合增速均超過20%。
數(shù)字經(jīng)濟(jì)的蓬勃發(fā)展帶來商業(yè)數(shù)據(jù)智能再次增速。
從整體來看,商業(yè)數(shù)據(jù)智能工具可以分為三個(gè)階段,即數(shù)據(jù)化、全局可視化及分析智能化。
具體來看,在第一階段數(shù)據(jù)化轉(zhuǎn)化期間,尚未進(jìn)行數(shù)字化轉(zhuǎn)型的企業(yè)將數(shù)據(jù)進(jìn)行電子化處理,通過CRM、ERP等基礎(chǔ)軟件為企業(yè)提供出部分賦能。
當(dāng)全局可視化階段時(shí),企業(yè)已經(jīng)擁有數(shù)據(jù)庫或本地?cái)?shù)據(jù)文件作為基礎(chǔ)。這時(shí)要做的是將數(shù)據(jù)進(jìn)行提煉整理,形成數(shù)據(jù)報(bào)表。可視化工具能夠?yàn)槠髽I(yè)提供數(shù)據(jù)分析及報(bào)表產(chǎn)出效率,增加數(shù)據(jù)實(shí)用性及數(shù)據(jù)價(jià)值。
實(shí)現(xiàn)數(shù)據(jù)可視化后,企業(yè)便可以利用AI開發(fā)框架進(jìn)行模型訓(xùn)練,進(jìn)行數(shù)據(jù)挖掘,通過數(shù)據(jù)分析培養(yǎng)自身IT能力,最終體現(xiàn)在上層的BI產(chǎn)品上。
簡(jiǎn)單來說,這個(gè)過程就好比一家餐飲店利用數(shù)字化終端設(shè)備將消費(fèi)者的消費(fèi)時(shí)間、喜好、產(chǎn)品一一收集。繼而對(duì)這些數(shù)據(jù)進(jìn)行整理,將有用的數(shù)據(jù)以通俗易懂的方式呈現(xiàn)出來。通過這些的數(shù)據(jù)可以清晰地了解消費(fèi)者的年齡層次、哪款產(chǎn)品喜愛度最高。而通過這些數(shù)據(jù)反饋出來的信息,不斷優(yōu)化菜品、升級(jí)營(yíng)銷方式,從而幫助企業(yè)實(shí)現(xiàn)更高的增長(zhǎng)。
目前,由于我國(guó)企業(yè)中小型占比較多,數(shù)字化轉(zhuǎn)型程度弱,大部分企業(yè)集中在數(shù)據(jù)化轉(zhuǎn)化及可視化賦能區(qū)間。
所以總體來看,我國(guó)距離數(shù)字化成熟尚有一段距離,而商業(yè)數(shù)據(jù)智能往往需要建設(shè)在統(tǒng)計(jì)格式及企業(yè)數(shù)據(jù)技術(shù)上,因此,前期的數(shù)字化轉(zhuǎn)化環(huán)節(jié)就顯得尤為關(guān)鍵。
此外,數(shù)據(jù)不夠“干凈”,數(shù)據(jù)存量小,數(shù)據(jù)平臺(tái)性能不足,處理效率低也是企業(yè)在數(shù)據(jù)處理時(shí)遇到的糟心事。在進(jìn)行數(shù)據(jù)分析、挖掘及機(jī)器學(xué)習(xí)或可視化前,數(shù)據(jù)清洗、數(shù)據(jù)儲(chǔ)存也直接決定后續(xù)結(jié)果呈現(xiàn)。
二、數(shù)據(jù)處理的命門
“中國(guó)沒有真正的醫(yī)療大數(shù)據(jù)”“沒有數(shù)據(jù)可用”,一位行業(yè)專家在談臨床時(shí)抱怨。
然而,據(jù)IDC發(fā)布的《數(shù)字宇宙驅(qū)動(dòng)醫(yī)療行業(yè)數(shù)據(jù)增長(zhǎng)》報(bào)告顯示,醫(yī)療行業(yè)數(shù)據(jù)量每年以48%的速度增長(zhǎng),很多大型醫(yī)院的數(shù)據(jù)積累已達(dá)PB級(jí)。
一邊是一線從業(yè)人員的無奈,一邊是爆發(fā)的醫(yī)療大數(shù)據(jù),兩者之間似乎有著一條巨大的鴻溝。
事實(shí)上,并不是任何一堆數(shù)字都具備價(jià)值,一個(gè)前提是可視化,即讓這些被計(jì)算機(jī)收集的信息變得“通俗易懂”。
由于可視化所需數(shù)據(jù)基礎(chǔ)需要存儲(chǔ)等功能作為支撐。在可視化階段,需要以數(shù)據(jù)文件作為基礎(chǔ),經(jīng)過數(shù)據(jù)倒入、清理、建模、圖形構(gòu)建等環(huán)節(jié)對(duì)企業(yè)數(shù)據(jù)進(jìn)行提煉,從而呈現(xiàn)出完整報(bào)表。
然而,這并不是一件易事。
具體來看,這些收集的醫(yī)療大數(shù)據(jù),有文本數(shù)據(jù)、影像數(shù)據(jù)等。不同于可以直接存儲(chǔ)為數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)計(jì)算機(jī)難以執(zhí)行。
另外,由于醫(yī)院上線的信息系統(tǒng)缺乏統(tǒng)一的標(biāo)準(zhǔn)與接口,隨著技術(shù)變遷和系統(tǒng)迭代,同廠商的系統(tǒng)數(shù)據(jù)結(jié)構(gòu)不相同,不同廠商、不同時(shí)期的數(shù)據(jù)編碼也不盡相同,醫(yī)院存儲(chǔ)的歷史數(shù)據(jù)面臨解讀問題。
再有就是,很多大數(shù)據(jù)平臺(tái)只解決了有限數(shù)據(jù)匯集,比如,數(shù)據(jù)中心只采集到電子病歷系統(tǒng)的數(shù)據(jù),或是集成平臺(tái)的數(shù)據(jù),大量體檢數(shù)據(jù)、互聯(lián)網(wǎng)問診記錄、外院歷史病歷數(shù)據(jù)無法獲取。數(shù)據(jù)不全、量級(jí)也不夠大,并沒有建立起真正以患者為中心的全生命周期數(shù)據(jù)。
種種因素,讓數(shù)據(jù)的可視化陷入死胡同,繼而讓數(shù)據(jù)的價(jià)值無法體現(xiàn)。
毋庸置疑的是,“解鈴還須系鈴人”,想要體現(xiàn)數(shù)據(jù)真正的價(jià)值,首先要解決企業(yè)在數(shù)據(jù)處理能力上的匱乏。只有這樣,數(shù)據(jù)才能實(shí)現(xiàn)價(jià)值最大化。
正如亞馬遜CTO Werner Vogels所言:“數(shù)據(jù)越大,結(jié)果越好。為什么企業(yè)在商業(yè)上不斷犯錯(cuò)?那是因?yàn)闆]有足夠數(shù)據(jù)對(duì)運(yùn)營(yíng)決策提供支持。”
作為數(shù)據(jù)處理中典型的案例,亞馬遜從用戶購買行為、頁面停留時(shí)間、評(píng)論查看市場(chǎng)、瀏覽商品區(qū)間中對(duì)用戶購物習(xí)慣進(jìn)行分析處理,不斷挖掘出的數(shù)據(jù)價(jià)值早已超越其運(yùn)營(yíng)模式的收益。
在亞馬遜的眼中,自身所有業(yè)務(wù)環(huán)節(jié)都離不開“數(shù)據(jù)驅(qū)動(dòng)”,通過需求預(yù)測(cè)可以得知用戶未來需求。而這成功的嘗試也讓不少企業(yè)心之馳往。然而,能夠做到那一步可不是部署幾個(gè)軟件就能解決的。
《Information Visualization》一書中,Colin Ware提出了這樣一個(gè)問題:可視化是一門科學(xué)還是一種語言?結(jié)果顯而易見,它屬于科學(xué)范疇,讓數(shù)據(jù)跳出繁雜,精確性、系統(tǒng)性的顯示出來。
事實(shí)上,在很多新應(yīng)用中,數(shù)據(jù)可視化都被當(dāng)作幫助用戶便捷操作數(shù)據(jù)的橋梁,例如RPA等。從深度考慮,可視化可以稱作數(shù)字化進(jìn)程中的一個(gè)階段和能力,帶來數(shù)字化大趨勢(shì)下可持續(xù)發(fā)展的機(jī)會(huì)。
但實(shí)際上,數(shù)據(jù)僅作為橋梁和前端的呈現(xiàn)顯然已然不夠,其更應(yīng)該成為企業(yè)數(shù)字化轉(zhuǎn)型的核心決策支撐,在歸集數(shù)據(jù)的同時(shí),需要給予產(chǎn)業(yè)作出行業(yè)定制化的表達(dá)。
三、什么才是智能BI?
簡(jiǎn)單來說,數(shù)據(jù)治理就是把企業(yè)數(shù)據(jù)從雜亂、不可控轉(zhuǎn)化為可控、易用的過程。
而這種通過采集、傳輸、存儲(chǔ)的一系列標(biāo)準(zhǔn)化流程與企業(yè)效益有著直接關(guān)系。從艾瑞披露的數(shù)據(jù)來看,2020年商業(yè)數(shù)據(jù)智能市場(chǎng)結(jié)構(gòu)中垂直行業(yè)拓展應(yīng)用占比最高,達(dá)62.0%,對(duì)應(yīng)市場(chǎng)規(guī)模569億元,這一比例在未來5年將進(jìn)一步提升,對(duì)應(yīng)市場(chǎng)規(guī)模達(dá)2345億元。
市場(chǎng)趨生參與者也趨生行業(yè)發(fā)展不夠均衡的現(xiàn)狀。
目前,我國(guó)金融、零售行業(yè)數(shù)字化發(fā)展水平較快,已處在可視化發(fā)展向商業(yè)智能邁進(jìn)階段;而制造業(yè)、工業(yè)等方面進(jìn)展略有遲緩,呈現(xiàn)出供應(yīng)商分散、芯片、新能源等企業(yè)發(fā)展超前,傳統(tǒng)制造業(yè)仍處于人工居多的兩極化現(xiàn)象。
處在行業(yè)發(fā)展水平不均的時(shí)代背景下,如何把狹義數(shù)據(jù)處理的分析方式、信息提取轉(zhuǎn)變的更寬泛、有彈性?
答案是利用云大物智的協(xié)同能力。
在狹義的數(shù)據(jù)處理中,數(shù)據(jù)分析產(chǎn)出有價(jià)值的信息是主要目的,而廣義的數(shù)據(jù)處理可以在此基礎(chǔ)繼續(xù)深化,發(fā)現(xiàn)數(shù)據(jù)中的信息及運(yùn)作邏輯,給此后的業(yè)務(wù)決策提供理論基礎(chǔ)和結(jié)果導(dǎo)向。
而云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)及人工智能的出現(xiàn)在某種程度上構(gòu)建出新型網(wǎng)絡(luò)架構(gòu)。大數(shù)據(jù)及數(shù)據(jù)存儲(chǔ)平臺(tái)的基礎(chǔ)性,云計(jì)算的IT基礎(chǔ)設(shè)施的靈活調(diào)用能力,物聯(lián)網(wǎng)的數(shù)據(jù)交互網(wǎng)絡(luò)體系,人工智能的數(shù)據(jù)分析理論引導(dǎo),四項(xiàng)融合給數(shù)據(jù)治理帶來新的想象空間。
在處理低成熟度行業(yè)時(shí),多項(xiàng)技術(shù)引導(dǎo)的方式能夠在保障數(shù)據(jù)完整性前提下,解決數(shù)據(jù)質(zhì)量差、數(shù)據(jù)孤島、管理機(jī)制不足的缺陷。
盡管現(xiàn)階段很多企業(yè)嘗試以業(yè)務(wù)流控制數(shù)據(jù)流,但由于缺乏系統(tǒng)機(jī)制往往會(huì)面臨時(shí)間成本耗費(fèi)但未果的情況,這也從側(cè)面反映出部分行業(yè)在基礎(chǔ)數(shù)字化建設(shè)存在的發(fā)展空間,而建立于云大物智智商的商業(yè)數(shù)據(jù)智能應(yīng)用也會(huì)在這些成熟度較低的行業(yè)存在發(fā)展前景。
總體來看,對(duì)于新時(shí)代的BI而言,應(yīng)該擺脫固有的數(shù)據(jù)治理觀念,更多的在技術(shù)支撐下實(shí)現(xiàn)數(shù)據(jù)的歸類和產(chǎn)業(yè)表達(dá),從數(shù)據(jù)庫的底層開始最終到時(shí)BI上層的數(shù)據(jù)呈現(xiàn),構(gòu)建出一個(gè)完整的數(shù)據(jù)使用閉環(huán)。
恰如那句話所說,“我們現(xiàn)在需要的不僅是石油,更是如何使用好石油。”