文|產業(yè)家 三七
編輯|皮爺
“錯進,錯出?!边@是美國稅務局在1963年對數(shù)據(jù)質量提出的解釋,以此來試圖表達數(shù)據(jù)對于計算機處理結果質量的重要性。
這一觀點的源頭來自“計算機之父”查爾斯·巴貝奇。
在巴貝奇的隨筆文集上記錄過這樣一件事,他曾因有人認為輸入錯誤數(shù)據(jù)下的計算機仍然給出正確答案而感到驚愕。而他發(fā)現(xiàn),數(shù)據(jù)繁瑣數(shù)量多,即使經過多道人工審核仍存在很多錯誤。上世紀八十年代,巴貝奇研制出無需任何人力計算便可以自主完成三組十萬以內加法的“差分機”,用來解決輸入數(shù)據(jù)錯誤的問題。
資料顯示,如今,我國數(shù)據(jù)產量占全球數(shù)據(jù)23%左右,在全球數(shù)據(jù)量中占比頗大。由于數(shù)據(jù)能夠對計算結果產生直接影響,一直以來被當作極為重要的環(huán)節(jié)。因此,在互聯(lián)網及云計算發(fā)展下,數(shù)據(jù)處理、數(shù)據(jù)復用等問題又一次被推上風口。
而商業(yè)智能也在幫助企業(yè)現(xiàn)有數(shù)據(jù)進行整合的基礎上,承擔下可視化這一環(huán)節(jié),輔助企業(yè)進行業(yè)務經營決策。這也隨機帶來問題:
我國商業(yè)智能如今發(fā)展現(xiàn)狀如何?
當下市場,在數(shù)據(jù)處理及復用上實際難點有哪些,如何解決?
數(shù)據(jù)處理概念越來越寬泛,在云大物智賦能下,產業(yè)數(shù)據(jù)治理未來發(fā)展趨勢是怎樣的?
一、商業(yè)智能等于BI嗎?
可以說,數(shù)據(jù)價值最大化體現(xiàn)在商業(yè)。
以往,我國商業(yè)數(shù)據(jù)市場從早期數(shù)字化改造向互聯(lián)網爆發(fā)后的基礎軟件普及邁進。2013-2015年間,報表式可視化功能涌現(xiàn),成為商業(yè)數(shù)據(jù)智能的前身。在歷經兩年高速成長,目前市面上被廣泛獲知的狹義“商業(yè)數(shù)據(jù)智能”或可視化應用逐漸邁入成熟階段。
在人工智能技術的不斷演進下,AI得以與許多工具、技術結合。而數(shù)據(jù)可視化實用性最強的是BI(商業(yè)智能),在人工智能技術的加持下,商業(yè)智能對傳統(tǒng)數(shù)據(jù)分析進行持續(xù)化、信息化建設,形成1+1>2的表象。
據(jù)艾瑞咨詢估算,2019年至2025年中國人工智能核心產業(yè)及帶動產業(yè)規(guī)模都將保持高速增長態(tài)勢,復合增速均超過20%。
數(shù)字經濟的蓬勃發(fā)展帶來商業(yè)數(shù)據(jù)智能再次增速。
從整體來看,商業(yè)數(shù)據(jù)智能工具可以分為三個階段,即數(shù)據(jù)化、全局可視化及分析智能化。
具體來看,在第一階段數(shù)據(jù)化轉化期間,尚未進行數(shù)字化轉型的企業(yè)將數(shù)據(jù)進行電子化處理,通過CRM、ERP等基礎軟件為企業(yè)提供出部分賦能。
當全局可視化階段時,企業(yè)已經擁有數(shù)據(jù)庫或本地數(shù)據(jù)文件作為基礎。這時要做的是將數(shù)據(jù)進行提煉整理,形成數(shù)據(jù)報表??梢暬ぞ吣軌驗槠髽I(yè)提供數(shù)據(jù)分析及報表產出效率,增加數(shù)據(jù)實用性及數(shù)據(jù)價值。
實現(xiàn)數(shù)據(jù)可視化后,企業(yè)便可以利用AI開發(fā)框架進行模型訓練,進行數(shù)據(jù)挖掘,通過數(shù)據(jù)分析培養(yǎng)自身IT能力,最終體現(xiàn)在上層的BI產品上。
簡單來說,這個過程就好比一家餐飲店利用數(shù)字化終端設備將消費者的消費時間、喜好、產品一一收集。繼而對這些數(shù)據(jù)進行整理,將有用的數(shù)據(jù)以通俗易懂的方式呈現(xiàn)出來。通過這些的數(shù)據(jù)可以清晰地了解消費者的年齡層次、哪款產品喜愛度最高。而通過這些數(shù)據(jù)反饋出來的信息,不斷優(yōu)化菜品、升級營銷方式,從而幫助企業(yè)實現(xiàn)更高的增長。
目前,由于我國企業(yè)中小型占比較多,數(shù)字化轉型程度弱,大部分企業(yè)集中在數(shù)據(jù)化轉化及可視化賦能區(qū)間。
所以總體來看,我國距離數(shù)字化成熟尚有一段距離,而商業(yè)數(shù)據(jù)智能往往需要建設在統(tǒng)計格式及企業(yè)數(shù)據(jù)技術上,因此,前期的數(shù)字化轉化環(huán)節(jié)就顯得尤為關鍵。
此外,數(shù)據(jù)不夠“干凈”,數(shù)據(jù)存量小,數(shù)據(jù)平臺性能不足,處理效率低也是企業(yè)在數(shù)據(jù)處理時遇到的糟心事。在進行數(shù)據(jù)分析、挖掘及機器學習或可視化前,數(shù)據(jù)清洗、數(shù)據(jù)儲存也直接決定后續(xù)結果呈現(xiàn)。
二、數(shù)據(jù)處理的命門
“中國沒有真正的醫(yī)療大數(shù)據(jù)”“沒有數(shù)據(jù)可用”,一位行業(yè)專家在談臨床時抱怨。
然而,據(jù)IDC發(fā)布的《數(shù)字宇宙驅動醫(yī)療行業(yè)數(shù)據(jù)增長》報告顯示,醫(yī)療行業(yè)數(shù)據(jù)量每年以48%的速度增長,很多大型醫(yī)院的數(shù)據(jù)積累已達PB級。
一邊是一線從業(yè)人員的無奈,一邊是爆發(fā)的醫(yī)療大數(shù)據(jù),兩者之間似乎有著一條巨大的鴻溝。
事實上,并不是任何一堆數(shù)字都具備價值,一個前提是可視化,即讓這些被計算機收集的信息變得“通俗易懂”。
由于可視化所需數(shù)據(jù)基礎需要存儲等功能作為支撐。在可視化階段,需要以數(shù)據(jù)文件作為基礎,經過數(shù)據(jù)倒入、清理、建模、圖形構建等環(huán)節(jié)對企業(yè)數(shù)據(jù)進行提煉,從而呈現(xiàn)出完整報表。
然而,這并不是一件易事。
具體來看,這些收集的醫(yī)療大數(shù)據(jù),有文本數(shù)據(jù)、影像數(shù)據(jù)等。不同于可以直接存儲為數(shù)據(jù)庫的結構化數(shù)據(jù),這類數(shù)據(jù)計算機難以執(zhí)行。
另外,由于醫(yī)院上線的信息系統(tǒng)缺乏統(tǒng)一的標準與接口,隨著技術變遷和系統(tǒng)迭代,同廠商的系統(tǒng)數(shù)據(jù)結構不相同,不同廠商、不同時期的數(shù)據(jù)編碼也不盡相同,醫(yī)院存儲的歷史數(shù)據(jù)面臨解讀問題。
再有就是,很多大數(shù)據(jù)平臺只解決了有限數(shù)據(jù)匯集,比如,數(shù)據(jù)中心只采集到電子病歷系統(tǒng)的數(shù)據(jù),或是集成平臺的數(shù)據(jù),大量體檢數(shù)據(jù)、互聯(lián)網問診記錄、外院歷史病歷數(shù)據(jù)無法獲取。數(shù)據(jù)不全、量級也不夠大,并沒有建立起真正以患者為中心的全生命周期數(shù)據(jù)。
種種因素,讓數(shù)據(jù)的可視化陷入死胡同,繼而讓數(shù)據(jù)的價值無法體現(xiàn)。
毋庸置疑的是,“解鈴還須系鈴人”,想要體現(xiàn)數(shù)據(jù)真正的價值,首先要解決企業(yè)在數(shù)據(jù)處理能力上的匱乏。只有這樣,數(shù)據(jù)才能實現(xiàn)價值最大化。
正如亞馬遜CTO Werner Vogels所言:“數(shù)據(jù)越大,結果越好。為什么企業(yè)在商業(yè)上不斷犯錯?那是因為沒有足夠數(shù)據(jù)對運營決策提供支持?!?/p>
作為數(shù)據(jù)處理中典型的案例,亞馬遜從用戶購買行為、頁面停留時間、評論查看市場、瀏覽商品區(qū)間中對用戶購物習慣進行分析處理,不斷挖掘出的數(shù)據(jù)價值早已超越其運營模式的收益。
在亞馬遜的眼中,自身所有業(yè)務環(huán)節(jié)都離不開“數(shù)據(jù)驅動”,通過需求預測可以得知用戶未來需求。而這成功的嘗試也讓不少企業(yè)心之馳往。然而,能夠做到那一步可不是部署幾個軟件就能解決的。
《Information Visualization》一書中,Colin Ware提出了這樣一個問題:可視化是一門科學還是一種語言?結果顯而易見,它屬于科學范疇,讓數(shù)據(jù)跳出繁雜,精確性、系統(tǒng)性的顯示出來。
事實上,在很多新應用中,數(shù)據(jù)可視化都被當作幫助用戶便捷操作數(shù)據(jù)的橋梁,例如RPA等。從深度考慮,可視化可以稱作數(shù)字化進程中的一個階段和能力,帶來數(shù)字化大趨勢下可持續(xù)發(fā)展的機會。
但實際上,數(shù)據(jù)僅作為橋梁和前端的呈現(xiàn)顯然已然不夠,其更應該成為企業(yè)數(shù)字化轉型的核心決策支撐,在歸集數(shù)據(jù)的同時,需要給予產業(yè)作出行業(yè)定制化的表達。
三、什么才是智能BI?
簡單來說,數(shù)據(jù)治理就是把企業(yè)數(shù)據(jù)從雜亂、不可控轉化為可控、易用的過程。
而這種通過采集、傳輸、存儲的一系列標準化流程與企業(yè)效益有著直接關系。從艾瑞披露的數(shù)據(jù)來看,2020年商業(yè)數(shù)據(jù)智能市場結構中垂直行業(yè)拓展應用占比最高,達62.0%,對應市場規(guī)模569億元,這一比例在未來5年將進一步提升,對應市場規(guī)模達2345億元。
市場趨生參與者也趨生行業(yè)發(fā)展不夠均衡的現(xiàn)狀。
目前,我國金融、零售行業(yè)數(shù)字化發(fā)展水平較快,已處在可視化發(fā)展向商業(yè)智能邁進階段;而制造業(yè)、工業(yè)等方面進展略有遲緩,呈現(xiàn)出供應商分散、芯片、新能源等企業(yè)發(fā)展超前,傳統(tǒng)制造業(yè)仍處于人工居多的兩極化現(xiàn)象。
處在行業(yè)發(fā)展水平不均的時代背景下,如何把狹義數(shù)據(jù)處理的分析方式、信息提取轉變的更寬泛、有彈性?
答案是利用云大物智的協(xié)同能力。
在狹義的數(shù)據(jù)處理中,數(shù)據(jù)分析產出有價值的信息是主要目的,而廣義的數(shù)據(jù)處理可以在此基礎繼續(xù)深化,發(fā)現(xiàn)數(shù)據(jù)中的信息及運作邏輯,給此后的業(yè)務決策提供理論基礎和結果導向。
而云計算、大數(shù)據(jù)、物聯(lián)網及人工智能的出現(xiàn)在某種程度上構建出新型網絡架構。大數(shù)據(jù)及數(shù)據(jù)存儲平臺的基礎性,云計算的IT基礎設施的靈活調用能力,物聯(lián)網的數(shù)據(jù)交互網絡體系,人工智能的數(shù)據(jù)分析理論引導,四項融合給數(shù)據(jù)治理帶來新的想象空間。
在處理低成熟度行業(yè)時,多項技術引導的方式能夠在保障數(shù)據(jù)完整性前提下,解決數(shù)據(jù)質量差、數(shù)據(jù)孤島、管理機制不足的缺陷。
盡管現(xiàn)階段很多企業(yè)嘗試以業(yè)務流控制數(shù)據(jù)流,但由于缺乏系統(tǒng)機制往往會面臨時間成本耗費但未果的情況,這也從側面反映出部分行業(yè)在基礎數(shù)字化建設存在的發(fā)展空間,而建立于云大物智智商的商業(yè)數(shù)據(jù)智能應用也會在這些成熟度較低的行業(yè)存在發(fā)展前景。
總體來看,對于新時代的BI而言,應該擺脫固有的數(shù)據(jù)治理觀念,更多的在技術支撐下實現(xiàn)數(shù)據(jù)的歸類和產業(yè)表達,從數(shù)據(jù)庫的底層開始最終到時BI上層的數(shù)據(jù)呈現(xiàn),構建出一個完整的數(shù)據(jù)使用閉環(huán)。
恰如那句話所說,“我們現(xiàn)在需要的不僅是石油,更是如何使用好石油?!?/p>