文|極新
上世紀(jì)興起的基因組、蛋白質(zhì)組學(xué)等通過(guò)大通量技術(shù)預(yù)測(cè)疾病發(fā)生發(fā)展獲得了巨大的關(guān)注,對(duì)其研究推動(dòng)了對(duì)大數(shù)據(jù)數(shù)理模型的技術(shù)發(fā)展。
越來(lái)越多的研究發(fā)現(xiàn),疾病不僅取決于基因及其表達(dá)還與表觀修飾蛋白功能等多方面協(xié)同作用,僅對(duì)基因組等單一組學(xué)進(jìn)行微觀研究較難獲得突破。醫(yī)療大數(shù)據(jù)的發(fā)展使得微觀基因組基礎(chǔ)大數(shù)據(jù)和宏觀臨床大數(shù)據(jù)結(jié)合,聯(lián)合信息統(tǒng)計(jì)分析及人工智能技術(shù),可更加準(zhǔn)確地預(yù)測(cè)疾病的發(fā)生發(fā)展,從而推動(dòng)預(yù)測(cè)醫(yī)學(xué)的進(jìn)一步提高。
一個(gè)明顯的趨勢(shì)是,醫(yī)療大數(shù)據(jù)行業(yè)正在成為下一波醫(yī)療行業(yè)的機(jī)會(huì)。在這個(gè)行業(yè)之中,千億的市場(chǎng)規(guī)模,人工智能技術(shù)的進(jìn)步都讓人浮想聯(lián)翩。
也誠(chéng)然,這樣的趨勢(shì)也讓無(wú)數(shù)投資人和企業(yè)趨之若鶩。
在癌癥領(lǐng)域,我國(guó)現(xiàn)存750萬(wàn)腫瘤患者,人均花費(fèi)7萬(wàn)元,按照腫瘤治療滲透率60%計(jì)算,那么這就是一個(gè)3000多億人民幣的市場(chǎng)。
而如果未來(lái)在藥物、手術(shù)、放療都與國(guó)際接軌的話,那么這個(gè)市場(chǎng)將會(huì)變得更廣闊。
國(guó)內(nèi)外的醫(yī)療大數(shù)據(jù)
作為大健康醫(yī)療的一個(gè)分支,醫(yī)療大數(shù)據(jù)行業(yè)歷史并不算悠久。但時(shí)至今日,該領(lǐng)域內(nèi)已經(jīng)發(fā)展出包括臨床大數(shù)據(jù)、健康大數(shù)據(jù)、生物大數(shù)據(jù)、運(yùn)營(yíng)大數(shù)據(jù)等多個(gè)垂類(lèi)分支,而每一個(gè)分支都在諸如臨床科研、公共衛(wèi)生、行業(yè)治理、管理決策、惠民服務(wù)和產(chǎn)業(yè)發(fā)展等方面影響著整個(gè)醫(yī)療行業(yè)的變革。
從國(guó)際大背景來(lái)看,美國(guó)在醫(yī)療大數(shù)據(jù)方面仍然領(lǐng)跑全球,截至目前,美國(guó)已經(jīng)建成覆蓋本土的12個(gè)區(qū)域電子病歷數(shù)據(jù)中心、9個(gè)醫(yī)療知識(shí)中心、8個(gè)醫(yī)學(xué)影像與生物信息數(shù)據(jù)中心。
由美國(guó)衛(wèi)生與公眾服務(wù)部(HHS)管理的聯(lián)邦政府網(wǎng)站healthdata.gov是國(guó)家級(jí)的健康數(shù)據(jù)開(kāi)放平臺(tái)。通過(guò)該網(wǎng)站越來(lái)越多的來(lái)自于CMS(醫(yī)療保險(xiǎn)和醫(yī)療補(bǔ)助服務(wù)中心)、CDC(疾病控制中心)、FDA(食品藥品監(jiān)督管理局)、NIH(美國(guó)國(guó)立衛(wèi)生研究院)等渠道的HHS數(shù)據(jù)庫(kù)向社會(huì)開(kāi)放。
數(shù)據(jù)內(nèi)容包括臨床服務(wù)質(zhì)量信息、全國(guó)衛(wèi)生服務(wù)提供者目錄、最新醫(yī)療和科學(xué)知識(shí)數(shù)據(jù)庫(kù)、消費(fèi)產(chǎn)品數(shù)據(jù)、社區(qū)衛(wèi)生績(jī)效信息、政府支出數(shù)據(jù)等。
2014年6月,美國(guó)FDA的公共數(shù)據(jù)開(kāi)放項(xiàng)目openFDA正式上線。openFDA前期開(kāi)放了2014—2013年間的300萬(wàn)份藥物不良反應(yīng)和醫(yī)療過(guò)失記錄,以及醫(yī)療器械報(bào)告和執(zhí)法報(bào)告,并且每年更新發(fā)布新的報(bào)告數(shù)據(jù)集。
而在英國(guó)和日本,醫(yī)療大數(shù)據(jù)同樣是兩國(guó)大力發(fā)展的戰(zhàn)略領(lǐng)域之一。
由于受人口老齡化的影響,日本政府將健康醫(yī)療大數(shù)據(jù)用于控制醫(yī)療費(fèi)用。受該國(guó)國(guó)情影響,大數(shù)據(jù)在其中的作用主要是控制醫(yī)療和護(hù)理費(fèi)用。
在中國(guó)國(guó)內(nèi),醫(yī)療大數(shù)據(jù)行業(yè)起步時(shí)間不長(zhǎng),目前只是初步建立了醫(yī)療健康數(shù)據(jù)庫(kù),人口健康信息化初具規(guī)模,在信息技術(shù)和醫(yī)療行業(yè)的產(chǎn)學(xué)研方面有了一定成效。
比較重要的是,在生物數(shù)據(jù)庫(kù)方面,國(guó)家基因庫(kù)2016年正式建成,該基因庫(kù)集生物資源樣本庫(kù)、生物信息數(shù)據(jù)庫(kù)和生物資源信息網(wǎng)絡(luò)為一體。而在我國(guó)的醫(yī)療大數(shù)據(jù)總體方向上,還和美英日等國(guó)有所不同,這一點(diǎn)下文詳表。
國(guó)內(nèi)的特點(diǎn)
一國(guó)的醫(yī)療大數(shù)據(jù)發(fā)展方向取決于這個(gè)國(guó)家的稟賦。
正如我們之前系列文章提及的那樣,雖然國(guó)外醫(yī)療行業(yè)也有資源分配不均的情況出現(xiàn),但就程度而言,這樣的情況在我國(guó)表現(xiàn)的尤為明顯。
也因此,在“健康中國(guó)2030”國(guó)家戰(zhàn)略背景下,國(guó)內(nèi)的醫(yī)療大數(shù)據(jù)行業(yè)發(fā)展方向幾乎不可避免的邁向了智能化。
智慧醫(yī)療最大的好處是可以利用有限的醫(yī)療條件,最大程度發(fā)揮醫(yī)療機(jī)構(gòu)的水平和技術(shù)優(yōu)勢(shì)。一方面,這樣節(jié)約了成本,另一方面也讓醫(yī)療資源實(shí)現(xiàn)了共享和下沉。
在這樣的背景下,醫(yī)療大數(shù)據(jù)在國(guó)內(nèi)獲得了飛速的發(fā)展,2013年,我國(guó)的醫(yī)療大數(shù)據(jù)行業(yè)市場(chǎng)還僅為331億元,而到了2017年,就已經(jīng)增長(zhǎng)至643億元。
但智慧醫(yī)療只是最終的終點(diǎn),而在這個(gè)萬(wàn)里長(zhǎng)城的第一關(guān)則是數(shù)據(jù)。就目前來(lái)看,醫(yī)療數(shù)據(jù)面臨著幾大問(wèn)題:
其一,是醫(yī)院面對(duì)企業(yè)型合作方時(shí),他們往往更為謹(jǐn)慎:醫(yī)院對(duì)數(shù)據(jù)方面會(huì)更看重安全、準(zhǔn)確、穩(wěn)定且持續(xù)更新。數(shù)據(jù)處理需要精準(zhǔn)且調(diào)用快捷,一旦共享則一定要保證安全。這點(diǎn)說(shuō)明,絕大多數(shù)醫(yī)院的信息化系統(tǒng)建設(shè)會(huì)由外部公司承接,各類(lèi)信息數(shù)據(jù)均會(huì)留在本地服務(wù)器上,不會(huì)外傳到第三方機(jī)構(gòu)或平臺(tái)。
這增加了第三方利用醫(yī)院數(shù)據(jù)的難度。
數(shù)據(jù)的來(lái)源與利用
在獲取數(shù)據(jù)的過(guò)程中,第三方數(shù)據(jù)公司的數(shù)據(jù)來(lái)源來(lái)自于以下幾種:
其一是病人就醫(yī)過(guò)程中產(chǎn)生的信息——即從掛號(hào)開(kāi)始便將個(gè)人姓名、年齡、住址、電話等信息,還包括面診過(guò)程中病患的身體狀況、醫(yī)療影像等信息也會(huì)被錄入數(shù)據(jù)庫(kù),并且,看病結(jié)束以后,費(fèi)用信息、報(bào)銷(xiāo)信息、醫(yī)保使用情況等信息被添加到醫(yī)院的大數(shù)據(jù)庫(kù)里面。這就是醫(yī)療大數(shù)據(jù)最基礎(chǔ)、最龐大的原始資源。
其二是臨床醫(yī)療研究和實(shí)驗(yàn)室數(shù)據(jù):即將臨床和實(shí)驗(yàn)室數(shù)據(jù)整合在一起,這種數(shù)據(jù)極大,一張普通CT圖像含有大約150MB的數(shù)據(jù),一個(gè)標(biāo)準(zhǔn)的病理圖則接近5GB。如果將這些數(shù)據(jù)量乘以人口數(shù)量和平均壽命,僅一個(gè)社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達(dá)數(shù)萬(wàn)億字節(jié)甚至數(shù)千萬(wàn)億字節(jié)(PB)之多。
其三是制藥企業(yè)和生命科學(xué)數(shù)據(jù):比如上文提到的2016年建造的國(guó)家基因庫(kù),以及一些研究院所所研究的生物數(shù)據(jù)庫(kù)。
最后是智能穿戴設(shè)備所采集的健康管理數(shù)據(jù),未來(lái),便攜式的可穿戴醫(yī)療設(shè)備正在普及,個(gè)體健康信息都將可以直接連入互聯(lián)網(wǎng),由此將實(shí)現(xiàn)對(duì)個(gè)人健康數(shù)據(jù)隨時(shí)隨地的采集,而帶來(lái)的數(shù)據(jù)信息量將更是不可估量的。
收集的數(shù)據(jù)最后去了哪?去了四個(gè)地方。
其一,為相關(guān)企業(yè)提供醫(yī)療分析數(shù)據(jù),即為醫(yī)療機(jī)構(gòu)提供世界級(jí)的數(shù)據(jù)倉(cāng)庫(kù)解決方案;
其二,輸入到了轉(zhuǎn)譯研究中心,即為醫(yī)學(xué)研究機(jī)構(gòu)以及制藥中心提供新技術(shù)的研究保障;
其三,賦能健康科學(xué)網(wǎng)絡(luò),即為制藥公司、資產(chǎn)管理公司以及研究機(jī)構(gòu)之間提供安全的數(shù)據(jù)共享;
最后,用于旨在加強(qiáng)與患者聯(lián)系的平臺(tái)之中——甲骨文通過(guò)收購(gòu)RightNow以及Eloqua等公司,就是為了加強(qiáng)醫(yī)療機(jī)構(gòu)與患者之間的聯(lián)系,而一部分?jǐn)?shù)據(jù)就是被輸入到了這里。
醫(yī)療大數(shù)據(jù)的創(chuàng)新
目前,人工智能技術(shù)通過(guò)算法和軟件,分析復(fù)雜的醫(yī)療數(shù)據(jù),達(dá)到近似人類(lèi)認(rèn)知的目的。因此AI使得計(jì)算機(jī)算法能夠在沒(méi)有直接人為輸入的情況下預(yù)估結(jié)論成為可能。
在該領(lǐng)域的創(chuàng)新正在全球范圍內(nèi)發(fā)生,其中,在法國(guó),科學(xué)家們正在采用一種被稱(chēng)為“時(shí)間序列分析”的技術(shù),分析過(guò)去10年的患者入院記錄。這項(xiàng)研究能夠幫助研究人員發(fā)現(xiàn)患者入院的規(guī)律并利用機(jī)器學(xué)習(xí),找到能夠預(yù)測(cè)未來(lái)入院規(guī)律的算法。
這項(xiàng)數(shù)據(jù)最終會(huì)提供給醫(yī)院的管理人員,幫助他們預(yù)測(cè)接下來(lái)15天中所需要的醫(yī)護(hù)人員“陣容”,為患者提供更加“對(duì)口”的服務(wù),縮短他們的等待時(shí)間,同時(shí)也有利于為醫(yī)護(hù)人員盡可能合理地安排工作量。
在腦機(jī)接口領(lǐng)域,可以幫助恢復(fù)基本的人類(lèi)體驗(yàn),例如因神經(jīng)系統(tǒng)疾病和神經(jīng)系統(tǒng)創(chuàng)傷而喪失的說(shuō)話和溝通功能。
在不使用鍵盤(pán)、顯示器或鼠標(biāo)的情況下,在人類(lèi)大腦和計(jì)算機(jī)之間創(chuàng)建直接接口,將大幅提高肌萎縮側(cè)索硬化或中風(fēng)損傷患者的生活質(zhì)量。
此外,AI還是新一代放射工具的重要組成部分,通過(guò)“虛擬活檢”幫助分析整個(gè)腫瘤情況,而不再通過(guò)一個(gè)小小的侵入性活檢樣本。AI在放射醫(yī)療領(lǐng)域的應(yīng)用能夠利用基于圖像的算法來(lái)表現(xiàn)腫瘤的特性。
在藥物研發(fā)方面,依托大數(shù)據(jù),人工智能系統(tǒng)可以快速、準(zhǔn)確的挖掘和篩選出適合的藥物。通過(guò)計(jì)算機(jī)模擬,人工智能可以對(duì)藥物活性、安全性和副作用進(jìn)行預(yù)測(cè),找出與疾病匹配的最佳藥物。這一技術(shù)將會(huì)大大縮短藥物研發(fā)周期、降低新藥成本并且提高新藥的研發(fā)成功率。
例如,當(dāng)某人被診斷為癌癥時(shí),智能藥物研發(fā)系統(tǒng)會(huì)利用病人的正常細(xì)胞和腫瘤來(lái)將它的模型實(shí)例化,并嘗試所有可能的藥物,直到找到一種能殺死癌細(xì)胞又不傷害正常細(xì)胞的藥物。如果它找不到有效藥物或者有效藥物組合,那么它就會(huì)著手研發(fā)一種能治愈癌癥的新藥。如果藥物醫(yī)治了疾病但仍有副作用,系統(tǒng)則會(huì)嘗試通過(guò)相應(yīng)調(diào)整擺脫副作用。
目前遇到的困境
在醫(yī)療大數(shù)據(jù)行業(yè)中,講求對(duì)“真實(shí)世界數(shù)據(jù)”的挖掘和掌握,而其中最重要的核心內(nèi)涵就是基于人群大數(shù)據(jù)的研究,從而推動(dòng)藥品研發(fā)和應(yīng)用以及建立治療方案療效客觀評(píng)價(jià)的新方法。
由于時(shí)間地域及硬件條件的不平衡,可能生成海量的醫(yī)療病例錯(cuò)誤信息。有誤的病歷電子化后,將帶來(lái)更多更大的扭曲刪改和誤導(dǎo)性的信息。此外,數(shù)據(jù)的不完整性也是制約醫(yī)療大數(shù)據(jù)發(fā)展的因素,可能對(duì)其應(yīng)用產(chǎn)生錯(cuò)誤或偏倚,所以,盡快統(tǒng)一各級(jí)醫(yī)院病例數(shù)據(jù)模塊,建立標(biāo)準(zhǔn)化的輸出結(jié)構(gòu)或格式,使得數(shù)據(jù)的采集標(biāo)準(zhǔn)化、規(guī)范化,讓數(shù)據(jù)能夠分析使用是當(dāng)務(wù)之急,不同類(lèi)型的醫(yī)療數(shù)據(jù)資料,采集傳輸時(shí)達(dá)到統(tǒng)一標(biāo)準(zhǔn)。
所以其大數(shù)據(jù)也必定具備一般的數(shù)據(jù)特性:規(guī)模大、結(jié)構(gòu)多樣、增長(zhǎng)快速、價(jià)值巨大,但是其作為醫(yī)療領(lǐng)域產(chǎn)生的數(shù)據(jù)也同樣具備醫(yī)療性:多態(tài)性、不完整性、冗余性、時(shí)間性、隱私性。
多態(tài)性:醫(yī)療數(shù)據(jù)包含有像化驗(yàn)產(chǎn)生的純數(shù)據(jù),也會(huì)有像體檢產(chǎn)生的圖像數(shù)據(jù)類(lèi)似心電圖等信號(hào)圖譜,醫(yī)生對(duì)患者的癥狀描述以及跟進(jìn)自己經(jīng)驗(yàn)或者數(shù)據(jù)結(jié)果做出的判斷等文字描述,另外還有像心跳聲,哭聲,咳嗽聲等類(lèi)似的聲音資料,同時(shí)現(xiàn)代醫(yī)院的數(shù)據(jù)中還有各種動(dòng)畫(huà)數(shù)據(jù)(像胎動(dòng)的影像等)。
不完整性:由于各種原因?qū)е掠泻芏噌t(yī)學(xué)數(shù)據(jù)是不完整的,像醫(yī)生的主觀判斷以及文字描述的不完整,患者治療中斷導(dǎo)致的數(shù)據(jù)不完整,患者描述不清導(dǎo)致的數(shù)據(jù)不完整等。
冗余性:醫(yī)療數(shù)據(jù)量巨大,每天會(huì)產(chǎn)生大量多余的數(shù)據(jù),這給數(shù)據(jù)分析的篩選帶來(lái)了很大困難。
時(shí)間性:大多醫(yī)療數(shù)據(jù)都是具有時(shí)間性、持續(xù)性的,像心電圖,胎動(dòng)思維圖均屬于時(shí)間維度內(nèi)的數(shù)據(jù)變化圖譜。
隱私性:另外隱私性也是醫(yī)療數(shù)據(jù)的一個(gè)重要特性,同時(shí)也是現(xiàn)在大部分醫(yī)療數(shù)據(jù)不愿對(duì)外開(kāi)放的一個(gè)原因,很多醫(yī)院的臨床數(shù)據(jù)系統(tǒng)都是相對(duì)獨(dú)立的局域網(wǎng)絡(luò),甚至不會(huì)去對(duì)外聯(lián)網(wǎng)。
此外,醫(yī)療大數(shù)據(jù)人才也相對(duì)缺乏,而且中國(guó)醫(yī)療大數(shù)據(jù)應(yīng)用的主體醫(yī)護(hù)衛(wèi)生人員素質(zhì)和能力整體水平也較高。
由于信息化網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)發(fā)展,人們對(duì)信息化及數(shù)據(jù)的應(yīng)用并不陌生,且已初步形成大數(shù)據(jù)研究的專(zhuān)業(yè)化人員隊(duì)伍。但是醫(yī)療大數(shù)據(jù)建設(shè)及其研發(fā)有特殊性。首先醫(yī)療數(shù)據(jù)專(zhuān)業(yè)性強(qiáng),其采集、整合、解讀和應(yīng)用都需要專(zhuān)業(yè)化衛(wèi)生人員甚至醫(yī)護(hù)人員的參與。
然而中國(guó)了解醫(yī)療大數(shù)據(jù)及參與醫(yī)療大數(shù)據(jù)建設(shè)的衛(wèi)生人員極其稀缺,此類(lèi)人才不光需要有醫(yī)學(xué)背景,而且需要具有數(shù)理統(tǒng)計(jì)和信息分析等知識(shí)。
中國(guó)已建設(shè)的大數(shù)據(jù)人才多是數(shù)理統(tǒng)計(jì)方面的專(zhuān)家,但由于醫(yī)學(xué)知識(shí)的缺乏,就無(wú)法真正深度應(yīng)用已整合的醫(yī)療數(shù)據(jù)。所以醫(yī)數(shù)醫(yī)理交叉人才的短缺及醫(yī)護(hù)衛(wèi)生人員大數(shù)據(jù)相關(guān)知識(shí)的缺乏是目前阻擋中國(guó)醫(yī)療大數(shù)據(jù)發(fā)展的重大問(wèn)題。
此外,醫(yī)療大數(shù)據(jù)相關(guān)研究基金和課題的缺乏也是目前衛(wèi)生人員對(duì)醫(yī)療大數(shù)據(jù)不了解和不深入研究的原因之一。