文|動脈網
2023年以來,圍繞ChatGPT的火熱探討重新燃起了市場對于醫(yī)療AI的興趣。
過去,醫(yī)療健康領域的人工智能模型大多只能處理單一模態(tài)的數(shù)據,解決相對狹窄的醫(yī)學問題,如識別胸部CT中的黑點,而ChatGPT能夠接受多重數(shù)據類型的訓練,使之像一名醫(yī)生一樣提供完整的醫(yī)學建議。
然而,坊間對于ChatGPT價值認可各不相同。一部分觀點相信大型語言模型(LLM)能夠顛覆AI的推理邏輯,優(yōu)化算法對于醫(yī)學影像、醫(yī)學文本的推理,另一部分觀點則認為這項技術已經出現(xiàn)多年,如今不過是老調重彈,量變有余,質變不足。
為了明晰ChatGPT能否重構全球醫(yī)療AI格局,探明行業(yè)的未來發(fā)展前景。動脈網與業(yè)內多位專家進行了對話,嘗試一一解答上述問題。
過得了審批,進不了臨床
IBM Watson的退場曾對整個生命科學領域予以警示:在面對一種可能的新興技術時,我們不能單單借助非醫(yī)療行業(yè)的“主觀印象”判斷該技術的顛覆性及可用性,還需考慮其應用于醫(yī)療領域后,如何切入的診療流程、如何面臨的審評審批、如何實現(xiàn)商業(yè)化等實際問題。
審評審批是決定AI能否存在于市場的重要環(huán)節(jié),也是ChatGPT切入臨床難以會回避的核心關卡。我們不妨假設:如果基于ChatGPT的AI要以醫(yī)療器械的方式實現(xiàn)輔助診斷,需要依賴怎樣的審批路徑?參照怎樣的醫(yī)療器械標準?
MedTech Dive曾對FDA批準的AI產品進行了全面的統(tǒng)計。截至2022年10月5日,F(xiàn)DA總計授權了521份AI/ML醫(yī)療器械申請,其中絕大部分走的510(k)這一路徑,小部分拿到PMA授權,僅18款器械通過的是de novo審批程序。畢竟,510(k)簡化了醫(yī)療AI的審批流程,尤其是對于不少影像設備廠商,他們的AI應用可能只作用于某一特定模塊,只要開發(fā)人員能夠證明他們的設備與已經上市的設備“基本等效”,就不需要再重新進行臨床試驗。
NMPA對于AI/ML醫(yī)療器械的授權相對謹慎,沒有類似于510(k)這樣的快速通道可供使用。但隨著審批制度的不斷完善,大量第二類、第三類智能醫(yī)療器械在2018年后涌現(xiàn),尤其是在科亞醫(yī)療“深脈分數(shù)”獲得三類證,將“深度學習”首次寫入注冊證基礎信息后,醫(yī)療人工智能產品的審批迎來爆發(fā)式增長。
NMPA、FDA歷年批準的人工智能醫(yī)療器械數(shù)量(NMPA僅統(tǒng)計第三類醫(yī)療器械)
因此,僅談論審批路徑,NMPA、FDA均對有價值的AI技術張開懷抱。若有企業(yè)將基于ChatGPT的AI植入自身的設備之中,并能其與已經上市的設備“基本等效”,那么它很有可能借助510(k)成功上市;2022年3月NMPA發(fā)布的《人工智能醫(yī)療器械注冊審查指導原則》擴展了人工智能核心算法審批的范圍,如果LLS能夠證明它的價值,亦有可能借助現(xiàn)有框架進入審批流程。
再談ChatGPT可能的應用場景。NMPA與FDA在審批項目組成上的組成大致相似,截至2022年10月5日,F(xiàn)DA 授權的521份AI/ML醫(yī)療器械申請中,超過75%是輔助診斷產品,13%是輔助治療產品;NMPA授權的70份AI/ML醫(yī)療器械申請,超過71%是輔助診斷產品,24%是輔助治療產品。
輔助診斷產品與輔助治療類產品嚴格依賴于臨床證據,要求算法能夠復現(xiàn)給出的結果,并能給出相應的證據。反觀目前ChatGPT模型的應用情況,它能夠根據關鍵詞輸入給出一個確定的輸出結果,但同一關鍵詞的多次輸入并不具備一致性。換句話說,當輸入信息過于復雜且追求精度時,ChatGPT無法精準復現(xiàn)給出的答案,因而很難用于上述兩個領域。
新一代臨床輔助決策系統(tǒng)(CDSS)是ChatGPT最有可能顛覆的賽道之一。新一代CDSS依賴于NLP的助力,只能處理文本信息。相較之下,支撐ChatGPT的LLM不僅包含了NLP,還包含眾多其他系統(tǒng),使其具備整合電子病例,圖像,檢查數(shù)據、基因組,甚至微生物組序列信息的能力。
動脈網對2020-2022年期間FDA批準的AI項目整理后發(fā)現(xiàn),盡管輔助診斷與輔助治療類AI仍占據著主流位置,但CDSS類產品的過審數(shù)量較2020年前已顯著上升(國內CDSS通常不需要經過NMPA審評審批,僅森億智能的VTE風險評估軟件醫(yī)療器械獲得了第二類醫(yī)療器械認證)。
2020-2022年FDA批準AI醫(yī)療器械(部分)
對于整個醫(yī)療體系而言,AI帶來的監(jiān)督功能與對于基層醫(yī)療的賦能能夠有效提高疾病預防的效率,通過推動疾病早治療,從長期之中減少醫(yī)保賬戶支出,從這個角度而言,基于ChatGPT的應用或許存在落地的潛力。
誰來為ChatGPT的決策背書?
美國初創(chuàng)公司Ansible Health的研究人員發(fā)布于《PLOS數(shù)字健康》雜志的研究結果。ChatGPT能夠在執(zhí)照考試中取得"大約60%的通過門檻"。另一項研究利用45個病例對ChatGPT診斷疾病的表現(xiàn)進行了評估,實驗結果發(fā)現(xiàn),ChatGPT能夠在39個病例中找出正確診斷(準確率87%),遠高于以前的癥狀檢測工具,也高于老版ChatGPT的判別能力(82%),因此,在不少專家看來,CDSS是ChatGPT有效的落地路徑。
數(shù)據支持下,ChatGPT顯然能夠充當一個有效的臨床輔助決策工具,但要真正落地于臨床,AI需要拿出手的不單單是一個比率。
“無論是百度還是谷歌,當你向它進行提問,它會給你大量網頁作為回答,讓你自己進行甄別過濾,但ChatGPT不同,它像一個進化版的搜索引擎,會給你一個唯一的答案?!被菝靠萍糃TO王實告訴動脈網?!斑@是它的優(yōu)點,也是它落地的隱患?!?/p>
醫(yī)院目前使用的CDSS主要由人機交互、推理機、知識庫三個核心部門組成。機器借助NLP去理解醫(yī)生的輸入,過程中處理的是交互問題,沒有涉及真正意義上的以AI替代醫(yī)生的決策,這并非在某些特定場景AI 無法超越醫(yī)生,而是AI無法對任何可能的錯誤負責。
王實表示:“我們正在經歷智慧型醫(yī)療的發(fā)展,尤其在2018年-2020年間,國家衛(wèi)健委陸續(xù)出臺了電子病歷評級、互聯(lián)互通評級、智慧醫(yī)院評級等政策,以評促建來推動醫(yī)療機構全面向數(shù)字化轉型升級,在這個過程中也運用到了很多新興技術,其中,CDSS作為高級別評審的核心項目之一,也對CDSS的建設機制作出了嚴苛的規(guī)定,那就是必須是基于循證醫(yī)學證據的。
因此,CDSS的提示與建議是在符合診療規(guī)范的前提下,綜合指南參考,輔助醫(yī)生決策。相比之下,ChatGPT在某些問題的回答上可能給出一個更好的答案,但它沒法對自己作出的回答援引資料進行背書,沒法對自己可能出現(xiàn)的錯誤負責,也沒有醫(yī)生愿意為算法的錯誤買單?!?/p>
這對于ChatGPT的技術落地而言是一個致命考驗。和當年的IBM Watson相似,ChatGPT的顛覆在于它能夠像醫(yī)生一樣作出決策,而醫(yī)生則希望AI做好份內的信息處理工作,自己握住決策權。
成本,制約ChatGPT的關鍵所在
從CNN、NLP的發(fā)展路徑看,技術開發(fā)者總是能在應用之中對技術進行取舍,使最終的成品滿足市場的需求,若要全心圍繞LLM技術開發(fā)醫(yī)療應用,取得成果也是必然。只是對于開發(fā)者們,不是哪一家初創(chuàng)企業(yè)都像Open.AI一樣,能在模型的訓練上投入海量的金錢。
公開數(shù)據顯示,OpenAI過去推出的LLM模型GPT-3擁有1750億個參數(shù),與之對應的訓練費用高達1200萬美元(單次成本約140萬美元),關于ChatGPT的訓練費用說法不一,但大致可推測在200萬美元-1200萬美元這一區(qū)間之內。
對于需要建立類似模型的醫(yī)療等細分垂直賽道而言,先是必須擁有GPT級別的基礎模型。然后才是耗費大量時間、精力,以及資金對基礎模型進行長期且持續(xù)的計算和數(shù)據訓練,以創(chuàng)建新的模型。實現(xiàn)以上條件,國內只有BAT級別的企業(yè)才有資本涉獵其中。
同時,高昂訓練費用下,即便是大企業(yè)也沒辦法對已經完成訓練的模型進行明確指向的調整,如果ChatGPT這樣體量的模型在醫(yī)療領域的探索中誤入歧途,相關的研究者們想要繼續(xù)挖掘LLM的潛力,可能只有等待下一個模型出現(xiàn)。
種種影響因素之下,ChatGPT乃至其他LLM在醫(yī)療臨床中的價值可能都會相當有限。僅討論當下,與搜索相關的科普、互聯(lián)網醫(yī)院都場景顯然更有潛力。脫離臨床,ChatGPT的特立獨行或許能夠為上述場景打開新的增長空間。
總的來說,關于ChatGPT應用于臨床的討論或許讓人有些失望。ChatGPT并非完全為醫(yī)療而生,基于ChatGPT的AI也難以像打磨多年的輔助診斷、輔助治療AI一樣深入臨床環(huán)節(jié)。
但從長遠來看,LLM仍然具備顛覆現(xiàn)有AI的能力。如果它能跨越電子病例、影像、基因組等多模態(tài)醫(yī)學數(shù)據,構建綜合性的分析能力,它必定能夠打破當下AI面臨的局面,重新定義AI的價值。