5321
需用時?10:38
AI不能“取代”醫生給我們看病,這并不是因為AI不夠強大

約翰霍普金斯醫學院的娜塔莉·特拉雅諾娃(Natalie Trayanova)教授,剛剛度過了魔鬼一般的一年。

在外人看來,她的科研道路仿佛是一帆風順。她帶領的心血管造影技術團隊拿著來自美國國立衛生研究院(NIH)的研究基金,過去三年光論文就發表了50多篇;她的項目還頻頻在媒體上曝光,她本人甚至被邀請到TED Talk上做演講。然而,當她著手將這套“領域內前所未有的解決方案”向臨床應用推進的時候,卻遭遇了前所未有的困難。

Your Personal Virtual Heart | Natalia Trayanova | TEDxJHU

她的方案在臨床上的首要任務是治療心顫。所謂心顫,指的是心臟不再有規律地按照周期跳動,而是無規律地快速“顫抖”;輕度的心顫有時本人都感覺不到,但嚴重的心顫可以讓在幾分鐘內奪人性命。你可能在商場、路邊或者影視作品里見過儀器裝在紅色盒子里,上面寫著“AED”三個大字,還可能有紅色的心形和閃電標記,這就是自動化的電除顫儀,依靠放電的辦法結束心顫。這樣的設備已經拯救了很多心臟病突然發作的人。

不過等到心顫發生再采取除顫,還是稍微有點晚。醫學研究者開發出了一種心臟除顫手術,找到那些引發心律不齊的微小心肌纖維,把它們切除,從而根本上解決問題。麻煩的是,這些微小心肌纖維很難找,很大程度都靠醫生經驗,經常切不準地方還會誤傷正常的部分。

特拉雅諾娃實驗室就開發了一套結合了影像和人工智能的心臟造影方案,構建出全息3D的心臟模型,重建每一束心肌纖維、模擬心臟動態,精確地找出病灶,讓手術“指哪打哪”。“我們還能順便用這個影像,給心臟做3D打印,送給病人做留念。”來自保加利亞、已經在這個領域摸爬滾打了三十多年的特拉雅諾娃談起自己的技術,仍然是一臉興奮。而最近興起的人工智能技術,更是有希望為這個技術添磚加瓦——例如,使用機器學習提高圖像精度,優化計算流程,把時間和成本大幅降低。

圖:特拉雅諾娃團隊的“模擬心臟”

然而,談到實際應用的前景,她的樂觀減少了大半。病人的各類實際需求,總是不能與技術設計完美結合,她不得不一周三天跑醫院、兩天跑實驗室,與醫生和工程師反復溝通。更大的挑戰來自美國食品藥監局(FDA),任何一項技術想要投入應用,都免不了和 FDA 大戰三百回合;要是不能將研究成果轉換為審批標準,發了再多論文都相當于白做。“還不知道什么時候會通過審批。”她對我說,“明年或者后年吧?希望如此(Hopefully),希望如此。”

“希望如此”,成了她掛在嘴邊的口頭禪。在人工智能計算能力大幅提升的今天,樂觀派們認為AI接管醫院只是時間問題,然而從實驗室到醫院的這段路,依然困難重重。

1

“你拿一萬張貓的圖片訓練一個機器,機器能夠非常迅速地判斷眼前的圖片是否是貓,”約翰·霍普金斯生物工程教授杰弗里·希維爾德森(Jeffrey Siewerdeson)給我打了個比方,“但你要讓機器從一張元素繁多的圖片里找貓,難度就指數級增大了。”

他的實驗室曾經是約翰·霍普金斯醫院的病房,墻上還殘留著當年的病床支架和插座。如今的實驗室已經遠離了醫院的喧鬧,被各類計算機和影像儀器所占據。生物醫學領域,基于機器和數據,而不用和濕漉漉的培養基或組織器官打交道的“干科學”(dry science)逐漸成為了領域熱門。據醫藥研究機構 Signify Research 的數據預測,5年內光醫療影像和AI這一個細分領域的市場就將超過20億美元,其中深度學習技術更是占據了半壁江山。診斷正在逐漸從病人身上分離,轉入機器。

圖:作者和希維爾德森在他的實驗室

然而,人們需要對機器能做什么、不能做什么有清晰的認識。目前AI的主要成就,是給人類醫生的判斷打底子,而不是自行下達判斷。比如希維爾德森所做的工作之一,是利用機器來學習高精度圖片的特征,然后據此把低清圖片“算”成高精圖片——換言之,就是去馬賽克。有些時候醫生手頭的設備不夠先進,另一些時候醫生需要實時觀察圖像,這些時候的低分辨率圖片都可以在機器學習幫助下變得高清。

的確,圖像識別是目前的AI最擅長的事情之一。大概從2013年開始,AI在這一個領域的能力就開始飛速發展;2015年,在谷歌ImageNet數據庫訓練下的機器,人臉識別能力已經超過了人類。這得益于機器能夠在相對短的時間內吃進海量的影像數據,并通過深度神經網絡各個層級進行分析、學習,成為閱“片”無數、經驗豐富的“老醫生”。希維爾德森和特拉雅諾娃所做的事情,都是利用AI的這方面長處,給予醫生以診斷輔助,讓醫生“看”得更清楚、判斷更準確。

可這并不是我們平時想象的“AI看病”。AI是否能對疑難雜癥做出獨立的診斷?

對于有的疾病,讓AI看到影像就做出相應判斷其實不那么難。比如眼科教授尼爾·布萊斯勒(Neil Bressler)正在做的項目,是使用AI技術診斷糖尿病人的眼底病變。由于這種疾病十分常見,數據積累豐富,再加上對于病變的判定相對簡單,目前這個技術已經有了相對成熟的應用場景。然而,觸及到更難的領域,例如癌癥、腫瘤等等,圖像模式十分復雜,很難用一種或者幾種機械的模式概括,機器往往會卡在這種人腦依靠模擬(analogy)判斷的地方。而有的病變本身也十分罕見,根本無法形成值得信賴的數據庫。換句話說,現在還無法像訓練一個真正的醫生一樣訓練AI。

而更根本的矛盾還在后面:就算數據夠多、計算能力夠強,AI能夠取代人類判斷嗎?

圖:電視劇《西部世界》

2

2011年12月,在美國麻省的一家醫院,急救車送來了一個暈倒的老年男性。他立即被安置在了急救病房,安插上體征了監控設備——如果他的生命體征出現危險的波動,設備就會發出警告,召喚護士。這樣一來,護士就不必時時過來查看他的情況了。

然而,第二天,這個老人卻死在了病床上。死之前監控設備的紅燈閃了一夜,但卻被路過的護士一遍接一遍地摁掉。疏于料理的護士當然難辭其咎,然而在深入的調查之后,另外一個問題浮出水面:包括這套系統在內,許多醫院用于自動化監控的裝置所發出的警報,很多是誤報

通常此類自動化系統,會把極其微小的波動當做風險來處理,畢竟,萬一錯過了一個風險,責任就大了,所以廠商都傾向于把機器調得“過度靈敏”,并產生一系列大驚小怪的誤報;反過來,醫護人員則在接連不斷的誤報沖擊下產生了疲勞,忽略了真正的危險。這是一個現代版的“狼來了”。

狼來了問題本身看似是可以解決的:把自動化系統的敏感度調低就行(廠商無疑會不愿這樣做,因為這樣意味著他們自己要直接擔負更多責任,不過這至少原則上是可解的)。但這是本質的問題嗎?人類同樣常常過度敏感,每一個醫生都無數次經歷過家屬大呼小叫、護士匆忙跑來報告異常但最后平安無事的場景,但卻無法想象有多少合格的醫生會因為假警報太多而從此對它們徹底無動于衷、像對待自動系統那樣一遍遍按掉。問題在哪里?

在于人并不信任機器

圖:電影《機械姬》

科幻小說常常把人對機器的猜疑描述成沒來由的非理性行為甚至是災禍的根源,但現實中這樣的不信任其實是有理由的:人和機器的決策方式并不相同。譬如一個簡單的自動化系統也許會監控病人的心率,低于一定數值就報警,但不同病人靜息心率原本就不同,對一個普通人而言危險的低心率,對職業運動員而言也許只是稍微異常。傳統的自動化系統只能在事先設好的規則內行事,超出規則就無能為力了

今天最火的AI路線——深度學習看起來有望打破這個限制,但它帶來了一整套新的問題。最近通過FDA審批的一個叫做“WAVE”的診斷平臺,能夠綜合病人各項身體指標,通過深度學習的算法,給出“病人什么時候會進入病危狀態”的預測。然而,《科學》(Science)2019年3月的一篇評論文章指出,不像是藥品或者其它醫藥設備,機器學習為內核的算法并非一個邏輯確定的系統,里面涵蓋了上千個互相牽涉的指標,也會根據訓練數據的不同產生不同的效果,究竟是否存在確鑿無疑、讓人百分百信服的因果聯系(就像你站在體重秤上的數字從不撒謊一樣),很難說清。

而治病救人的醫學,恰恰最需要穩定且可重復的證據支撐。

循證的過程需要控制變量,得出A和B之間確鑿的因果聯系,例如病人吃了A藥之后,就是比吃安慰劑的效果要好,那么A藥毫無疑問發揮了作用;而這種藥在一小部分病人中產生的作用,和大部分病人相似,是可以重復的。深層到藥物作用的機制和原理,則更需要有大量的動物實驗打底,厘清一個化合物和病菌、器官、神經之間的具體聯系。然而,目前主流的深度學習的技術卻是吃進數據、吐出結果的 “黑箱”,很難照著這個方式循證。再加上機器學習的核心——數據本身就具有不確定性,更為人工智能的普適性和可重復性提出了問題。

在2019年2月華盛頓美國科學促進會(AAAS)的年會上,賴斯大學(Rice University)數據科學教授吉內薇拉·阿倫(Genevera Allen)用一系列事例直擊了這個問題的核心。當下,有不少團隊都在癌癥相關的基因上做文章,輸入癌癥患者的基因組和病例數據,用機器學習的方式分析出幾個不同的亞型(Sub-type),并在這個基礎上開發靶向藥物。這也是承襲乳腺癌的成功先例——根據基因表達的不同,乳腺癌可以分為10多種亞型,每一種的具體治療方案和預后都不同。但是這種模式可以套到所有的癌癥上嗎?把大量數據“喂”給機器,機器真的能依靠數據模式給出靠譜的分類嗎?

圖:Genevera Allen,來源:EurekAlert!

她綜合了一些研究結果,發現在某個樣本的數據上表現出色的算法,不一定適用于所有情況,也并不能重復,在這種分類的基礎上得出的診療意見,自然也是無意義的。“兩個團隊用不一樣的數據,很可能得到完全不重合的亞型分類,”阿倫在會議報告上說。“這些‘發現’真的具有科學價值嗎?背后是否有可靠的醫學證據支撐?”

她表示,如果繼續這樣發展,醫療科學很有可能陷入“危機”。雖然有點悲觀,但也不無道理。畢竟,不靠譜的算法在亞馬遜上給你推薦一本你不喜歡的書,你不買就好了;但是“推薦”一個療法,有時候卻是關乎生死的。當然,這并不是說人類醫生不會犯錯誤。但在面對錯誤的時候,醫學診斷的循證基礎,能夠給我們提供充足的條件復盤錯誤、并探求避免的方法。而面對人工智能的黑箱,我們甚至很難知道機器為什么會錯,應該如何糾正。

一邊是人工智能領域大幅提高的計算能力與不斷優化的算法,另一邊卻是臨床醫學對于證據的謹慎。在不同的學科進行交叉和對話的同時,兩邊是否在使用同一套語言體系,成為了解決問題的關鍵。

3

這個年代最常聽到的一句話,是“什么專業都得寫代碼”。的確,像希維爾德森和布萊斯勒的實驗室里,懂醫學和懂計算機同等重要,甚至還需要統計等數據科學。越來越多的研究者開始惡補相關知識,注冊線上課程,甚至去跟本科生擠教室。許多老教授也拉下面子,向年輕博士生和博士后取經。

而隨著大數據和人工智能的廣泛應用,醫生們也要開始懂得怎樣跑數據,即使不會編程也必須明曉其中的原理。“(數據科學)就像另一門語言,或者好幾門語言,”英國惠康基金會桑格研究所的研究員蔡娜在接受 Mosaic Science 采訪時的一席話,說出了生物、醫藥研究人員的心聲。“我不得不把之前大腦中的生化路徑、流程圖,轉化成編程代碼。”

從某種程度上講,編程和數據成為醫學領域最重要的能力之一。然而,計算機領域和醫學領域的學科邏輯和評價標準,卻存在一些分歧。特拉雅諾娃說,“現在太多人醉心于技術細節的提升,你去參加一個學術會議,到處都是跟你吹噓自己的技術表現有多好,算法性能有多棒,然后在核心期刊上發了多少論文——這是他們領域的‘語言’。但最后能達到什么效果呢?” 說到這里,特拉雅諾娃搖了搖頭。

“現有的大部分算法,包括診斷和預測等,都不是在傳統的醫學范式下研究出來的,不能直接體現醫學所需要的指標,即使一些已經投入應用了,但可靠度、可應用程度等,都需要進一步驗證。”賓夕法尼亞大學醫學院血液和腫瘤專家拉維·帕里克(Ravi Parikh)在電話里對我說。“他在《科學》期刊上發表的評論文章談及了這個問題:當下的許多醫療人工智能相關的研究,都以計算能力、反應速度、概率分布曲線等作為指標,比如一個算法能夠把判斷某種征兆的速度提高百分之幾之類。但是,這到底在臨床上意味著什么?這對病人的治療效果有多大增益?速度提高了,但誤診率呢?病人接受了這個診斷,是否病程變短、返診率下降?這些所謂 “落腳點”(endpoint)才是醫學關心的指標,也是監管機構是否給某個技術放行的依據。

一言以蔽之,人工智能想要治病救人,必須要接受醫學標準的審視。特拉雅諾娃深知其中的不易,前文提到的3D造影技術即將投入大規模臨床實驗,最終的評判標準并不是技術、性能,而是手術的成功率。“接受了手術的病人,究竟有多少不用返工重來?返診率是多少?”能夠讓臨床醫生徹底掌握這個技術,把除顫手術目前接近40%的返診率大幅降低,才是這個技術成功的標志。

圖:作者和特拉雅諾娃合影

希維爾德森也表示,算法必須要“翻譯”成為醫學實驗的成果方才能稱之為醫療,定量的測試和評估是一切的基礎。而在臨床實驗中,需要照顧的不僅僅是數據,還有病人。“要驗證現有技術的可用性、可靠性和效果,目前通用的方式是回溯性分析研究,這樣才能在不影響病人的治療水平的前提下得到好的結果,并且也需要倫理委員會的批準。”

而且,我們必須誠實面對算法的局限。所有的藥物都有副作用和適用人群,同樣,做人工智能的人也必須從“用算法去解決普適性問題”的思維中跳出,重視應用情景、數據來源和數據質量等等,學會醫學語言的謹慎。監管也必須面對一些關鍵挑戰——例如,如何保證數據的多樣性,如何打開人工智能和機器學習的“黑箱”,確定一個算法的具體原理與醫學證據之間的聯系。 “目前可以做的是建立完善的事后審計機制(auditing system),追蹤算法和數據之間的關系,以及可能出現的數據偏差。”帕里克說,“但最后,一定還是落在臨床的表現上,保證效用和可重復性。

4

我在希維爾德森的實驗室里看到了一個比乒乓球略小的3D打印模型,質感柔韌,中間的裂痕用細密的針腳縫了起來。“這是一個有著先天心臟缺陷嬰兒的心臟的一部分。”希維爾德森對我解釋道,“我們用當前的造影技術,結合人工智能技術為心臟建模,然后打印出來供進行手術的醫生練手。”

圖:心臟模型

看著這個小小的模型,我仿佛能看到主刀醫生和助手們圍在屏幕前討論手術方案,仔細觀察和打量模型,思考著從哪里入手——這才是人機的完美配合,也是當下的醫療技術帶來的最實際的進步。“在診斷和治療中,一個醫生的訓練、經驗和觀察依然是最重要的。即使是最好的技術,也只能是增強醫生的知識和能力,而不是替代。” 希維爾德森說。

帕里克也認為,我們不應該拿人工智能和醫生相比。關鍵并不在于人工智能本身的能力,而是人工智能和現有的醫學條件結合,能夠發揮多大的功效。醫生多年所見、所識、所領悟的并不能完全被翻譯成數據、變成機器學習的資料;而人工智能亦有更精準的觀察、更快的速度和永不疲倦的眼。談論“醫生+算法”的效果,遠比談論如何替代、或者誰比誰好要更有意義。

未來的醫療場景,一定不是病人被送進機器人醫生的診所,進行全身掃描之后得到“智能”的診療,而是可復制、可量產的機器,為醫生提供足夠多有價值的參考,節省更多人力物力,讓診療變得更普及、更平民、更快捷。醫療人工智能領域的科技樹不是沖著天空、往高處長,而是伸開枝葉,為更多的人提供安全和健康的蔭蔽。

這個未來甚至并不遙遠,腳踏實地一定走得到。(編輯/Ent)

(拇姬對本文有重要貢獻;感謝美國科學促進會AAAS提供訪問支持。)

參考資料:

  1. Allen, G. I. (2017). Statistical data integration: Challenges and opportunities. Statistical Modelling, 17(4-5), 332-337.
  2. Parikh, Ravi B., Ziad Obermeyer, and Amol S. Navathe. "Regulation of predictive analytics in medicine." Science 363.6429 (2019): 810-812.
  3. Razzak, Muhammad Imran, Saeeda Naz, and Ahmad Zaib. "Deep learning for medical image processing: Overview, challenges and the future." Classification in BioApps. Springer, Cham, 2018. 323-350.
  4. Giger, M. L. (2018). Machine learning in medical imaging. Journal of the American College of Radiology, 15(3), 512-520.
  5. Tenner, E. (2018). The Efficiency Paradox: What Big Data Can't Do. Knopf.
  6. https://www.bbc.com/news/science-environment-47267081
  7. https://www.wired.com/2017/03/biologists-teaching-code-survive/
  8. https://mosaicscience.com/story/how-big-data-changing-science-algorithms-research-genomics/
  9. https://www.signifyresearch.net/medical-imaging/ai-medical-imaging-top-2-billion-2023/

題圖來源:圖蟲創意

The End

發布于2019-03-28, 本文版權屬于果殼網(guokr.com),禁止轉載。如有需要,請聯系果殼。 如在其他平臺看到此文章被盜用,請告訴我們(文章版權保護服務由維權騎士提供)

李子李子短信

社科碩士,博物館愛好者,果殼作者

pic
    广东快乐十分走势图开奖