趙敏:淺談多模態(tài)醫(yī)學(xué)數(shù)據(jù)融合分析
隨著醫(yī)療信息化的快速發(fā)展以及醫(yī)療設(shè)備的更新迭代,海量且類型多樣的醫(yī)學(xué)數(shù)據(jù)應(yīng)運(yùn)而生。根據(jù)目前醫(yī)學(xué)數(shù)據(jù)所展示的具體信息和形式,我們可以將其大致分為三大類:
1.臨床文本數(shù)據(jù)。主要包括血紅蛋白、尿常規(guī)等結(jié)構(gòu)化的檢驗(yàn)數(shù)據(jù),以及醫(yī)生記錄的患者主訴、病理文本等非結(jié)構(gòu)化的文本數(shù)據(jù);
2.影像、波形數(shù)據(jù)。包括超聲圖像、CT圖像、核磁共振圖像等影像數(shù)據(jù)和心電圖、腦電圖等信號(hào)數(shù)據(jù);
3.生物組學(xué)數(shù)據(jù)。按照不同的分子層面又可以分為基因組、轉(zhuǎn)錄組、蛋白組等。獲取患者相關(guān)數(shù)據(jù)的每類方式均為一種數(shù)據(jù)模態(tài),不同模態(tài)的醫(yī)學(xué)數(shù)據(jù)都從特定的角度提供了患者的診療信息,信息間既有重疊又有互補(bǔ),結(jié)合多種類的醫(yī)學(xué)信息則進(jìn)一步提高了診斷治療的準(zhǔn)確性。
在大數(shù)據(jù)時(shí)代背景下,算法工具和數(shù)據(jù)分析技術(shù)的不斷創(chuàng)新也極大地促進(jìn)了多模態(tài)數(shù)據(jù)融合分析的發(fā)展。近十年來(lái)國(guó)家自然基金項(xiàng)目醫(yī)學(xué)科學(xué)類中,關(guān)于多模態(tài)醫(yī)學(xué)研究項(xiàng)目數(shù)量逐年穩(wěn)步增多,資助金額也呈增長(zhǎng)趨勢(shì)(圖1)。盡管如此,基于多模態(tài)數(shù)據(jù)的智能診療大部分仍處于理論方法研究階段,距離實(shí)際臨床應(yīng)用還有一段距離。
圖1 近十年多模態(tài)醫(yī)學(xué)研究國(guó)家自然基金項(xiàng)目統(tǒng)計(jì)
在多模態(tài)醫(yī)學(xué)數(shù)據(jù)研究方面,我們小組正在利用口腔癌多模態(tài)數(shù)據(jù)進(jìn)行初步探索。口腔癌是發(fā)生于口腔黏膜的惡性腫瘤,是世界十大最常見癌癥之一,具有發(fā)病率高、病情發(fā)展快和易轉(zhuǎn)移等特點(diǎn)。目前臨床診斷僅基于醫(yī)生觸診和CT等影像檢查,并不能對(duì)頸部淋巴結(jié)轉(zhuǎn)移情況進(jìn)行準(zhǔn)確評(píng)估。針對(duì)上述問題,我們的研究目標(biāo)是綜合利用影像組學(xué)、基因組學(xué)、臨床信息等不同維度的表征,實(shí)現(xiàn)術(shù)前預(yù)測(cè)口腔鱗狀細(xì)胞癌患者是否發(fā)生頸部淋巴結(jié)轉(zhuǎn)移,以指導(dǎo)治療方案的恰當(dāng)選擇。
口腔癌淋巴結(jié)轉(zhuǎn)移研究技術(shù)路線如下(見圖2):首先將我院近十年行頸淋巴結(jié)清掃術(shù)的口腔鱗狀細(xì)胞癌患者分為發(fā)生和未發(fā)生頸部淋巴結(jié)轉(zhuǎn)移兩組,根據(jù)患者ID提取病理檢驗(yàn)和CT、MRI影像等數(shù)據(jù),然后通過自然語(yǔ)言處理技術(shù)對(duì)病理文本進(jìn)行特征抽取,得到淋巴結(jié)大小、活動(dòng)度等臨床特征集;將人工標(biāo)注后的醫(yī)學(xué)影像通過深度學(xué)習(xí)技術(shù)提取圖像的紋理特征等量化后得到影像特征集,基于該部分患者的臨床和影像特征建立轉(zhuǎn)移預(yù)測(cè)模型。
圖2 口腔癌淋巴結(jié)轉(zhuǎn)移研究技術(shù)路線
由于缺少患者的組學(xué)信息,在基因組學(xué)數(shù)據(jù)方面,我們首先對(duì)公共數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行重新分組和再分析,以挖掘出與淋巴結(jié)轉(zhuǎn)移相關(guān)的特征基因并建立預(yù)測(cè)模型。最后對(duì)兩個(gè)模型進(jìn)行決策融合。目前該項(xiàng)目已有部分結(jié)果,但尚在進(jìn)行中,因此暫不作展示。
最后結(jié)合我們實(shí)際工作經(jīng)驗(yàn),發(fā)現(xiàn)目前在多模態(tài)醫(yī)學(xué)數(shù)據(jù)具體分析和應(yīng)用中主要面臨著如下問題:
1.數(shù)據(jù)完整性差。同時(shí)具備患者的檢查檢驗(yàn)信息以及生物組學(xué)信息等多模態(tài)數(shù)據(jù)的有效樣本少,對(duì)于醫(yī)院來(lái)說(shuō)基因組學(xué)信息尚未整合到電子病歷系統(tǒng)中,而測(cè)序公司有大量的測(cè)序數(shù)據(jù)但沒有患者的相應(yīng)的臨床資料,所以目前的大多數(shù)研究都是基于小樣本建立診斷預(yù)測(cè)模型;
2.數(shù)據(jù)內(nèi)部存在異質(zhì)性。在數(shù)據(jù)處理過程中我們發(fā)現(xiàn)檢驗(yàn)數(shù)據(jù)因?yàn)闄z驗(yàn)儀器設(shè)備不同而引起標(biāo)準(zhǔn)不同,影像數(shù)據(jù)又存在著設(shè)備的品牌不同導(dǎo)致所采集的醫(yī)學(xué)影像間存在差異,生物組學(xué)數(shù)據(jù)不同的樣本處理方式及測(cè)序平臺(tái)也不能直接進(jìn)行比較分析;
3.多模態(tài)、跨模態(tài)醫(yī)學(xué)數(shù)據(jù)的融合算法研究尚未成熟;
4.研究協(xié)作機(jī)制不完善。多模態(tài)醫(yī)學(xué)數(shù)據(jù)融合分析屬于多學(xué)科交叉領(lǐng)域,需要臨床醫(yī)生、統(tǒng)計(jì)分析工程師、算法工程師、生物信息工程師等各學(xué)科背景的人反復(fù)溝通交流確定研究方案。