阮彤：DeepSeek醫(yī)療行業(yè)最后一公里沖刺，花落誰(shuí)家？

發(fā)布時(shí)間：2025-02-26

　　近期，DeepSeek由于對(duì)比其他大模型，具有一定的推理能力，迅速成為業(yè)界討論的焦點(diǎn)。在醫(yī)療信息化快速發(fā)展的當(dāng)下，大量醫(yī)院將DeepSeek等AI模型進(jìn)行院內(nèi)部署。然而，諸如DeepSeek等大模型要用于醫(yī)院真實(shí)場(chǎng)景，仍然存在不足。本文從醫(yī)療決策、醫(yī)療質(zhì)控指標(biāo)計(jì)算以及模型內(nèi)核三個(gè)角度，分析目前以DeepSeek為代表的大模型依然存在的問(wèn)題。

一

存在的問(wèn)題

　　1.缺乏精準(zhǔn)性

　　在醫(yī)療決策任務(wù)中，DeepSeek模型的回答存在大量冗余信息。然而，實(shí)際的醫(yī)療決策場(chǎng)景下通常需要給予精準(zhǔn)且直接的信息，避免無(wú)關(guān)的干擾。例如，在多輪問(wèn)答場(chǎng)景中，患者提供主訴，我們讓DeepSeek模型來(lái)模擬醫(yī)生提供對(duì)應(yīng)的處理方案。我們分別測(cè)試了兩種提示下DeepSeek的表現(xiàn)：第一種提示中沒(méi)有要求使用精煉的表達(dá)，第二種提示中明確要求使用精煉的表達(dá)，具體對(duì)比見(jiàn)下圖所示。我們可以發(fā)現(xiàn)兩種提示下DeepSeek模型都會(huì)生成冗余的治療信息，標(biāo)準(zhǔn)的醫(yī)生回答應(yīng)該是“建議做個(gè)心電圖，同時(shí)需要測(cè)量血壓有無(wú)異常，根據(jù)檢查結(jié)果確定是否需要進(jìn)行進(jìn)一步的評(píng)估。在未行心電圖不明確心律情況時(shí)不建議服用任何藥物”。因此僅僅使用DeepSeek模型進(jìn)行回復(fù)仍然需要醫(yī)生或醫(yī)療專(zhuān)業(yè)人員花費(fèi)額外時(shí)間篩選有用信息，從而影響決策效率。

　　2.難以計(jì)算復(fù)雜邏輯

　　對(duì)于醫(yī)療中的一些復(fù)雜邏輯計(jì)算問(wèn)題，DeepSeek模型的表現(xiàn)不盡人意。例如，我們使用DeepSeek計(jì)算了“冠脈介入治療術(shù)后即刻冠狀動(dòng)脈造影成功率”分?jǐn)?shù)并提供了該指標(biāo)的定義，具體樣例見(jiàn)下圖所示。在根據(jù)病歷計(jì)算該指標(biāo)時(shí)發(fā)現(xiàn)當(dāng)前病歷并沒(méi)有給出明確的TIMI血流分級(jí)，然而DeepSeek模型自行推理，導(dǎo)致沒(méi)有按照規(guī)則進(jìn)行邏輯推理。

　　3.其他通用問(wèn)題

　　(1)上下文理解不足：DeepSeek在生成文本時(shí)，通常僅考慮局部上下文信息，缺乏對(duì)全局語(yǔ)境的深入理解。這種局部理解可能導(dǎo)致模型在面對(duì)復(fù)雜的醫(yī)療語(yǔ)境時(shí)產(chǎn)生誤解或錯(cuò)誤的推斷。尤其是在處理多輪對(duì)話或復(fù)雜病歷時(shí)，模型可能錯(cuò)過(guò)關(guān)鍵的上下文信息，影響最終推理結(jié)果的準(zhǔn)確性。

　　(2)幻覺(jué)問(wèn)題：DeepSeek的訓(xùn)練數(shù)據(jù)往往來(lái)源于互聯(lián)網(wǎng)上的大規(guī)模文本語(yǔ)料庫(kù)，里面可能包含大量不準(zhǔn)確或誤導(dǎo)性的信息。如果模型在訓(xùn)練過(guò)程中過(guò)度依賴(lài)這些數(shù)據(jù)，可能會(huì)生成不準(zhǔn)確的事實(shí)內(nèi)容，尤其是在醫(yī)療領(lǐng)域，錯(cuò)誤的信息可能會(huì)直接影響患者的治療。

　　(3)缺乏知識(shí)：盡管DeepSeek能夠?qū)W習(xí)到廣泛的語(yǔ)言知識(shí)，但在一些專(zhuān)業(yè)領(lǐng)域，尤其是醫(yī)學(xué)領(lǐng)域，模型的知識(shí)儲(chǔ)備可能存在不足。例如，對(duì)于特定疾病的診斷標(biāo)準(zhǔn)、最新的治療方案等，模型可能無(wú)法提供完全準(zhǔn)確或時(shí)效性強(qiáng)的信息，影響臨床決策的可信度。

二

解決方案

　　1.優(yōu)化大模型訓(xùn)練過(guò)程

　　為了提升DeepSeek在醫(yī)療決策中的精準(zhǔn)性和可靠性，需要在大模型訓(xùn)練過(guò)程中引入更多高質(zhì)量的醫(yī)療數(shù)據(jù)集，并進(jìn)行針對(duì)性的微調(diào)。通過(guò)結(jié)合醫(yī)學(xué)專(zhuān)業(yè)知識(shí)和實(shí)際醫(yī)療數(shù)據(jù)，模型能夠更好地理解疾病的診斷標(biāo)準(zhǔn)、治療方法及評(píng)估指標(biāo)，從而在醫(yī)療任務(wù)中產(chǎn)生更加精準(zhǔn)的回答。此外，采用多任務(wù)學(xué)習(xí)的方法，訓(xùn)練模型同時(shí)處理多種醫(yī)療任務(wù)(如診斷、治療方案推薦、臨床預(yù)測(cè)等)，不僅可以提高模型的綜合能力，還能在不同任務(wù)間共享知識(shí)，優(yōu)化整體性能。

　　2.將大模型作為底層，搭建面向業(yè)務(wù)的中間件框架，用智能體將這些框架關(guān)聯(lián)起來(lái)。主要包括以下內(nèi)容：

　　RAG框架：通過(guò)將DeepSeek與外部醫(yī)療知識(shí)庫(kù)結(jié)合，構(gòu)建基于檢索增強(qiáng)生成(RAG)系統(tǒng)，模型可以在生成回答時(shí)實(shí)時(shí)查詢(xún)權(quán)威醫(yī)療信息，從而提高回答的準(zhǔn)確性和可信度。這一方法能夠有效減少“幻覺(jué)問(wèn)題”，因?yàn)槟Ｐ蛯⒁罁?jù)實(shí)時(shí)更新的外部知識(shí)庫(kù)進(jìn)行推理，而非完全依賴(lài)已有的訓(xùn)練數(shù)據(jù)。

　　Text2Rule引擎：將文本需求轉(zhuǎn)換成規(guī)則與代碼，避免邏輯和科學(xué)計(jì)算的錯(cuò)誤，提升執(zhí)行的精度。

　　Agent框架：幫助模型更好地處理復(fù)雜邏輯，尤其是在涉及專(zhuān)業(yè)計(jì)算和多步驟推理時(shí)。通過(guò)與醫(yī)療專(zhuān)業(yè)知識(shí)庫(kù)的結(jié)合，DeepSeek模型可以實(shí)現(xiàn)更為精確的推理和計(jì)算，確保其在醫(yī)療領(lǐng)域的應(yīng)用更加符合專(zhuān)業(yè)標(biāo)準(zhǔn)。

三

前沿探索

　　針對(duì)上述問(wèn)題，華東理工大學(xué)自然語(yǔ)言處理與大數(shù)據(jù)挖掘?qū)嶒?yàn)室團(tuán)隊(duì)提出了大模型中間件的概念，并在多個(gè)方面進(jìn)行了深入的探索和創(chuàng)新，取得了一些階段性成果。首先，CMQCIC-Bench1為醫(yī)療質(zhì)量控制指標(biāo)的計(jì)算提供了一個(gè)中文基準(zhǔn)，能夠有效評(píng)估大語(yǔ)言模型在該領(lǐng)域的表現(xiàn)。其次，MedOdyssey2針對(duì)醫(yī)療領(lǐng)域長(zhǎng)上下文的處理，提供了一個(gè)新的基準(zhǔn)，支持對(duì)最大可達(dá)20萬(wàn)token的上下文進(jìn)行評(píng)估，極大地提升了模型對(duì)長(zhǎng)篇病歷的理解能力。最后，MSDiagnosis3則為多步臨床診斷任務(wù)提供了評(píng)估標(biāo)準(zhǔn)，幫助我們?cè)诙嚯A段診斷推理中測(cè)試模型的精準(zhǔn)性和邏輯性。這些探索為未來(lái)智能醫(yī)療的落地應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。

　　參考文獻(xiàn)

　　1.CMQCIC-Bench: A Chinese Benchmark for Evaluating Large Language Models in Medical Quality Control Indicator Calculation https://arxiv.org/pdf/2502.11703

　　2.MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens https://arxiv.org/pdf/2406.15019

　　3.MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis https://arxiv.org/pdf/2408.10

　　作者簡(jiǎn)介

　　阮彤，CHIMA委員，華東理工大學(xué)信息科學(xué)與工程學(xué)院計(jì)算機(jī)系博導(dǎo)，教授。現(xiàn)任華東理工大學(xué)計(jì)算機(jī)技術(shù)研究所所長(zhǎng)，自然語(yǔ)言處理與大數(shù)據(jù)挖掘?qū)嶒?yàn)室主任。長(zhǎng)期從事自然語(yǔ)言處理、知識(shí)圖譜、醫(yī)學(xué)人工智能等方面的研究。

上一篇：黃昊、陳俊羲：DeepSeek應(yīng)用實(shí)踐探索【附2月27日直播預(yù)告】

下一篇：安志萍：探討特征貢獻(xiàn)度在醫(yī)療診斷模型中的應(yīng)用及效果評(píng)估

久久97久久-久久97人人-久久97人人超人人超碰超国产-久久99-久久999国产免费-久久999精品

阮彤：DeepSeek醫(yī)療行業(yè)最后一公里沖刺，花落誰(shuí)家？