久久97久久-久久97人人-久久97人人超人人超碰超国产-久久99-久久999国产免费-久久999精品

阮彤:DeepSeek醫(yī)療行業(yè)最后一公里沖刺,花落誰(shuí)家?

發(fā)布時(shí)間:2025-02-26
瀏覽次數(shù):

  近期,DeepSeek由于對(duì)比其他大模型,具有一定的推理能力,迅速成為業(yè)界討論的焦點(diǎn)。在醫(yī)療信息化快速發(fā)展的當(dāng)下,大量醫(yī)院將DeepSeek等AI模型進(jìn)行院內(nèi)部署。然而,諸如DeepSeek等大模型要用于醫(yī)院真實(shí)場(chǎng)景,仍然存在不足。本文從醫(yī)療決策、醫(yī)療質(zhì)控指標(biāo)計(jì)算以及模型內(nèi)核三個(gè)角度,分析目前以DeepSeek為代表的大模型依然存在的問(wèn)題。

存在的問(wèn)題

  1.缺乏精準(zhǔn)性

  在醫(yī)療決策任務(wù)中,DeepSeek模型的回答存在大量冗余信息。然而,實(shí)際的醫(yī)療決策場(chǎng)景下通常需要給予精準(zhǔn)且直接的信息,避免無(wú)關(guān)的干擾。例如,在多輪問(wèn)答場(chǎng)景中,患者提供主訴,我們讓DeepSeek模型來(lái)模擬醫(yī)生提供對(duì)應(yīng)的處理方案。我們分別測(cè)試了兩種提示下DeepSeek的表現(xiàn):第一種提示中沒(méi)有要求使用精煉的表達(dá),第二種提示中明確要求使用精煉的表達(dá),具體對(duì)比見(jiàn)下圖所示。我們可以發(fā)現(xiàn)兩種提示下DeepSeek模型都會(huì)生成冗余的治療信息,標(biāo)準(zhǔn)的醫(yī)生回答應(yīng)該是“建議做個(gè)心電圖,同時(shí)需要測(cè)量血壓有無(wú)異常,根據(jù)檢查結(jié)果確定是否需要進(jìn)行進(jìn)一步的評(píng)估。在未行心電圖不明確心律情況時(shí)不建議服用任何藥物”。因此僅僅使用DeepSeek模型進(jìn)行回復(fù)仍然需要醫(yī)生或醫(yī)療專(zhuān)業(yè)人員花費(fèi)額外時(shí)間篩選有用信息,從而影響決策效率。

1.jpg

  2.難以計(jì)算復(fù)雜邏輯

  對(duì)于醫(yī)療中的一些復(fù)雜邏輯計(jì)算問(wèn)題,DeepSeek模型的表現(xiàn)不盡人意。例如,我們使用DeepSeek計(jì)算了“冠脈介入治療術(shù)后即刻冠狀動(dòng)脈造影成功率”分?jǐn)?shù)并提供了該指標(biāo)的定義,具體樣例見(jiàn)下圖所示。在根據(jù)病歷計(jì)算該指標(biāo)時(shí)發(fā)現(xiàn)當(dāng)前病歷并沒(méi)有給出明確的TIMI血流分級(jí),然而DeepSeek模型自行推理,導(dǎo)致沒(méi)有按照規(guī)則進(jìn)行邏輯推理。

2.jpg

  3.其他通用問(wèn)題

  (1)上下文理解不足:DeepSeek在生成文本時(shí),通常僅考慮局部上下文信息,缺乏對(duì)全局語(yǔ)境的深入理解。這種局部理解可能導(dǎo)致模型在面對(duì)復(fù)雜的醫(yī)療語(yǔ)境時(shí)產(chǎn)生誤解或錯(cuò)誤的推斷。尤其是在處理多輪對(duì)話或復(fù)雜病歷時(shí),模型可能錯(cuò)過(guò)關(guān)鍵的上下文信息,影響最終推理結(jié)果的準(zhǔn)確性。

  (2)幻覺(jué)問(wèn)題:DeepSeek的訓(xùn)練數(shù)據(jù)往往來(lái)源于互聯(lián)網(wǎng)上的大規(guī)模文本語(yǔ)料庫(kù),里面可能包含大量不準(zhǔn)確或誤導(dǎo)性的信息。如果模型在訓(xùn)練過(guò)程中過(guò)度依賴(lài)這些數(shù)據(jù),可能會(huì)生成不準(zhǔn)確的事實(shí)內(nèi)容,尤其是在醫(yī)療領(lǐng)域,錯(cuò)誤的信息可能會(huì)直接影響患者的治療。

  (3)缺乏知識(shí):盡管DeepSeek能夠?qū)W習(xí)到廣泛的語(yǔ)言知識(shí),但在一些專(zhuān)業(yè)領(lǐng)域,尤其是醫(yī)學(xué)領(lǐng)域,模型的知識(shí)儲(chǔ)備可能存在不足。例如,對(duì)于特定疾病的診斷標(biāo)準(zhǔn)、最新的治療方案等,模型可能無(wú)法提供完全準(zhǔn)確或時(shí)效性強(qiáng)的信息,影響臨床決策的可信度。

解決方案

  1.優(yōu)化大模型訓(xùn)練過(guò)程

  為了提升DeepSeek在醫(yī)療決策中的精準(zhǔn)性和可靠性,需要在大模型訓(xùn)練過(guò)程中引入更多高質(zhì)量的醫(yī)療數(shù)據(jù)集,并進(jìn)行針對(duì)性的微調(diào)。通過(guò)結(jié)合醫(yī)學(xué)專(zhuān)業(yè)知識(shí)和實(shí)際醫(yī)療數(shù)據(jù),模型能夠更好地理解疾病的診斷標(biāo)準(zhǔn)、治療方法及評(píng)估指標(biāo),從而在醫(yī)療任務(wù)中產(chǎn)生更加精準(zhǔn)的回答。此外,采用多任務(wù)學(xué)習(xí)的方法,訓(xùn)練模型同時(shí)處理多種醫(yī)療任務(wù)(如診斷、治療方案推薦、臨床預(yù)測(cè)等),不僅可以提高模型的綜合能力,還能在不同任務(wù)間共享知識(shí),優(yōu)化整體性能。

  2.將大模型作為底層,搭建面向業(yè)務(wù)的中間件框架,用智能體將這些框架關(guān)聯(lián)起來(lái)。主要包括以下內(nèi)容:

  RAG框架:通過(guò)將DeepSeek與外部醫(yī)療知識(shí)庫(kù)結(jié)合,構(gòu)建基于檢索增強(qiáng)生成(RAG)系統(tǒng),模型可以在生成回答時(shí)實(shí)時(shí)查詢(xún)權(quán)威醫(yī)療信息,從而提高回答的準(zhǔn)確性和可信度。這一方法能夠有效減少“幻覺(jué)問(wèn)題”,因?yàn)槟P蛯⒁罁?jù)實(shí)時(shí)更新的外部知識(shí)庫(kù)進(jìn)行推理,而非完全依賴(lài)已有的訓(xùn)練數(shù)據(jù)。

  Text2Rule引擎:將文本需求轉(zhuǎn)換成規(guī)則與代碼,避免邏輯和科學(xué)計(jì)算的錯(cuò)誤,提升執(zhí)行的精度。

  Agent框架:幫助模型更好地處理復(fù)雜邏輯,尤其是在涉及專(zhuān)業(yè)計(jì)算和多步驟推理時(shí)。通過(guò)與醫(yī)療專(zhuān)業(yè)知識(shí)庫(kù)的結(jié)合,DeepSeek模型可以實(shí)現(xiàn)更為精確的推理和計(jì)算,確保其在醫(yī)療領(lǐng)域的應(yīng)用更加符合專(zhuān)業(yè)標(biāo)準(zhǔn)。

前沿探索

  針對(duì)上述問(wèn)題,華東理工大學(xué)自然語(yǔ)言處理與大數(shù)據(jù)挖掘?qū)嶒?yàn)室團(tuán)隊(duì)提出了大模型中間件的概念,并在多個(gè)方面進(jìn)行了深入的探索和創(chuàng)新,取得了一些階段性成果。首先,CMQCIC-Bench1為醫(yī)療質(zhì)量控制指標(biāo)的計(jì)算提供了一個(gè)中文基準(zhǔn),能夠有效評(píng)估大語(yǔ)言模型在該領(lǐng)域的表現(xiàn)。其次,MedOdyssey2針對(duì)醫(yī)療領(lǐng)域長(zhǎng)上下文的處理,提供了一個(gè)新的基準(zhǔn),支持對(duì)最大可達(dá)20萬(wàn)token的上下文進(jìn)行評(píng)估,極大地提升了模型對(duì)長(zhǎng)篇病歷的理解能力。最后,MSDiagnosis3則為多步臨床診斷任務(wù)提供了評(píng)估標(biāo)準(zhǔn),幫助我們?cè)诙嚯A段診斷推理中測(cè)試模型的精準(zhǔn)性和邏輯性。這些探索為未來(lái)智能醫(yī)療的落地應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。

  參考文獻(xiàn)

  1.CMQCIC-Bench: A Chinese Benchmark for Evaluating Large Language Models in Medical Quality Control Indicator Calculation https://arxiv.org/pdf/2502.11703

  2.MedOdyssey: A Medical Domain Benchmark for Long Context Evaluation Up to 200K Tokens https://arxiv.org/pdf/2406.15019

  3.MSDiagnosis: A Benchmark for Evaluating Large Language Models in Multi-Step Clinical Diagnosis https://arxiv.org/pdf/2408.10

  作者簡(jiǎn)介

  阮彤,CHIMA委員,華東理工大學(xué)信息科學(xué)與工程學(xué)院計(jì)算機(jī)系博導(dǎo),教授。現(xiàn)任華東理工大學(xué)計(jì)算機(jī)技術(shù)研究所所長(zhǎng),自然語(yǔ)言處理與大數(shù)據(jù)挖掘?qū)嶒?yàn)室主任。長(zhǎng)期從事自然語(yǔ)言處理、知識(shí)圖譜、醫(yī)學(xué)人工智能等方面的研究。

主站蜘蛛池模板: 波多久久夜色精品国产 | 丰满人妻跪趴高撅肥臀 | 91人人摸人人爽人人爱 | 99国精品午夜福利视频不卡 | 午夜无码无 | 91国语露脸精品高清国产 | 高潮喷水视频一区二区三区 | 日韩av吉吉影音先锋 | 成人福利在线 | 91伊人 | 国产av日韩av另类 | 成人性生交大 | 99精品久久99久久久久久 | 高潮喷水在线观看 | 99精品视频在线观 | 波多野吉衣人妻无码潮喷av | 91欧美国产| 午夜精品久久久久久久无码 | 午夜爱爱免费视频体验区 | 91精品无码中文字幕在线不卡 | 91精品无码人妻在线 | 91桃色视频 | 调戏床上美女 | 白嫩少妇激情无码久久 | 99国产精品无码专区 | 国产91精选二区 | 91精品人妻一 | 成人国产 | 91精品啪国产在线观看 | 一区二区三区日韩在线 | 国产av丝袜旗袍无码网站 | 91福利影院 | 91麻豆国产级在线 | 国产av日韩一区二区三区精品 | 91麻豆国产福利品精 | 1区2区3区产品乱码免费官方最 | 成人一在线视频日韩国产 | 午夜一级免费视频 | 91在线蜜桃臀 | 91久久免费视频(免费)在线观看 | 丰满少妇bbwbbw |