人工智能技术在罕见病临床决策系统的需求、现状与挑战

作者:于广军[1] 
单位:上海市儿童医院[1]

摘要

  罕见病的发病率极低,但其总体患病人数不少。罕见病引起的病变后果严重,对患者及其家庭和社会造 成了沉重负担。虽然当前利用基因测序技术、临床决策支持系统结合人工智能技术辅助临床进行遗传病诊断的研究火热,但临床诊断罕见病仍是非常大的技术挑战。 本文简要综述了罕见病临床决策系统,旨在分析人工智能技术在 罕见病中的发展现状和挑战。


全文选读


  罕见病是指发病率极低且仅在极少数人身上发生的疾病或病变,因此又被称为孤儿病。有些罕见病即便在婴儿出生时没有显示出明显症状,也会随着时间推移慢慢出现且病变越来越严重,大部分症状会伴随患者终身。许多罕见病在患者生命早期发病,约有30% 的罕见病儿童会在 5 岁前死亡[1]。较为常见的罕见病有苯丙酮尿症、Wilson 病、黏多糖症、高血氨症和有机酸血症等。罕见病目前没有统一并被广泛接受的定义,世界各国对罕见病的界定存在差异。


  根据世界卫生组织的定义,罕见病是患病人数占总人口 65/100 000 到1/100 000 的疾病或病变。美国在《2002 年罕见病法案》中将患病人口保持在 20 万以内或者患病率为 1/1 500 的疾病定义为罕见病。欧盟对罕见病的定义进行了进一步细化,他们从罕见病的流行范围、发病时长及严重程度对罕见病进行了定义。欧盟将流行范围很小(一般低于 1/2 000)、发病时间长或伴随终生、严重威胁患者生命或患者因此变得相当虚弱、需要多种专门治疗手段的疾病定义为罕见病。


  我国将患病率低于 1/500 000 或新生儿发病率低于 1/10 000 的疾病定义为罕见病[2]。按照美国研究机构的估计,全球大约有 7 000 种罕见病,共影响约 3 亿的人口[3]。按照欧洲研究机构的估计,大约有 5 000~7 000 种罕见病,影响 6%~8% 的人口[4]。据文献报道,中国的罕见病患者人数约有 1 000 万,但考虑到庞大的人口基数,这一数字可能被严重低估[5]。约 75% 的罕见病在出生时或儿童期即可发病,并且部分罕见病即便被及时诊断也缺乏有效的治疗或干预手段,因此罕见病是儿科学中一项亟待突破的关键研究领域[6-7]。

  目前罕见病在临床上面临 3 大难题:(1)罕见病难以诊断,经常漏诊、误诊;(2)罕见病即便被成功诊断,也很难进行临床干预,在约 7 000种罕见病中,目前只有大约 400 种罕见病具备治疗手段[8];(3)罕见病知识文献更新速度快,临床工作者难以及时跟进最新的罕见病研究与诊疗进展。


  当前全球罕见病专家的共识在于越早诊断越有利于预防病情恶化、治疗干预和减少家庭负担。对于大部分可防、可治且相对比较常见的罕见病,如代谢性疾病通过新生儿筛查即可进行及时有效的干预。上海市儿童医院早在 1985 年就成立了新生儿筛查中心,截至 2010 年底已经筛查了超过 100 万新生儿,确诊了 700 多例罕见代谢疾病,通过及时的随访治疗,超过 99% 的患者生活正常,其中还有全国化学竞赛的获奖者[9]。然而,可通过代谢谱筛查出来的罕见病只是一小部分。据统计,目前全球 25% 的罕见病患者需反复就医 5~30 年才能被正确诊断,延误了病情的控制治疗,给患者及其家庭造成了沉重的经济和精神负担[10]。


1 人工智能技术为罕见病诊疗提供机会


  造成罕见病诊断困难的原因很多,究其根本是罕见病的特殊性。首先,罕见病包括约 7 000 种不同疾病,且这些疾病散布于不同科室,各科室的临床医师很少见到真实案例,造成临床医师无法获得诊断经验,在日常诊疗中很难将罕见病与常见相似疾病区分。


  而不准确的临床诊断形成后往往难以纠正,导致患者反复就医。其次,罕见病的诊断方法大多基于基因检测和遗传分析技术,相关技术和知识在大部分医疗机构中尚未普及,即便临床形成了罕见病的预判,获得了基因检测结果,由于罕见病的复杂性和基因检测结果的复杂性,临床医师也很难在数千种疾病中准确诊断。


  临床决策支持系统(clinical decision support system,CDSS)充分利用了海量的医学知识和人工智能分析引擎,并且整合结构化、半结构化或非结构化医学信息,通过人机交互的方式改善和提高了医疗决策效率。CDSS 一直是人工智能领域的热门话题,也是人工智能方法最有价值的应用领域。


  2011 年 IBM 公司推出的 Watson 系统即对医疗领域产生了重大影响,Watson 已与纪念斯隆-凯特琳癌症中心等国际著名医疗机构及国内的一些医院合作尝试进行临床辅助诊疗并取得了重大的成果。基于图像识别的深度学习框架也在医疗图像诊断识别中取得了令人惊叹的成果[11-15],如糖尿病性视网膜病变诊断[16]和皮肤癌诊断[17]等。


  近年来,上海市儿童医院在人工智能和儿童医疗健康领域开展了大量工作:药剂科基于药物基因组学技术开发了儿童精准用药系统,目前已整合进入临床流程,受到美国医疗信息与管理系统学会(Healthcare Information and Management Systems Society,HIMSS)7 级评审专家组的好评;放射科将儿科 X 线图像与深度学习引擎结合,开发了自动化儿童骨龄智能评估系统,该系统目前正在临床推广验证。


  机器学习和人工智能技术在罕见病的诊断中展现了巨大潜力,一方面,现代医疗知识库系统具有海量疾病信息的高效存储、管理和访问能力,方便临床医师快速检索和查询已知罕见病及其研究进展;另一方面,得益于人工智能算法模型的进步,罕见病临床智能辅助决策引擎可以快速综合、归档、识别和辨别罕见病所需信息,对患者症状进行初步评估,减少了临床医师重复烦琐的工作,以便其将更多精力分配到遗传病的辨别、诊断和治疗中。


  上海市儿童医院在罕见病智能辅助诊断系统领域深耕多年,研发了针对儿童罕见病的智能辅助决策系统,经过初期测试评估其精度达到了同类世界先进水平[18]。


根据罕见病辅助诊断的临床应用场景,可以将罕见病 CDSS 分为 3 类(图 1):


  (1)诊断前系统:诊断前系统是医患交流期间使用的系统,一般用于医师的问诊环节,其主要功能在于辅助医师进行病史采集、对疑似罕见病的病例进行风险预警及推荐疑似病例确诊所需的检查和检验,该系统应当具备疾病知识库和疾病表型知识库的交互式检索能力,对推荐的信息给出足够的支持证据,减少临床医师的误判。


  (2)诊断中系统:诊断中系统专门用于临床表型、疾病知识和分子遗传等信息的综合评估,并给出潜在罕见病的候选列表,该系统的主要功能在于综合患者的疾病表型和基因型信息,对已有的 7 000 多种罕见病进行评估打分,辅助临床医师准确诊断。


  (3)诊断后系统:罕见病确诊后,CDSS 需从知识库调取该罕见病的参考治疗方案,供临床医师选择。同时,罕见病 CDSS 还能对既往病例进行回溯,根据历史罕见病病例评估当前病患。此外,利用医院(甚至区域医疗信息系统)的电子病历(electr onic medical record,EMR)数据,基于 EMR 的疾病表型识别技术和罕见病 CDSS 分析引擎,可挖掘并识别反复就医、具备特殊疾病表型的患者,建立高风险疾病队列,并给予特殊的临床指导和干预。


  目前国际上主要的罕见病 CDSS 主要集中于第 1 类和第 2 类,本文列举了一些有代表性的工具资源(表 1)。



2 罕见病 CDSS 中的人工智能技术


  典型的 CDSS 至少应该包含 3 个主要部分:知识库、推理引擎和人机交互系统。罕见病 CDSS 是典型的强知识库型 CDSS,知识库系统是其核心组件,本文将从罕见病中涉及的人工智能技术和知识库系统 2 个部分简单介绍罕见病的 CDSS。

2.1 疾病表型分析系统


  在传统的罕见病诊断过程中,临床医师主要依靠人工加互联网搜索的方式对患者进行疾病表型的描述。但在临床实践中,因为诸多原因往往很难获得患者精准、全面的表型描述。罕见病 CDSS 的第 1 个应用场景就是辅助临床医师进行精准、全面的患者表型注释。


  除利用 CDSS 的交互式检索能力外,近年来基于人工智能技术还发展出了一些新兴的疾病表型分型技术,这些技术均可被称为“下一代疾病表型分型技术”。如基于图像等高维数据的疾病表型分型技术,face2gene 软件可利用患者的脸部照片对面部特征进行量化,利用图像识别技术、人工智能算法与参考数据库进行比对给出罕见病的诊断参考,可取得不错的效果[19];高度自动化的临床病例数据表型化技术可利用自动化、高通量的疾病表型标准系统,分析患者的历史诊疗记录,对患者的疾病发生、发展谱进行详细的分析和全面的疾病表型刻画,为基于人工智能系统的决策引擎提供全面、丰富的特征信息[20]。


2.2 罕见病 CDSS 的推理引擎


  依据当前 CDSS 决策引擎的特点,大致可以将 CDSS 分为临床路径驱动型决策系统、医疗规则驱动型决策系统、医学知识驱动型决策系统、基于机器学习的决策系统。基于临床路径和医疗规则的决策系统因其对知识库和决策引擎的要求较低,且最贴近临床的日常需求,在目前医院信息系统(hospital information system,HIS)中最为常见。


  由于目前机器学习的“黑箱”问题,基于机器学习的 CDSS 在临床应用中还不常见,但其发展速度迅猛 。由于医学知识库体系的复杂性,基于大型医学知识库和智能推理引擎的决策系统发展较为缓慢,但对于罕见病智能辅助诊断,这类CDSS 的架构最适合,因为罕见病及其疾病表型和基因型的描述和表示需要庞大的知识库体系作为支撑。此外,罕见病病例散发且稀少,并不能充分发挥机器学习方法的“暴力求解”能力,见图 2。


  目前本课题组也在测试和优化研发的基于医学知识库的罕见病 CDSS。当前用于驱动罕见病表型知识库系统的推理引擎大多是基于本体结构的语义学方法,其中比较典型的有Resink[21]、Lin[22]、graph IC measure[23]等,也有少量基于搜索引擎技术的方法,如FindZebra[24]、MalaCards[25]等。


  就当前发展趋势而言,各种罕见病CDSS 都在尝试综合疾病表型知识库和疾病基因知识库,希望能建立统一的推理引擎框架。目前世界各国都已启动罕见病的疾病队列研究,如果能积累足够病例,无疑将会突破罕见病 CDSS 推理引擎目前的局限。


3 罕见病医学知识库体系


  任何人工智能系统离不开知识库体系的支持,知识库系统是人工智能系统的真正“大脑”,而算法引擎只是驱动的“心脏”。如通用智能问答系统Watson 系统,它的知识库存储了数百万量级的图书、文献和资料。与通用知识库、知识图谱系统不同,医疗系统的知识库具有其专业性和特殊性,特别是在罕见病领域,它有着非常特别的知识库体系,以下将从疾病知识库、表型知识库和基因知识库3 类知识库作简要介绍。

3.1 罕见病疾病知识库


  罕见病种类较多,症状较一般疾病复杂,且缺乏相关资料,因此需要建立罕见病相关数据库,为患者、医师及研究人员提供信息检索、资讯及学习等服务。Orphanet、OMIM 和 DECIPHER 是罕见病研究领域比较重要的数据库。


  Orphanet 收录了近 6 000 种罕见病相关信息,是目前最全面的罕见病数据库。不仅如此,Orphanet 还收录了大量与罕见病治疗相关的药物(即孤儿药物)信息及资料,为患者、医师及研究人员提供了宝贵的罕见病信息。


  美国 Johns Hopkins 大学医学院 Victor A. McKusiek 教授主编的《人类孟德尔遗传》是医学遗传学领域最权威的百科全书,甚至被誉为医学遗传学界的“圣经”。OMIM 是《人类孟德尔遗传》在线版,它收录了所有已知的遗传病、性状及其基因,除了简略描述各种疾病的临床特征、鉴别诊断、治疗与预防外,OMIM 还提供致病基因的连锁关系、染色体定位、功能和动物模型等资料,以及大量与疾病研究相关的重要参考文献。


  DECIPHER 是目前分子遗传学中最重要的数据库之一。DECIPHER 收集了一系列遗传疾病相关信息,包括变异位点、临床表型等,为罕见病的诊断提供了大量信息。最为重要的是,DECIPHER 还收录了超过 200 家研究中心上传的超过 10 000 例的真实临床案例,为临床医师诊断罕见病提供了参考。


  除了 Orphanet、OMIM 和 DECIPHER 外,基因位点数据库,如 1000 Genomes、HGMD、dbSNP、ClinVar、ExAC 等也为罕见病的诊断和研究提供了重要帮助。


3.2 罕见病表型知识库


  疾病症状(表型)的标准化是构建罕见病辅助诊断系统的前提。有学者提出应用计算机科学中的本体论概念来实现疾病表型的标准化。本体论的思想是对医学文献信息进行总结归纳,提取常用的疾病表型词汇并建立词汇间结构化的分层关系,使用统一的语言描述疾病,从而实现表型的标准化。其中,最具代表性的是由 r obinson  等[26] 于 2008 年提出的人类表型本体(human phenotype ontology,HPO)。


  HPO 从表型异常、遗传模式、临床调节因素和衰老/死亡 4 个方面对疾病表型进行了系统整理,根据医学文献和专家意见将表型症状进行分层划分。因此,可以使用 HPO 作为语言对疾病进行系统化及标准化的描述。


  到目前为止,HPO 已经完成了对 OMIM 中 7 000 多种遗传病、Orphanet 中 3 000 多种罕见病的统一标注。2016 年,国内成立的中文人类表型标准用语联盟基本完成了对人类表型本体中词汇的汉化翻译,增加了 HPO 在国内罕见病辅助诊断领域的实用性。


  HPO 系统化描述了罕见疾病患者的表型特征,很多罕见病辅助诊断工具利用 HPO 作为标准化表型描述工具。通过对罕见病标准化的 HPO 表型注释和参考罕见病的 HPO 表型注释,可识别可能罕见病,也可以进行致病突变的识别排序。


  HPO 体系已被很多大型研究计划所接受,如美国国立卫生研究院的 Undiagnosed Diseases Pr ogram and Network、英国政府 10 万人基因组计划、英国 Sanger 研究中心的 DECIPHER、英国 Sanger 研究中心的 Deciphering Developmental Disorders 计划和欧洲遗传病参考协作网(Eur opean Reference Networks for Rare Diseases),以及我国的国家罕见病注册登记系统。


3.3 罕见病基因知识库


  罕见病与遗传病的界限 经常被模糊,然而罕见病并不完全等同于遗传病,只有约80% 的罕见病可能与遗传变异相关[8]。

对于这些与遗传变异相关的罕见病,可以依据遗传病的分类标准进行分类:(1)染色体病,即染色体数目或结构异常所致的疾病,染色体病发病率通常较高,且多数为新发突变,如唐氏综合征;(2)单基因遗传病,即由 1 对等位基因控制的遗传性疾病,按照传递方式分为常染色体显性、隐性和性连锁遗传性疾病;(3)多基因遗传病,即由 2 对及以上等位基因发生变异而导致的遗传性疾病,同时该类疾病的形成还可能受环境因素的影响;(4)线粒体病,即线粒体 DNA 异常导致的遗传性疾病,该疾病为母系遗传。

目前常见的收录了罕见遗传疾病的基因知识库非常多,主要有:


  (1)基因功能数据库,如NCBI refGene、Ensemble ensGene、UCSC knownGene 等,这类数据库提供了基因组中基因与基因间区信息等相关信息;


  (2)基因位点功能数据库,如 ClinVar、HGMD、dbSNP 等,这类数据库的数据主要来源于文献报道的基因位点及该位点的致病信息,为罕见遗传病的诊断提供了直接诊断依据;


  (3)基因位点人群频率数据库,如 1000 Genomes、ExAC、Esp6000 等,这类数据库的数据主要来源于大规模正常人群队列研究,基因位点的人群频率信息可以有效排除基因组中的非致病性位点,为罕见遗传病诊断中假阳性位点的排除提供依据;


  (4)基因位点功能预测数据库 CAD Gene、M-CAP[27]、REVEL 等,这类数据库主要来源于对已有数据库进行深度挖掘,发现致病性位点可能的特性,从而对基因组中所有可能的致病性位点进行识别,在一定程度上弥补了现有数据库数据量少的缺点。


4 小结


  自 20 世纪 70 年代全世界第 1 个 CDSS——斯坦福大学的 MYCIN 系统出现以来,医疗信息领域已经积累一定的 CDSS 研发和应用经验。


  一个成功的 CDSS 至少需包含 2 项关键要素:(1)CDSS 需要伴随临床诊疗流程,方便临床医师随时调取使用,且需要与现有医疗信息系统深度整合,孤立的 CDSS 很难成功。(2)CDSS 不能只提供“yes/no”式的答案,而需要提供一系列的临床选择候选,提供评估打分及相应的支撑证据链,并与临床医师的诊疗逻辑深度耦合,才能被临床接受[28]。罕见病 CDSS 为一种比较新的 CDSS,在其发展过程中同样需要认真考虑这些经验。


  此外,罕见病 CDSS 研究者应共同努力,推进建立用于评估和测试罕见疾病诊断精度的开放标准参考病例数据集,促进本领域技术和方法的发展。


    2018/11/19 18:22:01     访问数:466
    转载请注明:内容转载自365医学网

大家都在说       发表留言

客服中心 4000680365  service@365yixue.com
编辑部   editor@365yixue.com

365医学网 版权所有 © 365heart All Rights Reserved.

京ICP备12009013号-1
京卫网审[2013]第0056号
京公网安备110106006462号
京ICP证041347号
互联网药品信息服务资格证书(京)-经营性-2018-0016  
搜专家
搜医院
搜会议
搜资源
 
先点击
再选择添加到主屏