基于真实世界临床数据的科学研究与中药新药发现平台 ——中医临床数据仓库平台及挖掘分析方法
在医学领域首次应用商务智能软件(Business Objects XI)作为中医临床数据仓库OLAP分析的软件基础。开发实现了基于细节数据模型、多维数据模型和海量临床诊疗数据的探索性分析、展示系统,分析展示的内容包括名老中医经验传承、重大疾病的病证及临床表现要素关系等的主题分析集。可从数据概况、方剂、药物、疾病、症状、治法和证候等方面分别对名老中医和重大疾病临床数据进行多种关系知识的探索性分析。同时,对分析结果可进行实时查询、导出和展示(下图是一位名老中医某经典处方的临床应用证候分布情况)。 本实验室与中国中医科学院合作进行中医临床数据仓库与挖掘分析平台,以及中医临床数据挖掘方法的研究,实现了对中医临床采集病历数数据的集成与整合,数据挖掘与分析的中医临床数据仓库及挖掘分析平台,该平台旨在支持从真实世界中医临床诊疗中产生海量科研分析用数据,并以真实、高质量的数据为基础进行中医临床与理论研究,为中医临床疗效评价、临床中药新药创制提供客观的医学证据和适宜的数据分析方法。该成果于2009年12月获得国家科技进步二等奖。 名老中医OLAP展示例子 1.2多维分析与复杂网络分析系统 以中医临床数据中症-证-治的复杂关系和复杂网络分析方法研究为出发点,开发实现了中医临床复杂网络分析系统。该系统包括如联机数据筛选、复杂网络建模、统计特性分析、可视化网络数据筛选等基本功能,能够支持中医临床诊疗数据中的疾病(中西医)、症状、证候、药物等实体内部元素以及实体之间元素的网络模型构建和多种复杂网络分析方法如节点中心性分析、社团分析、节点相似度分析等。从大量的临床数据中分析获得临床核心处方及其主要适应症,以及随症加减信息。该系统采用Eclipse 富客户端(Rich Client Platform, RCP)和Java语言开发(下图是该系统的主界面)。 在医学领域首次应用商务智能软件(Business Objects XI)作为中医临床数据仓库OLAP分析的软件基础。开发实现了基于细节数据模型、多维数据模型和海量临床诊疗数据的探索性分析、展示系统,分析展示的内容包括名老中医经验传承、重大疾病的病证及临床表现要素关系等的主题分析集。可从数据概况、方剂、药物、疾病、症状、治法和证候等方面分别对名老中医和重大疾病临床数据进行多种关系知识的探索性分析。同时,对分析结果可进行实时查询、导出和展示(下图是一位名老中医某经典处方的临床应用证候分布情况)。 获奖证书 1.中医临床数据仓库与挖掘分析平台 通过分析中医临床数据元素及其多维、多层次的关系特点,研究设计了中医临床参考信息模型,以及为基础构建中医临床数据仓库细节数据模型和多维数据模型,建立以数据仓库为核心的数据整合、数据抽取/转换/转载和数据整理、数据挖掘、OLAP和统计分析的智能信息处理平台。该平台以中医临床数据仓库及其运行环境工具的构建为基础,基于实际的临床诊疗数据,实现对中医诊疗数据进行多主题、多粒度、多需求、高效、快捷的展示、研究和查询检索,并支持基于Web的OLAP主题应用,为名老中医经验继承研究、中医临床评价研究和临床科研提供实际的诊疗数据证据和知识来源,以支持临床科研决策分析,满足中医临床评价研究的探索性分析需求。针对中医临床数据的特点,研究体现中医临床数据模型特点的数据挖掘新方法,为面向中医临床研究的数据挖掘和机器学习方法研究提供新的思路和研究方向。该平台的构建初期以重大慢性疾病:中风、冠心病和糖尿病诊治规律,以及名老中医经验传承研究为支持目标。 中医临床数据仓库平台 1.1中医临床数据预处理技术临床数据的预处理包括数据整合、数据整理和数据转换等技术,我们面向中医临床数据结构内容以及中医临床研究的分析需求,实现具有完善的数据抽取-转换-装载(Extraction-transforming-loading,ETL)、数据整理和数据转换导出功能的数据前处理软件。该软件针对医学数据利用中的分布式(多采集点)采集、患者隐私保护和大规模数据处理的特点,采用灵活的数据映射配置和临床术语库衔接等方式把各采集点数据导入到临床数据仓库中,并支持批量数据核查和数据规范整理(对临床数据中的术语性数据如症状体征、诊断和药物等进行概念化语义规范)功能。 在医学领域首次应用商务智能软件(Business Objects XI)作为中医临床数据仓库OLAP分析的软件基础。开发实现了基于细节数据模型、多维数据模型和海量临床诊疗数据的探索性分析、展示系统,分析展示的内容包括名老中医经验传承、重大疾病的病证及临床表现要素关系等的主题分析集。可从数据概况、方剂、药物、疾病、症状、治法和证候等方面分别对名老中医和重大疾病临床数据进行多种关系知识的探索性分析。同时,对分析结果可进行实时查询、导出和展示(下图是一位名老中医某经典处方的临床应用证候分布情况)。 名老中医OLAP展示例子 以中医临床数据中症-证-治的复杂关系和复杂网络分析方法研究为出发点,开发实现了中医临床复杂网络分析系统。该系统包括如联机数据筛选、复杂网络建模、统计特性分析、可视化网络数据筛选等基本功能,能够支持中医临床诊疗数据中的疾病(中西医)、症状、证候、药物等实体内部元素以及实体之间元素的网络模型构建和多种复杂网络分析方法如节点中心性分析、社团分析、节点相似度分析等。从大量的临床数据中分析获得临床核心处方及其主要适应症,以及随症加减信息。该系统采用Eclipse 富客户端(Rich Client Platform, RCP)和Java语言开发(下图是该系统的主界面)。 中医临床复杂网络分析系统 1.3 真实世界中医临床有效处方发现系统 中药新药创制与研发是极具挑战和机遇的领域,当前化学制药和单成份药物研发已经出现明显的瓶颈,传统植物/天然药以及多成份复方药物的研发成为国内外关注的焦点。而从多成份调控和多靶点机理的研究为主要视角的网络药理学更成为新的趋势和方法。针对中医临床诊疗过程中具有证-治-效信息,且个体性的真实世界诊疗实践特点,我们研究基于大规模临床诊疗数据进行有效处方分析和发现的问题,通过对以中药复方为重点的治疗手段药物组成原理的分析,基于复杂网络模型和方法研制形成了有效核心处方及适应症分析方法、有效临床中药筛选与发现系统,对基于真实世界临床诊疗数据分析获得有效处方知识的方法、技术平台和示范应用进行了探索和初步实践,初步表明从真实世界临床诊疗数据中发现和挖掘有效方药是一种可行的途径,有望为中医新药创制提供可以验证的新处方、新药物等临床有效目标药物。 1. 中医临床数据挖掘分析方法 海量观察型临床数据是中医辨证论治数据的主体内容,具有复杂、多维和多关系的特点。从大规模中医临床观察数据中分析提炼形成有意义的临床假设或诊疗知识如有效处方、人群划分、药症关系以及多阶段优化治疗方案等,是实现从复杂、系统的中医辨证论治过程中发现并确认有效优化的临床诊疗处方及其药物组成的基本方法。中医临床数据包括门诊数据和住院数据两大主要部分,其数据内容由临床表现、诊断和治疗(临床疗法)三部分核心内容(如下图),其中辨证知识、证候分布、药症关系、方证关系和药物组成等是数据挖掘和分析的主要目标,而所有这些知识的有效性的评价依据是临床疗效,即确认和发现临床有效的中医诊疗知识是中医临床数据挖掘分析方法的主要有价值研究目标。 中医临床数据挖掘问题:在疗效信息的约束下,验证和发现有价值的临床诊断/治疗关系知识。 2.1基于复杂网络的中药配伍分析方法 人们通过对中医临床处方数据的初期分析,并与临床专家的交流中发现,名老中医的临床复方的组织特性体现在两个层次。第一层次为临床医生一般以经典复方(包括经方、时方和验方等)为基础进行临床处方;第二层次为在药对或药症关系基础上的药物随症加减处理。这两个层次的临床处方配伍过程形成了具有核心处方结构,而又具有较大灵活性的处方集合。因此,通过对名老中医处方集的共性网络结构分析,能够发现体现其处方思维和学术特点的核心处方配伍结构,从而辅助进行名老中医经验的传承和整理研究。通过应用基于无尺度网络现象的网络分析方法进行研究。无尺度网络作为复杂系统研究的一种实证现象和方法,对基于网络研究复杂现象和复杂系统的方法具有很大的推动作用。具有宏观无尺度现象的网络在拓扑上存在幂律现象,即节点的度分布服从幂函数分布。这在医生处方中的具体体现就是某医生对药物的使用具有比较集中的趋势,某些名老中医偏好使用某些药物,使得这些药物的已有或潜在功效得到更大的发挥或挖掘。 我们基于网络中权值的幂律分布规律,实现了多层核心子网分析方法,能够从复杂的中药配伍网络中抽取多层核心子网。该算法已经在名老中医处方配伍经验的分析中得到广泛应用。其得到的结果具有直接而明确的临床含义,且可靠性较强。第一层核心子药物子网一般解释为共性的核心处方;第二层解释为主要药物配伍;第三层解释为次要药物配伍。这些药物配伍分别对应样本的核心病机如主要疾病和主要证候等、兼证和加减症状等。以下是两类特定中药处方:1287个肝脾不调证(GPBT)处方和752个2型糖尿病合并代谢综合征处方的分析结果。 特定中药处方的核心药物配伍网络和主要加减网络,其中的网络中的节点是药物,边的权重表示两相关药物配伍使用的次数。 2.2基于隐主题模型的疾病人群临床特征类别分析方法 症状-中药-诊断主题模型(Symptom-Herb-Diagnosis Topic model,SHDT), 用来提取中医临床数据中的症状、中药和诊断间的隐主题结构。SHDT模型是LDA主题模型在多关系应用中的扩展。该模型的核心思想是假设一类样本里面包含有多个主题,例如,一类糖尿病人群有不同的并发症,且这些主题所包含的信息特征(以症状来表达)具有相对完整性和独立性。SHDT把每个主题看作是症状上的多项式分布,并通过症状来表达主题的内容;同时,把每种中药看作是主题上的多项式分布,因为一类中药可以治愈多种症状/疾病;又因为一种诊断包含多种症状/疾病,于是把诊断看作是对主题的描述,构建一种“症状-中药-诊断”主题模型。SHDT模型这种分析原理和思路与中医辨证论治过程基本吻合,它可以客观地按照症状找到自然分类人群,给出诊断描述特征和中药治疗特征。SHDT模型分别在2型糖尿病、冠心病和肝炎等慢性疾病中进行人群特征分析。实验结果说明了该模型具有较好的适宜性和科学性,分析结果能够较为完整的反映特定疾病中相关的主要人群特征类别。 症状-中药-诊断主题模型,图中三个黑色圆圈,代表显变量(观察变量),其中s 表示一个采样症状,表示患者p的所有药,表示患者p的所有诊断。白色圆圈代表隐变量,其中z 采样症状s对应的主题,x表示s对应的药,u表示s对应的诊断。矩形框表示重复采样。外部矩形框表示在集合中有P个患者。内部矩形框表示对患者p的个症状、主题、药物以及诊断重复采样。 2.3基于内隐对照和部分可观察马尔可夫决策过程模型的动态序贯处方治疗方案优化方法 中医辨证论治是症-治-效紧密相关的个体、动态的复杂干预过程,动态序贯干预是中医临床治疗慢性疾病的基本方法。以患者为轴心的治疗原则和医生的个体性特点,使得中医动态序贯干预过程中包含多样化的治疗方案。在临床诊疗经验知识的形成阶段,医生往往通过对治疗前后患者健康状态的判断,试图获得较好的治疗方案的认识,进而逐步形成固化的有效经验性治疗方案。因此,在无外部对照的情况下,如何从大规模的复杂多维临床关系数据中发现并确认在临床实际中较优的动态序贯诊疗方案是有效临床方案形成的重要课题。 考虑到实际可行性和研究代价的问题,在未有明确的有效干预方案形成的临床研究初期,无外部对照的传统中医经验整理和归纳普遍存在,且长期的中医学实践表明是有效的。但由于临床诊疗信息关系的复杂性,基于传统经验整理方式形成有效治疗方案是一个较为漫长的过程。 因此,如何借助源自真实世界(无外部对照)的大规模临床观察数据,进行挖掘分析,以辅助发现和确认较优的临床治疗方案成为辨证论治临床评价研究的关键问题之一。我们采用部分可观察马尔可夫决策过程模型(POMDP)对此问题进行研究,实现了基于POMDP的中医临床处方优化分析方法,以探寻从来自临床实际的大规模观察性临床数据中发现较优或最优的动态序贯治疗方案,为中医辨证论治有效动态干预方案的形成和临床验证提供参考知识。 中医临床诊疗过程对应的POMDP模型 1. 成果的推广应用 本成果已经在国家科技重大专项:重大传染病防治、重大新药创制等两个项目;国家科技支撑计划项目-名老中医经验传承研究;北京市科技攻关项目和国家中医临床研究基地等项目中进行推广应用。分别对艾滋病、肝炎和肺结核等传染病的中医药防治规律,从中医临床中分析确认有效处方与药物,名老中医的辨证论治个体诊疗经验,中风、冠心病和糖尿病等重大慢性疾病的临床诊治规律,以及全国10余家重点中医院诊疗优势病种(如上海龙华医院的中医胃癌治疗、骨关节病治疗;河南中医学院一附院的中医艾滋病治疗、中医慢性阻塞性肺炎治疗等)的临床诊疗优化方案等进行应用研究。逐步探索和完善中医临床科研一体化技术体系,支持基于临床诊疗实践及其真实世界诊疗数据,进行中医临床研究和中药新药创制研究的医学模式。 北京地区22家单位应用分布图
北京交通大学
2021-04-13