如何利用电子病历数据库开展临床研究？系统误差怎么办？

文 / 协和医学杂志

2018-04-18 21:08

搞科研

经费不足、

研究持续时间有限、

人群研究应答率、

依从性低

……

EHRs

电子病历数据库(EHRs)的及时出现为开展临床研究，尤其是基于队列的大样本临床研究提供了低成本的愿景和机遇。随着2009年美国卫生信息技术法案的推出，美国80%的医疗机构实现了病历电子化，全球EHRs的普及率亦逐渐增加。人们越来越关注如何基于EHRs开展二手数据分析，以期最终促进医疗服务的改善。但由于EHRs收集的初衷是为了临床诊疗而非临床研究需要，因此利用EHRs开展临床研究仍存在很多问题，如：数据信息的完整性、就诊人群的代表性、数据处理的复杂性等。

那么，我们如何利用EHRs开展临床研究呢？在面临上述问题所致研究结论产生系统误差时，我们又如何控制偏倚呢？

现分享北京协和医院基础医学研究所流行病学系王丽、程凯亮发表在《协和医学杂志》中的文章，用实例探讨EHRs及临床研究相关问题～

电子病历数据库在临床研究中的应用及偏倚控制

1电子病历数据库的定义及基本特征

无论哪种研究设计方法，临床流行病学研究的核心均是在控制了混杂变量的情况下，探讨暴露因素与结局之间的关联。

定义：EHRs是医疗机构对门诊、住院患者（或保健对象）临床诊疗和指导干预的数字化医疗记录，包括患者历次就诊的人口学信息、生命指征、诊断、实验室检查、用药、影像学检查、既往病史、免疫接种史等［1］。

EHRs信息与临床研究中变量的对应关系：

EHRs信息可对应临床研究中的不同角色，提示利用EHRs开展临床流行病学研究的可行性。但由于EHRs信息的收集是基于临床诊疗需求，因此患者使用何种药物、进行何种检查以及被随访的频次等均受到患者及医生抉择的影响，最终影响对疾病患病率、发病率及暴露因素风险的估计。同时，基于不同环境建立的EHRs，如某单一医疗机构EHRs、区域医疗健康数据库，其涵盖的人群特征、用药信息、检查、诊断及其他个人信息（如人口学特征、生命指征、家族史及个人史等）的数据特点不同［2］，导致在回答临床研究问题的优势与局限性方面亦不同。

我国目前各医院EHRs的现状分类：

（1）以各种临床业务为中心，患者信息散落在多个相对独立的系统中；

（2）对于大部分三级医院，各医疗机构内部已实现了以患者为中心的信息收集，但数据库中仅涵盖了患者在该医疗机构的就诊信息；

（3）极少数城市已实现建立区域化的EHRs，解决了区域内各医院数据的信息共享。研究者需根据所使用的EHRs特点来确定其可能回答的临床研究问题，并对结果进行合理解释。

2基于电子病历数据库可以解决的研究问题

EHRs作为针对患者临床诊疗相关健康信息的纵向电子记录，可实现对疾病转归及诊疗全过程的评估。

A.描述疾病的流行病学特征及分布，

B.探讨疾病的疗效或病因，

C.评价真实就诊环境下的依从性、疗效，以及政策对于临床用药的影响等。

针对不同科学问题，其对应的研究设计方法不同，包括:

横断面研究、生态学研究

病例对照研究、队列研究

下文主要针对疾病流行病学特征分布、疗效研究以及政策对于疗效评价的影响等进行讨论。

2.1疾病流行病学特征及其分布描述

2.1.1患病率

患病率是指研究特定时间点或期间某特定人群现患病者所占比例，明确目标人群并实现准确诊断是获得真实患病率估计的前提。

疾病患病率的估计通常基于严格的抽样调查而获得，耗时耗力。而EHRs中涵盖的大量患者的临床诊断及检验信息，为在较低成本下描述疾病的发病率及患病率提供了可能。

以一项利用医院数据估计炎症性肠病(IBD)疾病分布为例，该研究纳入了中国香港1981至2014年7个区13家医院就诊的IBD患者信息，以每年13家医院IBD就诊人群除以当年香港人口数来估算当年IBD患病率［5］。估算的前提是此13家医院覆盖95%的香港IBD患者，能否依靠EHRs来估计疾病患病率的前提是能确定产生病例的“源人群”。但更多情况下，尤其是基于某单一医疗机构的EHRs，由于不能确定EHRs中病例的“源人群”，即不能获得计算患病率所需的分母，此时只能计算构成比而非患病率。同时研究显示，即使能获得EHRs对应的“源人群”，其最终获得的患病率估计与人群调查获得的患病率之间仍存在差别，其差别的方向与疾病特征、年龄、性别等密切相关［6-7］。

2.1.2发病率

EHRs作为针对患者临床诊疗相关健康信息的纵向电子记录，原则上研究者可利用其构建回顾性、前瞻性或双向队列以估计发病率。但其根本问题是不能仅仅依赖EHRs区分新发和现患病例。对于上述情况，可采用查病历或补充调查的方法应对，但其工作量大，费时费力，同时对于无住院病历的患者很难实现病历查询。研究者提出了多种解决EHRs新发病例确定问题的方法。最简单的方法是将首次诊断日期确定为新发日期，但前提是该数据库能长时间覆盖某个区域或全国人群，同时疾病严重程度高［8］。但对于大多数疾病，尤其是慢性病，上述方法并不能很好地区分新发和现患病例。

Mamtani 等［9］的研究显示，采用Joinpoint回归通过确定不同时间间隔糖尿病发病率的变化拐点能较好区分EHRs中的现患与新发糖尿病患者。其他更复杂的方法，如基于回溯生存分析或等候时间分布等方法也越来越多被应用于EHRs数据中新发病例的确定［8］。

2.2疗效评价

EHRs为在真实临床就诊环境下开展疗效研究提供了可能。

中国台湾Wu等［10］基于全民健康保险研究资料库开展了“慢性乙型肝炎患者抗病毒治疗对肝癌发生影响”的研究，探讨核苷类似物抗病毒药物治疗是否可减少慢性乙型肝炎患者肝癌的发生风险。

为此，该研究纳入了1997年1月1日至2010年12月31日台湾地区所有被诊断为慢性乙型肝炎［国际疾病分类-9（ICD-9）：070.2，070.3和V02.61］至少3次，同时使用核苷类药物或保肝药物，并排除合并其他病毒性肝炎、艾滋病病毒感染以及在随访前3个月发生肝癌的患者。其中使用核苷类药物≥3个月者被定义为抗病毒治疗者，＜3个月者被定义为非抗病毒治疗者。

通过上述入选和排除标准，199 451例慢性乙型肝炎患者中72 458例纳入该研究。对于使用抗病毒治疗者，队列随访起点为首次核苷类药物处方时间，而对于非抗病毒治疗者，则以首次使用保肝类药物为随访起点；随访终点为发生肝癌、死亡或2010年12月31日。

最终研究显示，抗病毒治疗者发生肝癌的风险较非抗病毒治疗者减少63%（HR=0.37，95% CI：0.34～0.39）。

实现上述研究的前提主要包括以下3点：

（1）研究人群代表性问题：中国台湾1997年开始实行强制性全民医保覆盖，同时所有乙型肝炎抗病毒药及保肝药均可报销，保证了所有可能使用抗病毒药物者的纳入；

（2）可明确获得慢性乙型肝炎诊断时间和用药时间，保证了暴露信息及随访起点的可获得性；

（3）该医保数据库中灾难性疾病患者登记数据库保证了结局信息的可获得性。但由于EHRs是基于真实就诊环境的数据收集，治疗不仅仅是一种暴露因素，更是一种临床决策，患者是否使用核苷类抗病毒药物受年龄、疾病严重程度、经济水平等多方面因素影响，导致使用核苷类药物者和未使用者在可能影响肝癌发生的因素分布上不可比，即存在选择偏倚，因此在分析时需要采用统计分析方法进一步控制。

除了选择偏倚外，当利用EHRs开展临床疗效研究时，通常还会面临一系列删失问题，包括不能保证获得每个随访者的结局（右删失）、不知道每个患者何时开始治疗（左删失）。右删失可通过生存分析方法解决，但左删失则需通过精巧的设计来避免。例如，在利用EHRs评价HBeAg阳性患者HBsAg滴度水平对未来HBsAg阴转的预测价值时，由于很难根据EHRs确定患者首次治疗时间，此时可结合临床实际意义，选择HBeAg阳性患者中发生HBeAg阴转的患者作为研究对象，从而确定随访起点。

2.3政策对疗效评价的影响

临床药物使用与医保政策密切相关。医保政策对患者临床药物使用及疗效的影响不太可能使用实验性研究来评价。

Qiu等［11-12］利用北京市某传染病医院的医保和非医保患者在政策执行前后的EHRs探讨2011年7月1日开始执行的乙型肝炎抗病毒药物医保报销政策对于慢性乙型肝炎患者抗病毒用药种类选择、用药依从性及成本的影响，并开展成本效果分析，从而综合评价该政策对于北京市慢性乙型肝炎患者用药及疗效影响。

但需注意的是，以单中心EHRs来评价患者用药时可能会因“不能获得患者在其他医院或药房拿药的信息”而产生信息偏倚，因此有必要评价不同类型患者（医保和非医保患者）在政策执行前后在外院取药的信息来校正可能产生的偏倚［11］。

3基于电子病历数据库开展临床流行病学研究面临的问题

与科学研究驱动的研究设计不同，EHRs为基础的研究相对更省时省力、样本人群更大。然而，基于EHRs，尤其是基于单中心的EHRs研究，仍然面临人群代表性、影响暴露因素与结局关系的混杂因素在人群分布不均匀、混杂因素收集不完整、数据收集不准确等一系列问题，从而最终使研究结论产生系统误差。下文着重讨论选择偏倚和混杂偏倚的控制。

3.1选择偏倚

当总体人群中单一个体进入样本的概率与暴露及结局因素密切相关，导致样本人群与总体人群在暴露因素与结局相关的特征分布上出现系统误差，则可能产生选择偏倚。

对于基于EHRs的研究来说，产生选择偏倚的原因包括但不仅限于以下几方面：

（1）入院率偏倚，即患者的年龄、性别、疾病严重程度、地域特点、医疗保险状态等均可能影响患者是否到医院就诊或是否到某个医院就诊，从而最终影响EHRs人群的代表性。

因此，在使用EHRs开展临床研究时，有必要对患者年龄、性别、种族及其他相关人口学特征与总体患者人群比较，以评价研究对象的代表性。

例如，如果想利用北京市某传染病医院的门诊及住院EHRs来估计慢性乙型肝炎患者的直接医疗费用，则需评价在该医院就诊的慢性乙型肝炎患者年龄、性别及疾病严重程度相关指标与总体慢性乙型肝炎患者人群的可比性。

（2）数据缺失，尤其是非随机缺失。仍以利用EHRs评价HBeAg阳性患者HBeAg阴转时HBsAg滴度水平对未来HBsAg阴转的预测价值为例，由于临床并非所有慢性乙型肝炎患者在HBeAg阴转时均会行HBsAg滴度检查，此时如果有HBsAg滴度检查的患者疾病严重程度指标与未行检查者不可比，则会产生选择偏倚，从而最终影响对HBsAg阴转的预测。探讨数据缺失的机理（完全随机缺失、随机缺失或非随机缺失）是评价缺失对于研究结果影响的关键。

3.2混杂偏倚

基于EHRs的疗效或病因学研究中，由于治疗不仅仅是一种暴露因素，更是一种临床决策，患者是否使用某种治疗受患者年龄、疾病严重程度、经济水平等多种混杂因素的影响，如何控制混杂因素是基于EHRs开展临床疗效或病因研究的关注热点。

以Wu等［10］开展的抗病毒治疗是否降低肝癌发生风险的研究为例，对最终纳入的符合入选和排除标准的47 611例未使用抗病毒药物和24 847例使用抗病毒药物治疗的患者基线特征分析显示，除年龄外，其他所有可能影响结局发生的因素如其他药物使用情况、主要共患病、肝硬化程度等均显著不同，提示控制混杂因素的必要性。目前除在研究设计阶段采用匹配或限制方法控制混杂因素外，还可在分析阶段采用传统控制混杂的统计方法，包括分层分析、多因素分析等［13-15］。随着现代流行病学的发展，研究者们提出了倾向性评分法［16］、工具变量法［17］、双重差分法［18］等新的控制混杂偏倚的方法。

倾向性评分以给定的一组协变量，通过构建协变量与处理因素之间的函数关系，确定任意一个研究对象划分到处理组的概率，即倾向分值。基于估计的倾向分值，传统的倾向性评分方法包括倾向性评分匹配法、分层、协变量校正（又称回归法）和加权法。

仍以Wu等［10］的研究为例，研究者以是否接受抗病毒治疗为因变量，以年龄、性别、主要共患病、肝硬化程度、其他药物使用情况等为协变量，建立Logistic回归模型，估算72 458例患者进入抗病毒治疗组的概率，即倾向分值。依据倾向分值按照最临近卡钳匹配法为每例抗病毒治疗患者匹配一例对照，匹配后的抗病毒治疗组和非抗病毒治疗组患者倾向分值的分布基本吻合，提示依据倾向分值抗病毒治疗组和对照组在协变量的整体分布上具有可比性；同时该研究对匹配后抗病毒治疗组和对照组每个协变量是否均衡可比进行了检验（但检验均衡性的统计分析方法并不合适，通常建议采用标准化差别的方法以校正样本量的影响）。最后通过比较匹配后的两组人群肝癌的发生率差异来评价抗病毒药物的长期疗效。

倾向性评分方法能否准确控制混杂偏倚的前提是如何构建协变量与处理因素的模型，从而准确估计倾向分值。目前纳入什么协变量仍然存在争议。

以倾向性评分匹配法为例，Austin等［19］的研究显示，仅纳入与处理因素有关的协变量与其他纳入协变量的方法（包括仅与结局因素有关或同时与协变量和处理因素有关）相比，会导致可匹配的对子数减少，从而导致处理效应估计值的精度下降。需注意的是，最终确定哪些协变量纳入模型并不取决于模型拟合的好坏，而是基于倾向性评分匹配后处理组和对照组的各协变量分布是否可比。

贝叶斯倾向性评分则在传统倾向性评分基础上，进一步将倾向性评分引入由现有数据建立的结局事件与处理因素、协变量构建的联合分布模型［20-21］。通过该分布模型可同时控制测量和未测量的混杂因素，包括缺失数据影响，从而获得比较真实可靠的效应值［22-25］。但其计算量大，需借助马尔科夫链蒙特卡罗法实现。

例如，在利用医院病历数据库评价他汀类药物对急性心肌梗死患者全因死亡率的影响研究发现，贝叶斯倾向性评分法较传统logistic倾向性评分所获得的效应值更准确，置信区间更宽［20］。

由于EHRs主要是因临床诊疗需要而构建，影响疾病预后的很多环境或遗传暴露因素很难在临床实际就诊记录中收集，因此控制未测量混杂因素在基于EHRs的研究中显得尤为重要。对未测量混杂因素的处理方法包括工具变量法［17］、双重差分法［18］、基于倾向性评分法的敏感性分析等。

工具变量法主要是通过找到一个合适的变量，该变量与研究结局及混杂因素无关，仅与处理因素有关，将变量替代实际处理因素，通过比较不同工具变量状态人群结局的差异得到不同处理因素效应值的无偏估计［26］。

例如Stukel等［27］基于1994至1995年全美566个冠状动脉造影服务机构急性心肌梗死患者的研究，由于不同服务机构患者疾病严重程度无差别，但30 d内接受心导管术的患者比例（即心导管手术率）不同，因此将不同地区心导管手术率作为工具变量，通过比较不同心导管手术率患者7年生存率的差别来评价心导管手术对于患者长期生存的影响。

双重差分法则主要用于干预效果评价研究［28］。

例如，黄远飞等［29］分别从2014年和2015年广州市南沙区城乡居民医疗保险的就诊数据中分别抽取农村和城镇参保人各800人，评价广州市2015年1月1日开始执行的城镇居民基本医疗保险和新型农村合作医疗整合政策效果。由于整合前原新农合和城镇居民医保的参保人在医疗保险待遇、年龄、性别、家庭规模、患病情况等方面均可能存在差异，无法仅通过两种类型参保对象之间的前后或横向对比来分析政策实施对医疗服务消费的影响。故采用双重差分模型法，将原新农合参保人定义为处理组，假设整合实施后其医疗服务支出和补偿力度均增加，但城镇参保人由于待遇提升幅度不大，对其医疗服务支出影响较少，将其定义为对照组；通过比较原新农合居民政策前后医疗总费用及自付比例改变与城镇参保人政策前后医疗总费用及自付比例改变，同时校正参保人性别、年龄、慢性病患病情况以及家庭规模等变量，来评价新的政策对新农合患者的影响。

4结语

综上所述，在目前这个充满前景、陷阱和挑战的大数据时代，仍需回归流行病学的本质，结合EHRs的具体特点和所提出的科学问题，充分考虑研究设计、数据分析等过程中出现的偏倚，并结合巧妙的设计和合理的统计学分析方法才能真正实现EHRs与临床研究的整合。

参考文献略

作者：王丽，程凯亮

单位：北京协和医学院基础医学研究所流行病学系

通信作者：王丽

文章来源：协和医学杂志,2018,9(2):177-182.

王丽

中国医学科学院基础医学研究所流行病学与统计学系研究员，医学博士，博士生导师。

中华医学会临床流行病学分会委员，妇幼健康研究会生育调控学会专业委员会常务委员，中国研究型医院学会罕见病分会理事，中华预防医学会流行病学分会青年委员，中国抗癌协会肿瘤病因学会青年委员，北京医学会临床流行病学分会常委。

临床研究与循证医学系列讲座（二）

Meta-分析之灵魂与合理应用

时间：2018年4月19日（周四）18:00-20:00

地点：北京协和医院教学楼329教室

《协和医学杂志》

在线投稿

稿件查询

特色栏目

协和医学杂志倡导尊重和保护知识产权。欢迎转载、引用，但需取得本平台授权。如您对文章内容版权存疑，请发送邮件[email protected]

戳原文，更有料！

如何利用电子病历数据库开展临床研究？系统误差怎么办？

推荐阅读：

再三提醒你不信，这3类食物不能碰，脂肪肝找上门，知错了吧？

加速男性衰老的三大行为，熬夜排最后，排在第一位的多数男人都有

糖尿病“苦瓜”和“南瓜”，降糖顶呱呱，常吃可辅助降糖！

315临近奥迪又出事了这次不是烧机油而是和白血病有关

俯卧撑锻炼的最佳时间，不仅健身还能有助于睡眠，好处太多了

颈椎病分10级，超过2级有危险、到达10级会瘫痪！你是几级？

揪心！2岁女童从床上跌落，被皮带扣深深插进后脑，家长需警惕

糖尿病并发视网膜病变、冠心病等4种慢性并发症，运动宜忌看这篇

你知道经常揉這個部位男的更强壯女的更年轻吗？

鼻炎久治不愈？最终还得靠中医，中医教授揭秘：这1招就够了！

如何利用电子病历数据库开展临床研究？系统误差怎么办？

推荐阅读：

再三提醒你不信，这3类食物不能碰，脂肪肝找上门，知错了吧？

加速男性衰老的三大行为，熬夜排最后，排在第一位的多数男人都有

糖尿病“苦瓜”和“南瓜”，降糖顶呱呱 ，常吃可辅助降糖！

315临近奥迪又出事了这次不是烧机油 而是和白血病有关

俯卧撑锻炼的最佳时间，不仅健身还能有助于睡眠，好处太多了

颈椎病分10级，超过2级有危险、到达10级会瘫痪！你是几级？

揪心！2岁女童从床上跌落，被皮带扣深深插进后脑，家长需警惕

糖尿病并发视网膜病变、冠心病等4种慢性并发症，运动宜忌看这篇

你知道经常揉這個部位男的更强壯女的更年轻吗？

鼻炎久治不愈？最终还得靠中医，中医教授揭秘：这1招就够了！

糖尿病“苦瓜”和“南瓜”，降糖顶呱呱，常吃可辅助降糖！

315临近奥迪又出事了这次不是烧机油而是和白血病有关