临床实践指南实施效果评价工具的信效度分析_《中国循证医学杂志》

作者：

杨楠 ^1,2,3,4,5 , 邹锟 ^2,3,4,5 , 何思颐 ^1,2,3,4,5 , 曾力楠 ^2,3,4,5 , 李海龙 ^2,3,4,5 , 黄亮 ^2,3,4,5 , 易秋莎 ^2,3,4,5 , 张明月 ⁶ , 黄超 ⁷ ,  王强 ⁷ ,  张伶俐 ^2,3,4,5,8

1. 四川大学华西药学院（成都 610041）;
2. 四川大学华西第二医院药学部（成都 610041）;
3. 四川大学华西第二医院循证药学中心（成都 610041）;
4. 国家药品监督管理局药物制剂体内外相关性技术研究重点实验室（成都 610041）;
5. 出生缺陷与相关妇儿疾病教育部重点实验室（成都 610041）;
6. 中国医科大学口腔医学院（沈阳 110002）;
7. 国家卫生健康委医疗管理服务指导中心（北京 100044）;
8. 四川大学华西医院中国循证医学中心（成都 610041）;

关键词：

临床实践指南实施效果评价工具信度效度

DOI：

10.7507/1672-2531.202308066

视频：

导出 下载 收藏 扫码 引用

摘要 全文 图表 视频 参考文献 施引文献 补充材料

目的评价临床实践指南实施效果评价工具的信度及效度。方法以《中国2型糖尿病防治指南（2020版）》作为目标指南，选择全国不同地区医疗机构的医务人员及2型糖尿病患者，使用已开发的临床实践指南实施效果评价工具开展实证研究。采用Cronbach’ α系数和Spearman-Brown分半系数评价工具内部一致性信度及分半信度，采用内容效度对测量概念的合理性和有效性进行评价，验证性因子分析计算模型拟合指标及因子载荷，评价结构效度，采用平均萃取变异量比较法评价工具条目的聚合效度及区分效度。结果工具各维度内部一致性信度及分半信度系数在0.650至0.986之间。整体水平的内容效度指数（S-CVI/Ave）为0.846。验证性因子分析结果表明，医务人员条目及患者条目部分拟合指标χ²/df为8.695、6.123，均方根残差（RMR）为0.102、0.037，标准化均方根残差（SRMR）为0.068、0.050，近似误差均方根（RMSEA）为0.102、0.078，拟合优度指数（GFI）为0.901、0.822，调整拟合优度指数（AGFI）为0.836、0.787，节俭规范拟合指数（PNFI）为0.545、0.788。工具聚合效度及区分效度良好。结论临床实践指南实施效果评价工具整体信效度良好，未来需针对维持维度及患者诊疗效果条目进行优化。

临床实践指南是在对已有证据的系统评价和对不同干预措施的利弊评估下形成的、旨在优化患者保健服务的最佳推荐意见^[1]，通过建立由强有力科学证据支撑的标准和规范辅助临床医务人员开展临床决策，是规范临床实践、提高医疗服务质量的重要手段。研究指出，遵循高质量的指南可避免高达1/3患者的不必要死亡，并减少非必要的医疗花费^[2]。近三十年来，全球临床实践指南发表数量不断增加^{[3, 4]}，然而大量临床实践指南被指实施效果不佳^{[5, 6]}。为评价指南质量、推动指南实施，国内外学者对实施效果的促进因素、阻碍因素、实施策略方法等开展大量研究^[7-10]。在前期的系统评价工作中我们发现，对于指南实施效果的测量，现有的研究多基于特定的疾病或指南情境，且多聚焦于指南使用者的认知、态度及依从性问题，尚未有研究开发指南实施效果的通用性评价方法，缺乏基于成熟理论且维度全面的实施效果通用评价工具^{[11, 12]}。

基于以上问题，本团队组建多学科小组，在系统评价现有临床实践指南实施效果评价方法的基础上，基于实施科学（implementation science）可及-有效-采纳-贯彻-维持（reach effectiveness adoption implementation maintenance，RE-AIM）理论框架，经过两轮德尔菲专家咨询，制定形成多维度、通用性、标准化的临床实践指南实施效果评价工具（guideline implementation effect evaluation tool，IEET），用于指南实施效果的科学评价和实施监测，从医务人员、患者两视角科学、精准评估指南的实施效果，探索实施效果影响因素，推动指南实施水平的提升和医疗质量的持续改进。

在工具制定完成后，为保证所研制工具的准确性和科学性，通常采用定性及定量的方法评价测量工具的性能^[13]，主要对所设计的测量工具是否符合要求、结果是否可信与有效进行评价，即信效度评价。其中，信度评价主要考察测量工具的精确性、稳定性和一致性，即测量过程中随机误差造成的测定值变异程度的大小，而效度主要考察准确度、有效性和正确性，即考察实际测定结果与预定结果的符合程度^[13-15]。

本研究选取《中国2型糖尿病防治指南（2020版）》^[16]为目标指南开展实证研究，旨在对前期开发的临床实践指南实施效果评价工具的信效度进行评价，综合评估该工具的准确性与有效性，为工具的后续优化工作提供依据。

1 对象与方法

1.1 临床实践指南实施效果评价工具

临床实践指南实施效果评价工具基于标准的量表工具开发流程及EQUATOR相关报告规范科学制定^{[17, 18]}，用于调查发布时间1年以上的临床实践指南的实施效果，不区分被调查指南所涉疾病或指南类型。该工具共包含20个条目，从指南的“获知”（3条目）、“采纳”（4条目）、“实践”（2条目）、“临床效果”（5条目：包括医务人员评价条目3个，患者评价条目2个）及“维持”（3条目）5个维度对指南的实施效果进行综合考察，同时考察“指南实施效果的障碍和促进因素”（1条目）及“总体评价”（2条目）。实际调查时，同时开展医务人员调查及患者调查，综合调查结果计算目标指南实施效果的最终得分（工具条目见附件表1）。

1.2 目标指南的选择

临床实践指南实施效果评价工具对被调查指南的基本要求包括：① 临床实践指南；② 发表时间一年以上，且为最新版本的指南；③ 权威机构发表，指南质量良好。基于以上基本原则，本研究从研究价值、调查适配性、指南权威性、临床适用性层面综合考量，选定2021年由中华医学会糖尿病学分会牵头修订完成的《中国2型糖尿病防治指南（2020版）》作为目标指南^[16]。作为基于循证证据的临床实践指南，该指南发布后得到广泛的传播与使用，研究证实其临床适用性（即可获得性、可读性、可接受性、可行性）良好^[19]。选择《中国2型糖尿病防治指南（2020版）》作为目标指南开展实证研究和工具的信效度检验，有助于掌握指南的实施效果，为有效推进糖尿病防控工作提供助力。

1.3 调查对象与调查方法

在2022年10月至12月期间，采用目的性抽样方法，选取全国不同地区、不同层级医疗机构开展调查。选取各医疗机构2型糖尿病诊疗活动相关科室（如内分泌科、老年科等），采取便利抽样法在各科室中抽取调查对象，在说明调查内容和目的后，由科室联系人统一向调查对象发放电子问卷。

调查对象包括临床医务人员及患者。临床医务人员包含医生、护士及药师，工作年限、职称等不限，涵盖高、中、初级等职称。被调查患者为临床诊断为2型糖尿病的成年患者，年龄≥18岁，于被调查医疗机构因“2型糖尿病”就诊，要求能够独立完成问卷填写，其他条件不限。临床医务人员及2型糖尿病患者分别填写相应电子问卷。研究者在线访问电子问卷结果，实时跟进调查进度。

1.4 样本量的计算

根据对结果进行多因素分析的研究需要，调查研究样本量预估为影响因素的5～20倍^[20]，设定样本量为影响因素的10倍、失访率20%，计算得到最小样本量为医务人员216例，患者384例。为平衡地域及医疗机构因素，使各地域间均衡可比，保证检验效能，最终设计目标样本量为医务人员640例，患者800例，即：调查医疗机构总数40家（其中三级医院25家，二级医院15家，覆盖东、中、西部地区），每家医院调查2型糖尿病诊疗相关科室（内分泌科、老年科等）临床医务人员16人，同时每家医院调查2型糖尿病患者20人（其中门诊患者10人，住院患者10人）。

1.5 数据清理

使用Excel 2016软件，由两位研究人员对回收的问卷进行数据清理，核对纳入信息的准确性，剔除不合格问卷后对于各选项答案进行标化及归一化，验证答案逻辑。不合格问卷的判定原则：含基本信息在内的问题回答不全，但不包括本身题目逻辑设置的问题跳过。不一致的数据与第三位研究人员查阅原始数据并讨论后确认。

1.6 统计分析

1.6.1 结果处理与评分计算

将医务人员及患者问卷调查结果合并，各个维度及总体评价得分进行标准化处理，通过拟定的评分计算方法获得相应维度及最终得分。采用均值、标准差、中位数、四分位数间距、最大值、最小值、率等指标描述各维度评分、总体评价得分及维度加和得分。

1.6.2 信度分析

针对纳入工具评分计算的可量化条目，采用内部一致性信度及分半信度评价工具内在信度^{[13, 14, 21-23]}：通过计算各维度评分及整体工具的Cronbach’ α系数得出内部一致性信度；采用奇偶分半法随机将评价条目平分为2组，利用Spearman-Brown方法计算分半系数得出分半信度。如遇反向题目，将选项反向后进行分析。一般认为信度>0.7时稳定性高，>0.6可接受^{[21, 23]}。

1.6.3 效度分析

采用内容效度对评价工具条目测量相关概念的合理性和有效性进行评价^{[14, 15]}。

结构效度反映量表理论结构与实际测量数据的相似程度，而因子分析是评价结构效度最常用、最有效的方法^{[13, 24, 25]}。由于本评价工具基于特定的理论框架研制，采用结构方程模型进行验证性因子分析，以评价结构效度^{[13, 24]}：采用AMOS 28软件绘制模型路径图，选择最大似然估计法或广义最小二乘法对模型进行拟合，模型的拟合评价指标包括^{[13, 21-24, 26]}：① 绝对拟合指标：卡方/自由度（χ²/df），均方根残差（RMR），标准化均方根残差（SRMR），近似误差均方根（RMSEA），拟合优度指数（GFI），调整拟合优度指数（AGFI）等；② 相对拟合指标：规范拟合指数（NFI），比较拟合指数（CFI）等；③ 节俭拟合指标：节俭规范拟合指数（PNFI）；④ 各条目因子载荷（λ≥0.71时质量佳，但不应低于0.40）。

采用平均萃取变异量比较法^[24]，通过对比平均萃取变异量（average variance extracted，AVE）的平方根（）与相关系数值对区分效度进行检验。若>相关系数值，则说明区分效度良好。若AVE>0.5且组合信度值CR>0.6，则说明聚合效度良好。

所有统计分析采用SPSS Statistics 23统计软件及SPSS Amos 28软件包完成。

2 结果

2.1 问卷回收情况

本研究最终实际调查医疗机构55家，其中三级医疗机构35家（其中东部地区17家，西部10家，中部8家）、二级医疗机构20家（其中东部8家，西部7家，中部5家）。累积发放医务人员问卷751份，剔除不合格问卷7份，回收有效问卷744份，有效回收率99.1%；发放患者问卷843份，回收有效问卷843份，有效回收率100%。

2.2 《中国2型糖尿病防治指南（2020年版）》实施效果得分

《中国2型糖尿病防治指南（2020年版）》实施效果各维度和总得分见附件表2。结果显示，该指南总得分中位数为88.24分，均值为75.20分；在各维度得分中，临床效果维度得分最低（中位数为75.22分）。

2.3 信度分析

2.3.1 内部一致性信度

内部一致性信度分析结果见附件表3，医务人员条目Cronbach’α系数为0.903，患者条目Cronbach’α系数为0.932，整体信度高；各维度Cronbach’α系数均大于0.6，各维度内部一致性信度良好。

2.3.2 分半信度

使用Spearman-Brown公式计算分半信度系数，见附件表3，医务人员及患者条目分半系数分别为0.873、0.852，分半信度佳。

2.4 效度分析

2.4.1 内容效度

本工具采用科学的制定方法研制完成：系统评价国内外临床实践指南实施效果的评价方法，基于主题综合法提取、归纳评价条目，基于实施科学RE-AIM理论框架，经多次面对面讨论搭建实施效果评价条目清单。通过专家共识会议及两轮德尔菲专家咨询收集专家对维度或条目的评分及建议，对拟定的评价工具进行修订，最终形成临床实践指南实施效果评价工具。

工具制定过程中，通过开展两轮德尔菲专家咨询，对评价工具的条目重要性、熟悉程度、条目判断依据、维度与条目的相关性及通俗易懂性进行评价。结果表明，工具具有良好的内容效度：最终70%条目的条目水平的内容效度值超过阈值（即I-CVI≥0.78），90%条目经随机一致性校正后的Kappa值达标（即K*>0.74），整体水平的内容效度高（S-CVI/Ave=0.846）。

2.4.2 结构效度、聚合效度与区分效度

根据本临床实践指南实施效果评价工具的理论结构，对医务人员及患者条目分别构建结构方程模型评价结构效度、聚合效度及区分效度。

1）医务人员条目：以“获知-采纳-实践-临床效果-维持”5维度作为潜变量，各维度下可量化条目作为观测变量，在AMOS 28软件包中构建多维结构方程模型（附件图1），选择广义最小二乘法对模型进行拟合。排除无法对选项进行赋分的条目（如对于时间节点的调查），对于涉及多项选择的条目，基于调查对象选择项数的多少对其进行赋值。基于工具的基本概念及内在逻辑，最终，条目1、3～6、8～12、15～17纳入模型构建。

模型拟合结果及因子载荷情况见附件表4、5。除维持维度下条目3因子载荷较低，即该条目对维持维度贡献较少外，其余条目的因子载荷均达标，多数条目均能有效反映潜变量的特征。模型χ²/df=8.695，绝对拟合指标RMR、SRMR、RMSEA均小于或接近0.10，GFI>0.90，相对拟合指标AGFI接近0.90，节俭拟合指标PNFI>0.50，模型拟合程度可接受，理论结构较为合理。

聚合效度分析结果见附件表5，除维持维度AVE值接近0.5的阈值外，其余维度AVE及CR值均达标，聚合效度良好。区分效度分析结果见附件表6，除获知及采纳维度外，其余维度间均大于相关系数值，获知及采纳维度的区分效度有待提高。

2）患者条目：以患者条目（诊疗效果、生活质量）为二阶潜变量，生活质量条目下各评价层次为一阶潜变量，各条目下实际问题作为观测变量构建二阶结构方程模型（附件图2），采用最大似然法对模型进行拟合。患者条目下Q1-3、Q’3-26纳入模型构建，其余条目因已知与所测量的概念无关而被排除。

模型拟合结果及因子载荷情况如下（附件表7、8），除生理层次下Q’3、Q’4及心理层次下Q’26因子载荷过低外，其余问题因子载荷达标，表示多数问题能有效反映潜变量的特征。模型χ²/df=6.123，绝对拟合指标RMR、SRMR、RMSEA小于0.10，GFI、NFI、CFI值接近0.90，节俭拟合指标PNFI>0.50，表明患者条目结构方程模型拟合程度良好，模型理论结构合理。

聚合效度分析结果显示（附件表8），诊疗效果条目AVE值未达标，即所设条目无法反映同一潜在特质，生活质量条目下生理层次及心理层次AVE值接近阈值（0.50）。对患者条目区分效度的分析结果显示，诊疗效果与生活质量条目间（0.640）大于相关系数值（0.366）（P<0.01），区分效度达标。

3 讨论

本研究针对《中国2型糖尿病防治指南（2020版）》开展实证研究，以对临床实践指南实施效果评价工具的信效度进行评价。

信度分析结果表明，该工具能稳定测量所测量的结果，即具有良好的信度水平：医务人员条目及患者条目的整体Cronbach’α系数、分半信度系数分别为0.903、0.873及0.932、0.852，各维度Cronbach’α系数在0.650至0.986之间，提示评价条目以及各维度的信度良好。指南研究与评价工具（appraisal of guidelines research and evaluation，AGREE）及AGREEⅡ工具是由AGREE协作网发布的用于临床实践指南质量评价的评估工具，作为指南质量评价的“金标准”，该工具在制定中同样进行了信效度评价，结果表明，AGREE工具各维度Cronbach’α系数在0.64～0.88之间，AGREEⅡ工具各维度Cronbach’α系数在0.64～0.89之间^{[27, 28]}。曾力楠等人研发了指南临床适用性评价工具并评价其信效度，结果表明，该工具各维度及整体的Cronbach’α系数在0.728～0.846之间^[29]。与其他指南评价工具相比较，本工具具有良好的信度水平。

效度分析结果表明，临床实践指南实施效果评价工具整体效度良好：对于内容效度，得益于工具研制过程采用严谨的制定流程和科学的理论框架，及收集专家咨询结果对工具的结构及内容进行的反复修订，多数（18/20）条目水平的内容效度佳（K*>0.74），整体水平的内容效度高（S-CVI/Ave=0.846），所设条目能够反映测量目的和要求。对于结构效度而言，医务人员条目部分拟合指标RMR、SRMR、RMSEA及AGFI达到或接近阈值水平，GFI及PNFI超过阈值，模型拟合程度可接受；除维持维度外聚合效度良好，获知与采纳维度区分效度有待提高。患者条目部分多数拟合指标达到或接近阈值，拟合程度良好，结构合理。

综合信效度评价的结果可以看出，本评价工具具有良好的信效度水平，工具测量结果较为稳定可靠。本次效度评价中存在未达理想的指标，究其原因可能为：首先，条目设置有待改进，所设条目不能很好反映所要测量的维度内涵，在后续对工具的改进工作中，将针对本次效度评价中未达标条目进行改进：针对医务人员条目部分，通过修改表述、增补或删减条目等方式进一步改进模型理论结构，提高整体拟合水平，调整维持维度下条目设置，提高其聚合效度，而考虑提高获知及采纳维度的区分度；对于患者条目部分，需要重点考虑患者诊疗效果评价的条目设置，提高聚合效度。其次，本次信效度评价与目标指南实施效果评价的实证研究并行，由于实际开展工作的限制，采用远程调研的方法，难以对纳入研究样本的质量进行较好的把控，可能存在样本量过大而异质性高、样本质量参差不齐等问题。在后续进一步的改进和验证工作中，将重点考虑研究的质量控制。

由于研究时间和成本的限制，本研究仅选取一部临床实践指南进行实施效果评价并作为工具的信效度评价，研究结果的代表性尚有不足，后期将对更多指南开展实施效果评价，并行工具的信效度分析，以进一步验证工具的可靠性和有效性，为完善和工具优化提供依据。

综上所述，本研究采用先前研制的临床实践指南实施效果评价工具，针对《中国2型糖尿病防治指南（2020版）》在全国医疗机构的临床医务人员及患者中开展实证研究，进行信效度评价以考察该评价工具性能。研究结果反映本评价工具整体信效度良好，临床效果中患者条目部分及维持维度效度有待提高。后续改进工作将针对信效度评价中表现不佳的条目进行调整以满足信效度要求。此外，将针对更多指南开展实证研究，进一步验证工具性能，评价我国当前临床实践指南实施效果。