受试者招募是影响临床试验进展和结果的关键环节,一般通过筛选标准(包括纳入标准和排除标准)进行招募。筛选标准的语义类别研究可以优化临床试验设计和促进受试者自动筛选系统开发。本文通过学术测评的方式探究了利用人工智能技术对中文临床试验筛选标准语义类别的自动分类问题。本文收集了 38 341 条带语义标注的中文筛选标准文本,并预先定义了 44 种语义类别。总共有 75 支队伍报名参加测评,其中 27 支队伍提交了结果。结果分析发现大部分参赛队伍使用了混合模型,主流的方法是引入能提供丰富语义表示的预训练语言模型,结合神经网络模型,针对分类任务进行微调,最后进行模型集成提高最终性能。研究结果显示,最佳系统的性能达到 0.81 的宏平均 F1 值,其主要是使用了基于预训练语言模型——变换器双向编码表征模型(BERT)与模型融合的方法。结果错误分析显示,从数据处理步骤来看,数据的预处理和后处理非常重要;从语料数量来看,数量较少类别的分类效果一般。通过本文研究,最终期望本文研究成果能为中文临床试验筛选标准短文本分类研究领域提供可供研究的数据集和最新结果。
引用本文: 宗辉, 张泽宇, 杨金璇, 雷健波, 李作峰, 郝天永, 张晓艳. 基于人工智能的中文临床试验筛选标准文本分类研究. 生物医学工程学杂志, 2021, 38(1): 105-110, 121. doi: 10.7507/1001-5515.202006035 复制
引言
临床试验是指通过人体(志愿者,也称受试者)进行的科学研究,目的是确定一种药物或一项治疗方法的疗效、安全性以及存在的副作用,对于促进医学发展和提高人类健康有着积极的作用。根据临床试验目的不同,受试者可能是患者或健康志愿者。受试者筛选标准,是临床试验设计者拟定的鉴定受试者是否满足该临床试验的主要指标,分为入组标准和排除标准,一般为无规则的自由文本形式。
临床试验的受试者招募一般是通过人工比较病历记录和临床试验筛选标准完成,这种方式费时、费力且效率低下。因此,临床试验面临诸多困境,比如受试者招募困难导致临床试验难以按期完成、入组患者流失影响试验的有效性等。近年来,随着临床试验数目越来越多、设计越来越复杂,基于自然语言处理和信息抽取的临床试验受试者自动化招募系统开始崭露头角呈现出不错的效果,且具有很大的实用前景和医学临床价值,然而目前这类研究大多针对英文临床试验筛选标准及英文电子健康记录数据[1]。近些年来,随着中国医疗信息化的发展,中文电子健康数据的相关研究已经取得了很多进展,然而针对中文临床试验筛选标准的自然语言处理研究很少,因此通过自然语言处理以及人工智能(artificial intelligence,AI)技术推进中文临床试验筛选标准的结构化和标准化等工作,对于推进中国临床试验研究的自动化和信息化发展具有重要意义。
第五届中国健康信息处理会议(China conference on health information processing,CHIP2019)(网址:http://www.cips-chip.org.cn/)的主题为“人工智能+医疗健康”。会议共享测评的任务三,是聚焦于“中文临床试验筛选标准短文本分类”,希望能通过最新的基于自然语言处理技术和深度学习算法的人工智能技术,促进中文临床试验筛选标准的相关研究。测评任务三,总计开放了 38 341 条带标注的中文临床试验筛选标准文本,以及预先定义好的 44 种语义类别标签。在此次测评任务中,给定一条真实的临床试验筛选标准,系统需要返回其对应的语义类别。测评任务最终排名指标为宏平均 F1 值。下述为两条示例数据:
例 1 输入:近期颅内或椎管内手术史
输出:Therapy or Surgery
例 2 输入:年龄大于 65 岁
输出:Age
1 中文医疗文本分类研究的相关工作
1.1 中文电子医疗记录的文本分类研究进展
文本分类是自然语言处理中的基础任务之一,有着成熟的技术和广泛的应用。随着医学信息化的发展,医疗文本分类在辅助诊断、信息结构化方面发挥着重要的作用。中文医疗文本分类任务是一项基础性任务,研究数据一般包括现代电子医疗记录和传统中医药文本两类。Zhang 等[2]将中文的产科电子医疗记录分为主诉、体格检查、产科检查和辅助检查四个类别,通过潜在狄利克雷分配(latent dirichlet allocation,LDA)主题模型抽取文本特征,使用跳字模型(skip-gram)方法训练词向量,训练了四种不同的多类别分类器,用于辅助诊断。Yao 等[3]针对中医药的临床记录研究不同类型的特征和分类算法的效果,并提取了一种将深度学习文本表示与中医药领域知识相结合的新方法,获得了最佳分类性能。Zhang 等[4]则侧重于中医证候类别鉴定,基于血管性轻度认知障碍数据,使用潜在类别分析模型来识别证候类型,并开发了相关软件。
1.2 临床试验筛选标准的语义类别研究
英文临床试验筛选标准的语义类别相关研究一直备受学者关注。经由领域内专家们达成的共识,美国国家癌症研究所的生物医学研究整合领域研究组(the biomedical research integrated domain group,BRIDG)针对英文筛选标准定义了 17 种类别属性[5]。Luo 等[6-7]下载了 27 278 条来自美国临床试验注册中心网站(网址:clinicaltrials.gov)中真实世界英文临床试验筛选标准语句,使用一体化医学语言系统(unified medical language system,UMLS)语义类型构建句子特征,通过由底向上的层次聚类算法和人工归纳总结,最终获得了 27 类语义类型,并设计了不同的机器学习分类器且取得了不错的效果。而针对中文临床试验筛选标准的语义类别鲜有研究,在此次 CHIP2019 测评任务三的前期实验中,本文通过下载来自中国临床试验注册中心的中文筛选标准数据,并经层次聚类和人工归纳,总结出了 44 种中文临床试验筛选标准语义类别。
临床试验筛选标准的语义类别研究可以优化筛选标准设计,有效促进受试者招募。Zhang 等[8]通过临床试验筛选标准的自动分类促进了特定人群(如艾滋病病毒感染者和孕妇)的临床试验匹配。2018 年国际自然语言处理临床挑战赛(national natural language processing clinical challenges,N2C2 2018)测评任务一开放了 288 份糖尿病患者完整的纵向叙述型医疗记录,以及事先定义好的 13 条筛选标准,聚焦于探索是否可以通过构建自动化的自然语言处理系统来鉴定符合条件的受试者[9],排名第一的系统使用基于规则的方法,其宏平均 F1 值达到了 0.91[10]。2017 年美国临床肿瘤学会(American society of clinical oncology,ASCO)通过研究临床试验入组患者和真实世界的患者分布,提出对多种筛选标准类别应该优化并适当放宽限制条件,这些筛选标准包括儿童患者入组成人癌症临床试验的最低年龄限制[11]、纳入艾滋病病毒(或乙肝、丙肝)感染者[12]、纳入器官功能障碍者、纳入第二原发癌或有既往史者[13]和纳入脑转移癌症患者[14]等。不同语义类型的筛选标准可以在不同医疗资料中找到对应的信息,并在医疗临床研究中发挥着重要的作用,正确鉴定临床试验中的筛选标准语义类别是这些研究的基础和支撑。此次 CHIP2019 测评任务三聚焦于中文临床试验筛选标准类别的分类任务,希望能通过最新的基于自然语言处理技术和深度学习算法的人工智能技术,促进中文临床试验筛选标准的相关研究。
2 实验数据
CHIP2019 测评任务三的数据集来源于中国临床试验注册中心网站(网址:www.chictr.org.cn)的真实临床试验筛选标准,该网站临床试验注册信息数据公开透明,可用于科学研究。筛选标准一般为一段非结构化的自由文本数据,长度不一,用来描述符合某临床试验的受试者的各种信息,如年龄、性别和疾病等。本文在前期实验中通过层次聚类和人工归纳,总结出了 7 种主题和 44 种语义类别,并对每种类别定义了描述信息和标注规则。2 名具有生物医学信息学研究经验的标注者根据定义好的标注规则对筛选标准语句进行了标注,然后本文根据科恩卡帕评分(Cohen’s kappa)对每个类别进行标注一致性计算,总体的一致性分数为 0.992。
CHIP2019 测评任务三最终公布的数据集包括 44 种语义类别定义和 38 341 条筛选标准,其中包括训练集 22 962 条,验证集 7 682 条,测试集 7 697 条。该数据集存在类别数据量分布不均衡的特点,数量较多的类别如疾病(disease)包含有 8 518 条数据,数量较少的类别如种族(ethnicity)仅包含 23 条数据,详细信息如表 1 所示。
3 实验结果
根据 CHIP2019 会议测评时间安排,在测评期间,参赛团队均通过邮箱进行报名。测评任务的训练集、验证集以及评估脚本于 2019 年 9 月 15 日发布后,参赛团队搭建并测试各自开发的模型。测试集数据于 10 月 31 日发布,每支参赛团队在测试集公布期间最多提交 5 次测试集结果。测评任务三于 2019 年 11 月 5 日截止,总共 75 支队伍报名参加测评,共计 104 人,其中 66 支队伍来自科研院校等机构,7 支队伍来自企业,2 支队伍为个人报名。最终 27 支队伍提交了模型测评结果,根据参赛规则,参赛队伍的测评方法和结果,由测评组织者进行学术测评分析研究。
3.1 评估指标
测评使用的评价指标包括宏平均准确率、宏平均召回率和宏平均 F1 值。最终排名以宏平均 F1 值为基准。假设有 n 个类别: C1,,Ci,,Cn,则各类别的准确率 Pi、各类别的召回率 Ri、宏平均准确率、宏平均召回率和宏平均 F1 值的计算公式如式(1)~式(5)所示:
3.2 结果分析
对 27 支队伍提交的测评结果进行分析,宏平均 F1 值的平均数为 0.770 502,最大值为 0.810 263,最小值为 0.553 736,中位数为 0.788 728。排名前九的队伍提交的各自最优的结果信息如表 2 所示,包括参赛单位、方法描述、是否使用外部数据集和宏平均 F1 值。排名前九的队伍系统的结果在中文筛选标准各个语义类别上的具体表现如图 1 所示。
3.3 方法分析
引入预训练语言模型,结合神经网络模型,然后针对分类任务进行微调,最后进行多种模型集成是解决中文临床试验筛选标准短文本分类任务的主流解决思路。预训练语言模型一般使用大规模文本语料库进行预训练,能够提供丰富的语义表示信息,并且可以针对特定任务进行微调。任务三的参赛队伍使用了多种预训练语言模型,主要包括语言模型嵌入(embeddings from language models,ELMO)、变换器双向编码表征模型(bidirectional encoder representations from transformers,BERT)、强力优化变换器双向编码表征模型(robustly optimized BERT,RoBERT)、知识整合增强表征模型(enhanced representation from knowledge integration,ERNIE)、语言理解的广义自回归预训练模型(generalized autoregressive pretraining for language understanding,XLNERT)。其中 BERT 模型使用次数最多,在单独使用时效果也最好。此外多种机器学习算法通过与预训练语言模型拼接进行分类,包括神经网络模型,如卷积神经网络模型(convolutional neural network,CNN)、深层金字塔卷积神经网络模型(deep pyramid convolutional neural networks,DPCNN)、长短期记忆网络模型(long short-term memory,LSTM)和注意力机制模型(attention mechanism)等,统计学模型如支持向量机(support vector machine,SVM)和随机森林(random forest,RF)等。提交的最终结果显示,相比于统计学模型,神经网络模型在多分类任务中具有更好的性能表现,但不同的神经网络模型之间差别不大。在模型微调中,排名第二的团队采用了倾斜的三角学习率方法,使得模型可以在训练开始时快速收敛到参数空间的合适区域,然后再细化其参数。
数据预处理可以使模型更好地提取到文本中的特征,提高模型的预测和泛化能力。在此次测评中大多数队伍都对数据进行预处理操作,主要包括以下几点:① 去除重复数据;② 删除特殊表述(如长串数字、停用词和标点符号);③ 变形词识别和替换(如繁体字转换为简体字、英文大写转换为小写、全角字符转换为半角字符、特殊符号替换、同音形近字替换);④ 将过长的文本截断。结果显示,这些预处理操作能有效提升模型最终的表现。此外加入其它特征也能对模型产生一定的影响,这些特征主要包括句法特征(如句子的主谓宾)、关键词特征、词性特征、词频-逆文档频率特征、句子长度、句子中的特殊符号数量(如数字个数、比较符个数和英文字母个数)等,这些特征的提取工作一般借助于中文自然语言处理工具包和结巴分词实现。
3.4 错误分析
如图 1 所示为排名前九的队伍提交结果在中文筛选标准各个语义类别上的表现,纵坐标表示 F1 值,横坐标表示 44 种语义类别,并按照 F1 值的从大到小进行排序。大多数类别的 F1 值都在 0.80 以上。性别(gender)分类效果最优,所有队伍结果中 F1 值都为 1.0,主要原因是性别(gender)这类数据数量多,句子长度较短,句子信息有很强的辨识性。体征(sign)分类效果最差,成绩在 0.38~0.48 之间,这主要是因为体征(sign)表示临床医生通过查体发现的患者异常现象,在中文临床试验筛选标准中,描述信息包括体征名称、发生时间、状态、严重程度等,不同的临床试验,其筛选标准文本对体征描述侧重不同,这些都会影响分类器的学习和泛化能力。
结合各类别的数据量和文本描述信息分析,可以发现数据量大、数据具有独特性描述特征的语义类别分类效果较好,而数据稀疏性强的语义类别分类效果较差。系统表现好的筛选标准类别,如性别(gender)、伦理审查(ethical audit)、吸烟状况(smoking status)和年龄(age)一般其文本描述信息独特性高、辨识性强,这都会帮助分类器表现出好的分类效果。分类效果差的筛选标准类别,如特殊患者特征(special patient characteristic)、设备(device)、护理(nursing)、受体状态(receptor status)和体征(sign),由于数据量少、而且数据集中文本描述差异性明显,因此分类效果表现一般。
此外,含多个类别(multiple)的平均 F1 值达到了 0.773 915。与其他单语义类别筛选标准相比,这个类别包含二种以上语义类别信息,文本一般长度较长且更复杂,是这次测评任务三中独特的一个类别。
结合不同队伍的系统方案分析,发现在分类效果好的筛选标准语义类别中,各系统方案的表现差别不大,在分类效果差的这些类别中,各系统方案表现差异明显。因此提升这些数据量少、辨识性低的类别的分类效果,对系统总体的提升有明显的帮助。预训练语言模型结合神经网络分类模型是大多数队伍采用的方案,总体分类效果会很高。而仅采用预训练语言模型的方案在某些类别中的表现却明显高于其他方案,如排名第 4 的系统使用了 BERT 模型、ERNIE 模型、XLNET 模型在类别锻炼(exercise)中效果最好,排名第 5 的系统仅使用了 BERT 模型在性取向(sexual related)和居住情况(address)类别中效果最好,排名第 9 的系统仅使用了 ERNIE 在睡眠(bedtime)类别中效果最好。
4 结语
CHIP2019 中国健康信息处理会议共享测评任务三为中文临床试验筛选标准短文本分类,总共开放了 38 341 条筛选标准和预先定义好的 44 种语义类别。一共 27 支队伍提交了最终结果,排名第 1 的系统宏平均 F1 值达到 0.810 263,其使用了预训练语言模型 BERT 和模型融合的分类方法。大部分参赛团队都使用各种预训练语言模型,结合神经网络模型,然后针对分类任务进行微调,最后进行模型集成提高最终系统表现。结果分析显示排名前九的系统总体表现很接近,在宏平均 F1 值在 0.79~0.81 之间。但不同类别的筛选标准分类结果差异明显,F1 值最低为 0.38,最高可达到 1.0。数据量大、描述文本独特性高、辨识性强的类别效果明显较好。这次 CHIP2019 共享测评任务三同时也为中文医学文本分类任务提供了可供参考的数据集和最新结果(下载网址:https://github.com/zonghui0228/chip2019task3)。在未来的工作中,学习不同语义类别的差异性知识,提高小类别的表现,可以进一步提高医学短文本分类系统的性能。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
临床试验是指通过人体(志愿者,也称受试者)进行的科学研究,目的是确定一种药物或一项治疗方法的疗效、安全性以及存在的副作用,对于促进医学发展和提高人类健康有着积极的作用。根据临床试验目的不同,受试者可能是患者或健康志愿者。受试者筛选标准,是临床试验设计者拟定的鉴定受试者是否满足该临床试验的主要指标,分为入组标准和排除标准,一般为无规则的自由文本形式。
临床试验的受试者招募一般是通过人工比较病历记录和临床试验筛选标准完成,这种方式费时、费力且效率低下。因此,临床试验面临诸多困境,比如受试者招募困难导致临床试验难以按期完成、入组患者流失影响试验的有效性等。近年来,随着临床试验数目越来越多、设计越来越复杂,基于自然语言处理和信息抽取的临床试验受试者自动化招募系统开始崭露头角呈现出不错的效果,且具有很大的实用前景和医学临床价值,然而目前这类研究大多针对英文临床试验筛选标准及英文电子健康记录数据[1]。近些年来,随着中国医疗信息化的发展,中文电子健康数据的相关研究已经取得了很多进展,然而针对中文临床试验筛选标准的自然语言处理研究很少,因此通过自然语言处理以及人工智能(artificial intelligence,AI)技术推进中文临床试验筛选标准的结构化和标准化等工作,对于推进中国临床试验研究的自动化和信息化发展具有重要意义。
第五届中国健康信息处理会议(China conference on health information processing,CHIP2019)(网址:http://www.cips-chip.org.cn/)的主题为“人工智能+医疗健康”。会议共享测评的任务三,是聚焦于“中文临床试验筛选标准短文本分类”,希望能通过最新的基于自然语言处理技术和深度学习算法的人工智能技术,促进中文临床试验筛选标准的相关研究。测评任务三,总计开放了 38 341 条带标注的中文临床试验筛选标准文本,以及预先定义好的 44 种语义类别标签。在此次测评任务中,给定一条真实的临床试验筛选标准,系统需要返回其对应的语义类别。测评任务最终排名指标为宏平均 F1 值。下述为两条示例数据:
例 1 输入:近期颅内或椎管内手术史
输出:Therapy or Surgery
例 2 输入:年龄大于 65 岁
输出:Age
1 中文医疗文本分类研究的相关工作
1.1 中文电子医疗记录的文本分类研究进展
文本分类是自然语言处理中的基础任务之一,有着成熟的技术和广泛的应用。随着医学信息化的发展,医疗文本分类在辅助诊断、信息结构化方面发挥着重要的作用。中文医疗文本分类任务是一项基础性任务,研究数据一般包括现代电子医疗记录和传统中医药文本两类。Zhang 等[2]将中文的产科电子医疗记录分为主诉、体格检查、产科检查和辅助检查四个类别,通过潜在狄利克雷分配(latent dirichlet allocation,LDA)主题模型抽取文本特征,使用跳字模型(skip-gram)方法训练词向量,训练了四种不同的多类别分类器,用于辅助诊断。Yao 等[3]针对中医药的临床记录研究不同类型的特征和分类算法的效果,并提取了一种将深度学习文本表示与中医药领域知识相结合的新方法,获得了最佳分类性能。Zhang 等[4]则侧重于中医证候类别鉴定,基于血管性轻度认知障碍数据,使用潜在类别分析模型来识别证候类型,并开发了相关软件。
1.2 临床试验筛选标准的语义类别研究
英文临床试验筛选标准的语义类别相关研究一直备受学者关注。经由领域内专家们达成的共识,美国国家癌症研究所的生物医学研究整合领域研究组(the biomedical research integrated domain group,BRIDG)针对英文筛选标准定义了 17 种类别属性[5]。Luo 等[6-7]下载了 27 278 条来自美国临床试验注册中心网站(网址:clinicaltrials.gov)中真实世界英文临床试验筛选标准语句,使用一体化医学语言系统(unified medical language system,UMLS)语义类型构建句子特征,通过由底向上的层次聚类算法和人工归纳总结,最终获得了 27 类语义类型,并设计了不同的机器学习分类器且取得了不错的效果。而针对中文临床试验筛选标准的语义类别鲜有研究,在此次 CHIP2019 测评任务三的前期实验中,本文通过下载来自中国临床试验注册中心的中文筛选标准数据,并经层次聚类和人工归纳,总结出了 44 种中文临床试验筛选标准语义类别。
临床试验筛选标准的语义类别研究可以优化筛选标准设计,有效促进受试者招募。Zhang 等[8]通过临床试验筛选标准的自动分类促进了特定人群(如艾滋病病毒感染者和孕妇)的临床试验匹配。2018 年国际自然语言处理临床挑战赛(national natural language processing clinical challenges,N2C2 2018)测评任务一开放了 288 份糖尿病患者完整的纵向叙述型医疗记录,以及事先定义好的 13 条筛选标准,聚焦于探索是否可以通过构建自动化的自然语言处理系统来鉴定符合条件的受试者[9],排名第一的系统使用基于规则的方法,其宏平均 F1 值达到了 0.91[10]。2017 年美国临床肿瘤学会(American society of clinical oncology,ASCO)通过研究临床试验入组患者和真实世界的患者分布,提出对多种筛选标准类别应该优化并适当放宽限制条件,这些筛选标准包括儿童患者入组成人癌症临床试验的最低年龄限制[11]、纳入艾滋病病毒(或乙肝、丙肝)感染者[12]、纳入器官功能障碍者、纳入第二原发癌或有既往史者[13]和纳入脑转移癌症患者[14]等。不同语义类型的筛选标准可以在不同医疗资料中找到对应的信息,并在医疗临床研究中发挥着重要的作用,正确鉴定临床试验中的筛选标准语义类别是这些研究的基础和支撑。此次 CHIP2019 测评任务三聚焦于中文临床试验筛选标准类别的分类任务,希望能通过最新的基于自然语言处理技术和深度学习算法的人工智能技术,促进中文临床试验筛选标准的相关研究。
2 实验数据
CHIP2019 测评任务三的数据集来源于中国临床试验注册中心网站(网址:www.chictr.org.cn)的真实临床试验筛选标准,该网站临床试验注册信息数据公开透明,可用于科学研究。筛选标准一般为一段非结构化的自由文本数据,长度不一,用来描述符合某临床试验的受试者的各种信息,如年龄、性别和疾病等。本文在前期实验中通过层次聚类和人工归纳,总结出了 7 种主题和 44 种语义类别,并对每种类别定义了描述信息和标注规则。2 名具有生物医学信息学研究经验的标注者根据定义好的标注规则对筛选标准语句进行了标注,然后本文根据科恩卡帕评分(Cohen’s kappa)对每个类别进行标注一致性计算,总体的一致性分数为 0.992。
CHIP2019 测评任务三最终公布的数据集包括 44 种语义类别定义和 38 341 条筛选标准,其中包括训练集 22 962 条,验证集 7 682 条,测试集 7 697 条。该数据集存在类别数据量分布不均衡的特点,数量较多的类别如疾病(disease)包含有 8 518 条数据,数量较少的类别如种族(ethnicity)仅包含 23 条数据,详细信息如表 1 所示。
3 实验结果
根据 CHIP2019 会议测评时间安排,在测评期间,参赛团队均通过邮箱进行报名。测评任务的训练集、验证集以及评估脚本于 2019 年 9 月 15 日发布后,参赛团队搭建并测试各自开发的模型。测试集数据于 10 月 31 日发布,每支参赛团队在测试集公布期间最多提交 5 次测试集结果。测评任务三于 2019 年 11 月 5 日截止,总共 75 支队伍报名参加测评,共计 104 人,其中 66 支队伍来自科研院校等机构,7 支队伍来自企业,2 支队伍为个人报名。最终 27 支队伍提交了模型测评结果,根据参赛规则,参赛队伍的测评方法和结果,由测评组织者进行学术测评分析研究。
3.1 评估指标
测评使用的评价指标包括宏平均准确率、宏平均召回率和宏平均 F1 值。最终排名以宏平均 F1 值为基准。假设有 n 个类别: C1,,Ci,,Cn,则各类别的准确率 Pi、各类别的召回率 Ri、宏平均准确率、宏平均召回率和宏平均 F1 值的计算公式如式(1)~式(5)所示:
3.2 结果分析
对 27 支队伍提交的测评结果进行分析,宏平均 F1 值的平均数为 0.770 502,最大值为 0.810 263,最小值为 0.553 736,中位数为 0.788 728。排名前九的队伍提交的各自最优的结果信息如表 2 所示,包括参赛单位、方法描述、是否使用外部数据集和宏平均 F1 值。排名前九的队伍系统的结果在中文筛选标准各个语义类别上的具体表现如图 1 所示。
3.3 方法分析
引入预训练语言模型,结合神经网络模型,然后针对分类任务进行微调,最后进行多种模型集成是解决中文临床试验筛选标准短文本分类任务的主流解决思路。预训练语言模型一般使用大规模文本语料库进行预训练,能够提供丰富的语义表示信息,并且可以针对特定任务进行微调。任务三的参赛队伍使用了多种预训练语言模型,主要包括语言模型嵌入(embeddings from language models,ELMO)、变换器双向编码表征模型(bidirectional encoder representations from transformers,BERT)、强力优化变换器双向编码表征模型(robustly optimized BERT,RoBERT)、知识整合增强表征模型(enhanced representation from knowledge integration,ERNIE)、语言理解的广义自回归预训练模型(generalized autoregressive pretraining for language understanding,XLNERT)。其中 BERT 模型使用次数最多,在单独使用时效果也最好。此外多种机器学习算法通过与预训练语言模型拼接进行分类,包括神经网络模型,如卷积神经网络模型(convolutional neural network,CNN)、深层金字塔卷积神经网络模型(deep pyramid convolutional neural networks,DPCNN)、长短期记忆网络模型(long short-term memory,LSTM)和注意力机制模型(attention mechanism)等,统计学模型如支持向量机(support vector machine,SVM)和随机森林(random forest,RF)等。提交的最终结果显示,相比于统计学模型,神经网络模型在多分类任务中具有更好的性能表现,但不同的神经网络模型之间差别不大。在模型微调中,排名第二的团队采用了倾斜的三角学习率方法,使得模型可以在训练开始时快速收敛到参数空间的合适区域,然后再细化其参数。
数据预处理可以使模型更好地提取到文本中的特征,提高模型的预测和泛化能力。在此次测评中大多数队伍都对数据进行预处理操作,主要包括以下几点:① 去除重复数据;② 删除特殊表述(如长串数字、停用词和标点符号);③ 变形词识别和替换(如繁体字转换为简体字、英文大写转换为小写、全角字符转换为半角字符、特殊符号替换、同音形近字替换);④ 将过长的文本截断。结果显示,这些预处理操作能有效提升模型最终的表现。此外加入其它特征也能对模型产生一定的影响,这些特征主要包括句法特征(如句子的主谓宾)、关键词特征、词性特征、词频-逆文档频率特征、句子长度、句子中的特殊符号数量(如数字个数、比较符个数和英文字母个数)等,这些特征的提取工作一般借助于中文自然语言处理工具包和结巴分词实现。
3.4 错误分析
如图 1 所示为排名前九的队伍提交结果在中文筛选标准各个语义类别上的表现,纵坐标表示 F1 值,横坐标表示 44 种语义类别,并按照 F1 值的从大到小进行排序。大多数类别的 F1 值都在 0.80 以上。性别(gender)分类效果最优,所有队伍结果中 F1 值都为 1.0,主要原因是性别(gender)这类数据数量多,句子长度较短,句子信息有很强的辨识性。体征(sign)分类效果最差,成绩在 0.38~0.48 之间,这主要是因为体征(sign)表示临床医生通过查体发现的患者异常现象,在中文临床试验筛选标准中,描述信息包括体征名称、发生时间、状态、严重程度等,不同的临床试验,其筛选标准文本对体征描述侧重不同,这些都会影响分类器的学习和泛化能力。
结合各类别的数据量和文本描述信息分析,可以发现数据量大、数据具有独特性描述特征的语义类别分类效果较好,而数据稀疏性强的语义类别分类效果较差。系统表现好的筛选标准类别,如性别(gender)、伦理审查(ethical audit)、吸烟状况(smoking status)和年龄(age)一般其文本描述信息独特性高、辨识性强,这都会帮助分类器表现出好的分类效果。分类效果差的筛选标准类别,如特殊患者特征(special patient characteristic)、设备(device)、护理(nursing)、受体状态(receptor status)和体征(sign),由于数据量少、而且数据集中文本描述差异性明显,因此分类效果表现一般。
此外,含多个类别(multiple)的平均 F1 值达到了 0.773 915。与其他单语义类别筛选标准相比,这个类别包含二种以上语义类别信息,文本一般长度较长且更复杂,是这次测评任务三中独特的一个类别。
结合不同队伍的系统方案分析,发现在分类效果好的筛选标准语义类别中,各系统方案的表现差别不大,在分类效果差的这些类别中,各系统方案表现差异明显。因此提升这些数据量少、辨识性低的类别的分类效果,对系统总体的提升有明显的帮助。预训练语言模型结合神经网络分类模型是大多数队伍采用的方案,总体分类效果会很高。而仅采用预训练语言模型的方案在某些类别中的表现却明显高于其他方案,如排名第 4 的系统使用了 BERT 模型、ERNIE 模型、XLNET 模型在类别锻炼(exercise)中效果最好,排名第 5 的系统仅使用了 BERT 模型在性取向(sexual related)和居住情况(address)类别中效果最好,排名第 9 的系统仅使用了 ERNIE 在睡眠(bedtime)类别中效果最好。
4 结语
CHIP2019 中国健康信息处理会议共享测评任务三为中文临床试验筛选标准短文本分类,总共开放了 38 341 条筛选标准和预先定义好的 44 种语义类别。一共 27 支队伍提交了最终结果,排名第 1 的系统宏平均 F1 值达到 0.810 263,其使用了预训练语言模型 BERT 和模型融合的分类方法。大部分参赛团队都使用各种预训练语言模型,结合神经网络模型,然后针对分类任务进行微调,最后进行模型集成提高最终系统表现。结果分析显示排名前九的系统总体表现很接近,在宏平均 F1 值在 0.79~0.81 之间。但不同类别的筛选标准分类结果差异明显,F1 值最低为 0.38,最高可达到 1.0。数据量大、描述文本独特性高、辨识性强的类别效果明显较好。这次 CHIP2019 共享测评任务三同时也为中文医学文本分类任务提供了可供参考的数据集和最新结果(下载网址:https://github.com/zonghui0228/chip2019task3)。在未来的工作中,学习不同语义类别的差异性知识,提高小类别的表现,可以进一步提高医学短文本分类系统的性能。
利益冲突声明:本文全体作者均声明不存在利益冲突。