• 1. 同济大学 生命科学与技术学院(上海 200092);
  • 2. 北京大学 医学信息学中心(北京 100080);
  • 3. 飞利浦中国研究院(上海 200072);
  • 4. 华南师范大学 计算机学院(广州 510631);
导出 下载 收藏 扫码 引用

受试者招募是影响临床试验进展和结果的关键环节,一般通过筛选标准(包括纳入标准和排除标准)进行招募。筛选标准的语义类别研究可以优化临床试验设计和促进受试者自动筛选系统开发。本文通过学术测评的方式探究了利用人工智能技术对中文临床试验筛选标准语义类别的自动分类问题。本文收集了 38 341 条带语义标注的中文筛选标准文本,并预先定义了 44 种语义类别。总共有 75 支队伍报名参加测评,其中 27 支队伍提交了结果。结果分析发现大部分参赛队伍使用了混合模型,主流的方法是引入能提供丰富语义表示的预训练语言模型,结合神经网络模型,针对分类任务进行微调,最后进行模型集成提高最终性能。研究结果显示,最佳系统的性能达到 0.81 的宏平均 F1 值,其主要是使用了基于预训练语言模型——变换器双向编码表征模型(BERT)与模型融合的方法。结果错误分析显示,从数据处理步骤来看,数据的预处理和后处理非常重要;从语料数量来看,数量较少类别的分类效果一般。通过本文研究,最终期望本文研究成果能为中文临床试验筛选标准短文本分类研究领域提供可供研究的数据集和最新结果。

引用本文: 宗辉, 张泽宇, 杨金璇, 雷健波, 李作峰, 郝天永, 张晓艳. 基于人工智能的中文临床试验筛选标准文本分类研究. 生物医学工程学杂志, 2021, 38(1): 105-110, 121. doi: 10.7507/1001-5515.202006035 复制

  • 上一篇

    基于极限梯度提升和深度神经网络共同决策的心音分类方法
  • 下一篇

    靶向猪基因组单链向导RNA快速筛选以及利用图案微阵列收获单克隆细胞的研究