基于深度表示的中医病历症状表型命名实体抽取研究

摘要:

目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识.方法:本文随机选取了10426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec)两种构建向量的方法生成不同的词向量特征,再在基于条件随机场(Conditional Random Field,CRF)和结构化支持向量机(Structured Support Vector Machines,SSVM)的方法上进行十重交叉验证,计算并比较基于深度表示的症状表型命名实体抽取的性能.结果:传统的CRF算法的三个评价指标(准确率,召回率,F值)为(0.888 9,0.786 9,0.834 8);基于WENER方法下的CRF和SSVM的评价指标为(0.975 0,0.984 9,0.979 8)和(0.992 8,0.988 9,0.990 8);在GENER方法下基于词的CRF和SSVM算法的三个评价指标为(0.972 8,0.976 8,0.975 2)和(0.983 3,0.974 5,0.978 8);GENER方法下基于字的CRF和SSVM算法的评价指标为(0.927 8,0.862 8,0.887 9)和(0.943 7,0.946 8,0.941 3).结论:深度表示的命名实体抽取算法性能要比传统的非深度表示的命名实体标识算法性能好.另外,通过比较深度表示的两种算法的性能后发现,无论是基于word2vec生成的词向量还是基于node2vec生成的词向量,SSVM模型算法性能均优于CRF算法的性能.

Abstract:

  • doi:
  • 关键词: 条件随机场 结构化支持向量机 命名实体抽取 中医病历
  • Keyword:
  • 作者: 原旎 卢克治 袁玉虎 舒梓心 杨扩 张润顺 李晓东 周雪忠
  • Author: Yuan Ni Lu Kezhi Yuan Yuhu Shu Zixin Yang Kuo Zhang Runshun Li Xiaodong Zhou Xuezhong
  • 作者单位:
  • 刊名: 世界科学技术-中医药现代化
  • Journal:
  • 年,卷(期):
  • 所属期刊栏目:
  • 基金项目
  • 在线出版日期:
  • 页码:
相同研究主题
相关论文(与本文研究主题相同或者相近的论文)
Copyright © 2014-2019 晟斯医学 All Rights Reserved. 备案号:苏ICP备11037034号-5 版权所有:南京孜文信息咨询有限公司