Lattice LSTM神经网络法中文医学文本命名实体识别模型研究

摘要:

目的 探索利用点阵(lattice)长短期记忆(long short term mermory network,LSTM)神经网络构建命名实体识别(named entity recognition,NER)模型解决中文医学文本的信息提取问题.方法 利用Lattice LSTM来表征句子中的词汇词(lexicon word),从而将潜在词信息整合到基于字符的长短期记忆网络—条件随机场(long short term memory-conditional random field,LSTM-CRF)模型中.进一步使用一个大型自动获取的词典来匹配句子,进而构建基于词的Lattice.利用Lattice LSTM结构自动控制从句子开头至结尾的信息流.结果 门控单元可用于将来自不同路径的信息动态传送到每个字符.在NER数据基础上进行训练后,Lattice LSTM能够学会从语境中自动找到更有用的词汇,以取得更好的NER性能.结论 与基于字符和词的NER方法相比,本文所提出的模型优势在于利用显性词汇信息而不是字符序列进行标注,同时较少出现分词误差.

Abstract:

  • doi:
  • 关键词: 神经网络 中文医学文本 命名实体识别
  • Keyword:
  • 作者: 王博冉 林夏 朱晓东 朱万琳 马学华
  • Author: WANG Boran LIN Xia ZHU Xiaodong ZHU Wanlin MA Xuehua
  • 作者单位:
  • 刊名: 中国卫生信息管理杂志
  • Journal:
  • 年,卷(期):
  • 所属期刊栏目:
  • 基金项目
  • 在线出版日期:
  • 页码:
相同研究主题
相关论文(与本文研究主题相同或者相近的论文)
Copyright © 2014-2019 晟斯医学 All Rights Reserved. 备案号:苏ICP备11037034号-5 版权所有:南京孜文信息咨询有限公司