命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一.doc
《命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一.doc》由会员分享,可在线阅读,更多相关《命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一.doc(3页珍藏版)》请在三一文库上搜索。
1、命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一什么是命名实体识别(NER)?命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一。NLP的一般流程如下:句法分析是NLP任务的核心,NER是句法分析的基础。NER任务用于识别文本中的人名(PER)、地名(LOC)等具有特定意义的实体。非实体用O来表示。我们以人名来举例:王 B-PER文 I-PER和 O小 B-PER丽 I-PER结 O婚 O了。 O(IOB是块标记的一种表示。B-表示开始,I-表示内部,O-表示外部)首先明确的是NER是个分类任务,具体称为序列标注任务,即文本中不同的实体对应不同的标签,人名-PER,地
2、名-LOC,等等,相似的序列标注任务还有词性标注、语义角色标注。传统的解决此类问题的方法,包括:(1)基于规则的方法。根据语言学上预定义的规则。但是由于语言结构本身的不确定性,规则的制定上难度较大。(2)基于统计学的方法。利用统计学找出文本中存在的规律。主要有隐马尔可夫(HMM)、条件随机场(CRF)模型和Viterbi算法。文末会简要介绍比较流行的CRF模型。(3)神经网络。深度学习(多层神经网络)这么流行,当然不会放过nlp,之前我的一篇帖子(深度学习在机器翻译中的应用)里提到过循环神经网络(RNN)及其变种LSTM。因为文本的上下文依赖性,LSTM这种能够存储上下文信息的序列模型是较好的
3、选择(本文侧重于CRF,LSTM的基本知识可参考深度学习在机器翻译中的应用)。LSTM+CRF模型语言文本的特殊之处在于其具有一定的结构,主谓宾定状补,状语后置,非限制性定语从句等等。这些结构的存在代表着每个单词的前后是有着一定的词性限制的。比如:我现在回家 /这是常见的(主+状+谓+宾)结构的句子我今天家 /这样的文本就不能称为一个句子,少了必要的语法结构LSTM网络是整体思路同样是先对给定的训练样本进行学习,确定模型中的参数,再利用该模型对测试样本进行预测得到最后的输出。由于测试输出的准确性现阶段达不到100%,这就意味着,肯定存在一部分错误的输出,这些输出里很可能就包含类似于上述第二句话
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 命名 实体 识别 NER 自然语言 处理 NLP 中的 基本 任务 之一
链接地址:https://www.31doc.com/p-3406070.html