背景
命名实体识别 (NER, Named Entity Recognition), 是指识别文本中具有特定意义的实体, 主要包括人名, 地名, 机构名, 专有名词等.
关于 NER 的过去, 现在可以参考
NER 的过去, 现在和未来综述 - 现在 https://zhuanlan.zhihu.com/p/425268651
NER 的过去, 现在和未来综述 - 过去 https://zhuanlan.zhihu.com/p/351132129
本文关于 NER 未来是在时间点 2021 以后的一些发展的点
Few-show & zero shot. 如何通过少样本, 甚至零样本能够获得性能不错的模型, 例如怎么引入正则表达式的模板, prompt 等方式.
Template-Based Named Entity Recognition Using BART https://arxiv.org/pdf/2106.01760.pdf
融入知识. 之前在现在篇 https://zhuanlan.zhihu.com/p/425268651 已经提到过一些, 未来, 随着预训练模型越来越大, 如果能够将知识从中剥离, 使用较小的语言模型来加速训练. 然后通过另一些方式来融入知识, 例如检索的方式, 像 DeepMind 的 RETRO https://zhuanlan.zhihu.com/p/453236682 和 OpenAI 的 webGPT
迁移学习. 这个可能有点大, 怎么利用语言模型学到的知识. 为什么人可以识别到其中的实体, 凭借的以往经验的迁移, 达到举一反三; 语法信息 (句式等); 特定的句式; 模仿学习等.
解码方式. 个人觉得 span, 分类, 序列标注似乎都并没有完美, span 方式没有考虑整体序列标签之间的依赖关系; 而分类的话还需要考虑实体长度, 实际情况中实体长度可以是任意长度的 (讲道理极限情况会存在); 序列标注不能很好解决嵌套问题等. 目前有一些结合的方法, 例如 Span + 片段排列, BIO + 分类 https://aclanthology.org/D19-1034/ , 但还是有优化空间.
个人观点, 仅供参考.
- Reference
- Template-Based Named Entity Recognition Using BART https://arxiv.org/pdf/2106.01760.pdf
- Improving Language Models by Retrieving from Trillions of Tokens
- WebGPT: Browser-assisted question-answering with human feedback https://cdn.openai.com/WebGPT.pdf
- Boundary Enhanced Neural Span Classification for Nested Named Entity Recognition
- https://aclanthology.org/D19-1034/
来源: https://www.qcloud.com/developer/article/1928695