这部分涉及的 NLP 范畴包括:
中文分词
词性标注
句法分析
文本分类背景
下面介绍, 文本分类常用的模型, 信息检索, 信息抽取
8 文本分类模型
近年来, 文本分类模型研究层出不穷, 特别是随着深度学习的发展, 深度神经网络模型也在文本分类任务上取得了巨大进展文本分类模型划分为以下三类:
基于规则的分类模型
基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断这些规则可以从训练样本里自动产生, 也可以人工定义给定一个测试样例, 我们可以通过判断它是否满足某 些规则的条件, 来决定其是否属于该条规则对应的类别典型的基于规则的分类模型包括决策树 (Decision Tree) 随机森林(Random Forest) RIPPER 算法等
基于机器学习的分类模型
典型的机器学习分类模型包括贝叶斯分类器 (Naive Bayes) 线性分类器 (逻辑回归) 支持向量机(SVM) 最大熵分类器等
SVM 是这些分类模型中比较有效使用较为广泛的分类模型它能够有效克服样本分布不均匀特征冗余以及过拟合等问题, 被广泛应用于不同的分类任务与场景通过引入核函数, SVM 还能够解决原始特征空间线性不可分的问题
除了上述单分类模型, 以 Boosting 为代表的分类模型组合方法能够有效地综合多个弱分类模型的分类能力在给定训练数据集合上同时训练这些弱分类模型, 然后通过投票等机制综合多个分类器的预测结果, 能够为测试样例预测更准确的类别标签
基于神经网络的方法
以人工神经网络为代表的深度学习技术已经在计算机视觉语音识别等领域取得了巨大成功, 在自然语言处理领域, 利用神经网络对自然语言文本信息进行特征学习和文本分类, 也成为文本分类的前沿技术
前向神经网络: 多层感知机 (Multilayer Perceptron, MLP) 是一种典型的前向神经网络它能够自动学习多层神经网络, 将输入特征向量映射到对应的类别标签上
通过引入非线性激活层, 该模型能够实现非线性的分类判别式包括多层感知机在内的文本分类模型均使用了词袋模型假设, 忽略了文本中词序和结构化信息对于多层感知机模型来说, 高质量的初始特征表示是实现有效分类模型的必要条件
为了更加充分地考虑文本词序信息, 利用神经网络自动特征学习的特点, 研究者后续提出了卷积神经网络 (Convolutional Neural Network, CNN) 和循环神经网络 (Recurrent Neural Network, RNN) 进行文本分类
基于 CNN 和 RNN 的文本分类模型输入均为原始的词序列, 输出为该文本在所有类别上的概率分布这里, 词序列中的每个词项均以词向量的形式作为输入
卷积神经网络(CNN): 卷积神经网络文本分类模型的主要思想是, 对词向量形式的文本输入进行卷积操作 CNN 最初被用于处理图像数据与图像处理中选取二维域进行卷积操作不同, 面向文本的卷积操作是针对固定滑动窗口内的词项进行的
经过卷积层 池化层和非线性转换层后, CNN 可以得到文本特征向量用于分类学习 CNN 的优势在于在计算文本特征向量过程中有效保留有用的词序信息
针对 CNN 文本分类模型还有许多改进工作, 如基于字符级 CNN 的文本分类模型将词位置信息加入到词向量
深度学习 | 卷积神经网络 (CNN) 介绍(前篇)
深度学习 | 卷积神经网络 (CNN) 介绍(后篇)
循环神经网络(RNN): 循环神经网络将文本作为字符或词语序列
{x0 , , xN}, 对于第 t 时刻输入的字符或词语 xt, 都会对应产生新的低维特征向量 stst 的取值会受到 xt 和上个时刻特征向量 st-1 的共同影响, st 包含了文本序列从 x0 到 xt 的语义信息因此, 我们可以利用 sN 作为该文本序列的特征向量, 进行文本分类学习
与 CNN 相比, RNN 能够更自然地考虑文本的词序信息, 是近年来进行文本表示最流行的方案之一
为了提升 RNN 对文本序列的语义表示能力, 研究者提出很多扩展模型
例如, 长短时记忆网络 (LSTM) 提出记忆单元结构, 能够更好地处理文本序列中的长程依赖, 克服循环神经网络梯度消失问题 LSTM 引入了三个门 (input gate, output gate, forget gate) 来控制是否输入输出以及记忆单元更新
深度学习 | 理解 LSTM 网络(前篇)
深度学习 | 循环神经网络之 LSTM(后篇)
提升 RNN 对文本序列的语义表示能力的另外一种重要方案是引入选择注意力机制 (Selective Attention), 可以让模型根据具体任务需求对文本序列中的词语给予不同的关注度
文本分类的应用
文本分类技术在智能信息处理服务中有着广泛的应用例如, 大部分在线新闻门户网站 (如新浪搜狐腾讯等) 每天都会产生大量新闻文章, 如果对这些新闻进行人工整理非常耗时耗力, 而自动对这些新闻进行分类, 将为新闻归类以及后续的个性化推荐等都提供巨大帮助
互联网还有大量网页论文专利和电子图书等文本数据, 对其中文本内容进行分类, 是实现对这些内容快速浏览与检索的重要基础此外, 许多自然语言分析任务如观点挖掘垃圾邮件检测等, 也都可以看作文本分类或聚类技术的具体应用
9 信息检索
信息检索 (Information Retrieval, IR) 是指将信息按一定的方式加以组织, 并通过信息查找满足用户的信息需求的过程和技术
伴随着互联网及网络信息环境的迅速发展, 以网络信息资源为主要组织对象的信息检索系统: 搜索引擎应运而生, 成为了信息化社会重要的基础设施
2016 年初, 中文搜索引擎用户数达到 5.66 亿人
检索用户信息资源和检索系统三个主要环节组成了信息检索应用环境下知识获取与信息传递的完整结构
研究内容
信息需求理解面对复杂的泛在网络空间, 用户有可能无法准确表达搜索意图; 即使能够准确表达, 搜索引擎也可能难以正确理解; 即使能够正确理解, 也难以与恰当的网络资源进行匹配这使得信息需求理解成为了影响检索性能提高的制约因素, 也构成了检索技术发展面临的第一个关键问题
资源质量度量资源质量管理与度量在传统信息检索研究中并非处于首要的位置, 但随着互联网信息资源逐渐成为检索系统的主要查找对象, 网络资源特有的缺乏编审过程内容重复度高质量参差不齐等问题成为了影响检索质量的重要因素目前, 搜索引擎仍旧面临着如何进行有效的资源质量度量的挑战, 这构成了当前信息检索技术发展面临的第二个关键问题
结果匹配排序近年来, 随着网络技术的进步, 信息检索系统 (尤其是搜索引擎) 涉及的数据对象相应的变得多样化异质化, 这也造成了传统的以文本内容匹配为主要手段的结果排序方法面临着巨大的挑战
信息检索评价
信息检索评价是信息检索和信息获取领域研究的核心问题之一信息检索和信息获取系统核心的目标是帮助用户获取到满足他们需求的信息, 而评价系统的作用是帮助和监督研究开发人员向这一核心目标前进, 以逐步开发出更好的系统, 进而缩小系统反馈和用户需求之间的差距, 提高用户满意度
因此, 如何设计合理的评价框架评价手段评价指标, 是当前信息检索技术发展面临的第四个关键问题
个性化搜索
基于内容分析的算法基于内容的个性化搜索算法通过比较用户兴趣爱好和结果文档的内容相似性来对文档的用户相关性进行判断进而对搜索结果进行重排用户模型一般表述为关键词或主题向量或层次的形式个性化算法通过比较用户模型和文档的相似性, 判断真实的搜索意图, 并估计文档对用户需求的匹配程度
基于链接分析的方法要是利用互联网上网页之间的链接关系, 并假设用户点击和访问过的网页为用户感兴趣的网页, 通过链接分析算法进行迭代最终计算出用户对每个网页的喜好度
基于协作过滤的算法基于协作过滤的个性化搜索算法主要借鉴了基于协作过滤的推荐系统的思想, 这种方法考虑到能够收集到的用户的个人信息有限, 因此它不仅仅利用用户个人的信息, 还利用与用户相似的其它用户或群组的信息, 并基于用户群组和相似用户的兴趣偏好来个性化当前用户的搜索结果用户之间的相似性可以通过用户的兴趣爱好历史查询点击过的网页等内容计算得出
语义搜索技术
随着互联网信息的爆炸式增长, 传统的以关键字匹配为基础的搜索引擎, 已越来越难以满足用户快速查找信息的需求同时由于没有知识引导及对网页内容的深入整理, 传统网页搜索返回的网页结果也不能精准给出所需信息
针对这些问题, 以知识图谱为代表的语义搜索 (Semantic Search) 将语义 web 技术和传统的搜索引擎技术结合, 是一个很有研究价值, 但还处于初期阶段的课题
在未来的一段时间, 结合互联网应用需求的实际和技术产品运营能力的实际发展水平, 语义搜索技术的发展重点将有可能集中在以各种情境的垂直搜索资源为基础, 知识化推理为检索运行方式, 自然语言多媒体交互为手段的智能化搜索与推荐技术
10 信息抽取
信息抽取 (Information Extraction) 是指从非结构化 / 半结构化文本 (如网页新闻 论文文献微博等) 中提取指定类型的信息(如实体属性关系事件商品记录等), 并通过信息归并冗余消除和冲突消解等手段将非结构化文本转换为结构化信息的一项综合技术
来源: https://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247485276&idx=1&sn=5e5063bdf6736e3206fbc6c6efba1047&chksm=eb7c2a97dc0ba3818e49de670c2a9906760cf621ade367e9f2d11715a18d859c2c8fd8743f17#rd