开篇 Richard 教授总结了深度学习如何应用于 NLP 领域, 包括:
自然语言处理 (NLP) 是什么, 语言的特点, NLP 的难点;
深度学习 (DL) 和经典的机器学习 (ML) 相比有哪些优势, DL 在工程中的应用发展历程;
NLP 的几种应用场景
详细请参考: 斯坦福大学 NLP-cs224 课程笔记 1: 应用深度学习到自然语言处理简介
在第一堂课中, Richard 教授留了 3 门课外阅读材料, 线性代数, 概率统计, 凸优化, 大神推荐的材料每门都浓缩到只有 10 页左右, 但基本都包括了重要知识点接下来, 边学边结合这些资料, 应该效果会更好, 如有需要在后台回复: math.
接下来, 跟随 Richard 一起学习 NLP 之词向量模型, 词向量模型是将词语表达为数值向量的过程, 这是进行数值计算的前提, 也是 NLP 工作开展的第一步
one-hot
one-hot 数值表达单词的方法很直接, 将此库单词数标记为向量的长度, 每个词向量的分量只有一个为 1, 其余全为 0,1 的位置对应该词在词典的位置, 比如:
adore 表示为 [ 0,0,0,1,...,0,0 ]
respect 表示为 [ 0,1,0,0,...,0,0 ]
这种表示方法的优点是简洁, 每个词分配一个编号, 比如 adore 编号为 102,respect 编号为 34214, 配合最大熵, SVM 等算法可以完成 NLP 的一些任务但缺点也很明显:
维数灾难. 如果有 10 万单词, 维数就是 10 万
词汇鸿沟. 不能很好地刻画词语与词语间的相似性, adore 和 respect 的词向量是正交的, 反映不出它们是同义词
强稀疏性.
word vectors
一个单词的意思总是通过与它邻近的那些单词定义, 这是 NLP 中最成功的 idea 之一当一个单词 w 出现在文本中, w 的上下文就是在 fixed-size 窗口内的单词集合, 例如 w 为 banking 时, 它的语义可以通过以下三个句子的 banking 的上下文推断
正是通过单词 w 的上下文确定 w 意思的想法, 才有了下面的分布的稠密的词向量表达, 克服了 one-hot 表达的缺点
基于此想法构建 w 的词向量, 同 w 有相似上下文的那些单词, 也会与 w 有相似的词向量, 如 linguistics 表达为:[ 0.286 0.792 0.177 0.107 0.109 0.542 0.349 0.271 ], 注意无特殊说明, 向量一般都指列向量
有时也称 word vectors 为 word embeddings, 或 word resprensentations.
Word2vec
Mikolov et al. 2013 利用单词的意思通过其上下文确定的思想, 开源了一个学习词向量的框架: Word2vec 模型 Word2vec 的主要思想:
基于超大的文本集
每一个单词都用向量表达
文本有单词 c 和 c 外的上下文单词集合 o 组成, 扫描文本中的每一个位置 t
利用单词 c 的向量 和其上下文 o 的向量之间的相似性, 计算给定 c 时 o 的概率 (或已知 o 时 c 的概率).
计算调整词向量使得上步的概率值最大
当文本扫描到位置 t 即单词 into 时, 假定上下文窗口尺寸定义为 2 ,into 的上下文为前后共 4 个位置, 分别计算 4 个概率 : P(Wt+j | Wt)
下一个位置上的单词为 banking, 同样计算 4 个概率:
更一般地, 在已知中心词 wj 和 wj 的上下文窗口尺寸为 m 下, 预测 wj 的上下文窗口的单词集合, 即求窗口内几个单词都出现的概率, 如下, T 为整个文本的单词个数, 参数 theta 就是需要求解优化的参数:
最大似然估计的目标函数与线性回归逻辑回归的一致, 详细推导过程可以参考之前推送(后台回复 9 ), 如下, 即求目标函数的最小值:
目标函数中参数 theta 是待求解的, 但是概率 P 是需要提前求解的, 如何求解呢?
在这个模型中, 处于文本中的每一个单词要么是中心词, 要么是上下文, 每个单词 w 用 2 个向量来表达:
当 w 是中心词, 对应的向量为 Vw
当 w 是上下文词, 对应的向量为 Uw
然后, 对于中心词 c 和上下文词 o, 给定 c 时 o 出现的概率可以表达为一个 softmax 函数:
分子中向量 Vw 和 Uw 相似性 (相关性) 越大, 则分子越大; 分母取 e 后, 相当于对文本中的所有单词进行了正则处理
可以用梯度下降求解目标函数中的参数, 依次扫描每一个窗口, 分别求出中心词的梯度及上下文窗口的梯度, 同时更新本窗口的参数, 如下所示当扫描到中心词 banking 时的场景关于这部分内容, 仍然参考之前推送(后台回复 9 )
来源: https://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247485500&idx=1&sn=e08994450bfa886d9a4812af053dec39&chksm=eb7c25f7dc0bace109ea65ddf029fe34b057ed3d857773742d399eeee7def326003cf3c6cfd0#rd