Word Embedding 的生成

之前以为直接使用

contrib.text.embedding

就可以完成学习, 后面发现和 paper 的意思不匹配, 这一层是需要单独获取的

先附上可以参考的链接:

LSTM 里 Embedding Layer 的作用是什么 https://www.zhihu.com/question/45027109

http://www.cnblogs.com/iloveai/p/word2vec.html

原文 http://cn.arxiv.org/abs/1310.4546

可以了解到, Embedding 是要产生一个矩阵, 通过行引索输出连续空间变量, 并且空间的维数可以人为设定关键处是要使词之间的上下文关系程度由欧氏距离指示

但对于如何得到这样的矩阵, 找到的描述确实语焉不详(比如链接 2 看起来条条有理, 但却使人无处着力, 尤其是那几张图配合着文段描述真是使人不着头脑) , 另外看到一篇贴上自己分析 google 的 cpp 的注释自动求导大行其道的当下, 很难说不通过这种方式实现的方法有什么实用价值还是给我找到了在 MXNet 中的实现过程:

https://github.com/apache/incubator-mxnet/tree/master/example/nce-loss

所有需要学习的参数只有一个矩阵, 并没有链接 1 说的抽取中间数据的思想实际也可想见, 对于实现目标, 只需要想办法通过损失函数, 使出于同一上下文中的词向量 (稠密表示后的) 接近就好了; 如果从加快收敛角度考虑, 进行 negative 采样, 每次对不在同一上下文中的向量进行惩罚

# 优化的框架, 需要有迭代器 (DataIterWords@text8_data.py ) 的支持才有注释中的效果
 # wordvec_net.py
 # 对中心词作为预测目标进行优化
def get_word_net(vocab_size, num_input):
    data = mx.sym.Variable(data)
    label = mx.sym.Variable(label)
    label_weight = mx.sym.Variable(label_weight) # 在迭代器的输出中, 首个元素是中心词, 其余是负样本
    embed_weight = mx.sym.Variable(embed_weight) # 首个元素是 1, 其余是 0,logistic 回归作为损失函数
    data_embed = mx.sym.Embedding(data=data, input_dim=vocab_size,
                                  weight=embed_weight,
                                  output_dim=100, name=data_embed)
    datavec = mx.sym.SliceChannel(data=data_embed,
                                  num_outputs=num_input,
                                  squeeze_axis=1, name=data_slice)
    pred = datavec[0]
    for i in range(1, num_input):
        pred = pred + datavec[i]        # 对上下文进行求和, 按照原文的意思
    return nce_loss(data=pred,
                    label=label,
                    label_weight=label_weight,
                    embed_weight=embed_weight,
                    vocab_size=vocab_size,
                    num_hidden=100)
 # nce.py
def nce_loss(data, label, label_weight, embed_weight, vocab_size, num_hidden):
    label_embed = mx.sym.Embedding(data=label, input_dim=vocab_size,
                                   weight=embed_weight,
                                   output_dim=num_hidden, name=label_embed) # 对 label 引索
    data = mx.sym.Reshape(data=data, shape=(-1, 1, num_hidden))
    pred = mx.sym.broadcast_mul(data, label_embed)  # 求点积
    pred = mx.sym.sum(data=pred, axis=2)
    return mx.sym.LogisticRegressionOutput(data=pred,
                                           label=label_weight)  # 向中心词靠近, 远离上下文以外的词

迭代器设计巧妙, 把用到的程序放在这:

# text8_data.py
def _load_data(name):
    buf = open(name).read()
    tks = buf.split( )
    vocab = {}
    freq = [0]
    data = []
    for tk in tks:
        if len(tk) == 0:
            continue
        if tk not in vocab:
            vocab[tk] = len(vocab) + 1
            freq.append(0)
        wid = vocab[tk]
        data.append(wid)
        freq[wid] += 1
    negative = []
    for i, v in enumerate(freq):
        if i == 0 or v < 5:
            continue
        v = int(math.pow(v * 1.0, 0.75))
        negative += [i for _ in range(v)] # 词的频数高, 连接的负样本数量应该更多, 见下文讨论
    return data, negative, vocab, freq
class DataIterWords(mx.io.DataIter):
    def __init__(self, name, batch_size, num_label):
        super(DataIterWords, self).__init__()
        self.batch_size = batch_size
        self.data, self.negative, self.vocab, self.freq = _load_data(name)
        self.vocab_size = 1 + len(self.vocab)
        print("Vocabulary Size: {}".format(self.vocab_size))
        self.num_label = num_label
        self.provide_data = [(data, (batch_size, num_label - 1))]
        self.provide_label = [(label, (self.batch_size, num_label)),
                              (label_weight, (self.batch_size, num_label))]
    def sample_ne(self):
        return self.negative[random.randint(0, len(self.negative) - 1)]
    def __iter__(self):
        batch_data = []
        batch_label = []
        batch_label_weight = []
        start = random.randint(0, self.num_label - 1)
        for i in range(start, len(self.data) - self.num_label - start, self.num_label):
            context = self.data[i: i + self.num_label // 2] \
                      + self.data[i + 1 + self.num_label // 2: i + self.num_label]  # 以中心词作为预测目标
            target_word = self.data[i + self.num_label // 2]
            if self.freq[target_word] < 5:
                continue
            target = [target_word] + [self.sample_ne() for _ in range(self.num_label - 1)]
            target_weight = [1.0] + [0.0 for _ in range(self.num_label - 1)]  # 负样本优化目标为 0
            batch_data.append(context)
            batch_label.append(target)
            batch_label_weight.append(target_weight)
            if len(batch_data) == self.batch_size:
                data_all = [mx.nd.array(batch_data)]
                label_all = [mx.nd.array(batch_label), mx.nd.array(batch_label_weight)]
                data_names = [data]
                label_names = [label, label_weight]
                batch_data = []
                batch_label = []
                batch_label_weight = []
                yield SimpleBatch(data_names, data_all, label_names, label_all)

这里想说的是, 负样本的生成与频数关联的原因虽然每一个 batch 中, 负样本的数量是一定的(都是 batch_size x (label_num-1) ), 但由于是均匀采样(见 sample_ne), 高频词对应的负样本将有更大概率被抽到

对一个高频词而言, 其在优化中出现的次数会比较多, 如果没有匹配数量的负样本, 按照神经网络优化的弊端, 结果模型会偏向比重大的, 可能的结果就是把这个词放在了带有权重的中心位置或者说, 结果模型会有更大部分只是在反应输入样本的统计关系, 而不是上下文关系

来源: http://www.bubuko.com/infodetail-2546376.html

与本文相关文章

暂无,快来抢沙发吧！