为了更好的探究不同算法的实际效果,这项研究专门选取了两个词语做案例分析.第一个是环境相关的 "水污染",然后根据词向量利用向量夹角余弦找到与其语义最接近的词语.GWE 找到了一些和 "污" 字相关的词语,比如 "污泥","污渍" 和 "污垢",而 JWE 则更加强调后两个字 "污染"GloVe 找到了一些奇怪的相近词语,比如 "循环系统","神经系统".CWE 找到的相近词语均包含 "水" 和 "污" 这两个字,猜测是由于其利用汉字信息直接进行词向量加强的原因.此外,只有 cw2vec 找到了 "水质" 这个相关词语,分析认为是由于 n 元笔画和上下文信息对词向量共同作用的结果.第二个例子,特别选择了 "孙悟空" 这个词语,该角色出现在中国的名著《西游记》和知名日本动漫《七龙珠》中,cw2vec 找到的均为相关的角色或著作名称.
作为一项基础研究成果,cw2vec 在蚂蚁和阿里的诸多场景上也有落地.在智能客服,文本风控和推荐等实际场景中均发挥了作用.此外,不单单是中文词向量,对于日文,韩文等其他语言也进行类似的尝试,相关的发明技术专利已经申请近二十项.
我们希望能够在基础研究上追赶学术界,有所建树,更重要的是,在具体的实际场景之中,能够把人工智能技术真正的赋能到产品里,为用户提供更好的服务.
福利 - 论文下载链接:
https://github.com/ShelsonCao/cw2vec/blob/master/cw2vec.pdf(请将网址复制至浏览器打开,或点击阅读原文)
- END -
来源: https://juejin.im/entry/5a66e95b518825692263342f