最近公司的事情太多了, 一直没有时间更新公众号. 但是还是在忙里抽了点时间用 php 实现了贝叶斯的文章分类算法.
扒了一些微信公众号的文章之后, 发现如果一个一个的进行手动分类太浪费时间了. 有一种基于统计概率的算法 ----- 贝叶斯算法可以通过计算在已知某个分类条件下的词语的概率, 推算出给定词语组合是某分类的概率.
简单点讲, 过去的经验可以用来预测未来, 如果过去的经验和需要预测的事情是有关联的.
然后再利用结巴分词对抓取到的文章做分词处理, 计算已经分好类的文章的词语概率, 然后再输入新的未知分类的文章, 就可以计算出该文章在不同分类下的概率, 取最大的就是最可能的分类了.
todo :
去掉一些助词: 的, 地, 等等, 这些会对训练样本造成干扰
手动去编辑文章的分类, 有些分类明显不准, 需要重新编辑
测试召回率和准确率. 召回率: 是否查的全 . 查出来相关的 / 查出来相关的 + 未查出来相关的. 准确率: 查的是否准确. 查出来相关的 / 查出来相关的 + 查出来不相关的
分类标签的补充和重新编辑, 爬过来的文章与我做的分类都没法匹配上去, 分类不是很全
来源: https://www.jianshu.com/p/a74ef5d95081