业务关键词: 营销信审反欺诈催收
技术关键词: 机器学习深度学习统计 NLPDeep NLP 强化学习复杂图计算
17 年 7 月毕业入职半年年底了对做过的模型 / 项目做个简单的总结(偏技术), 顺便 show 一下 AI 在互联网金融行业的几个应用点 -- 当然, AI + 互联网金融有很多事情可做, 这里, 我只是写了我做的部分, 涉及公司机密的内容我会略去
智能催收
顾名思义, 此项目使用人工智能技术辅助催收, 以提升催收效果节约催收人员培训成本
目前我带着一个实习生呼延伟在做: 话术生成, 来年继续完善并着手探索催收机器人
话术生成
根据案件信息自动生成一份催收话术范文, 举个简单的例子:
例子: A 向宜人贷借钱 2w, 如今逾期了两期, 期间打过一次电话催他还钱, 通话中提了逾期对个人信用的影响等等, 那么下次何时给他打电话通话时聊什么能使他尽快还钱呢?
-- 模型就是用来解决这个问题的, 把历史的催收数据喂给模型让它学会绩优催收人员的惯用套路, 后续使用时将案件信息告诉它, 它就会分析案件并输出一份标准的话术模板
当然, 实际情况要比例子复杂的多, 对于不同的产品催收对象逾期数前置铺垫等等 讲的 topic 和力度都会差很多, 这些条件的组合是指数级的, 用技术可以更好 hold 住所有情况也可以做的更细粒度; 模型也没有私心它比人更愿意分享生成的话术也更规范更合规; 抽的句子级主题级话术也是后续做 chat bot 的语料
话术生成主要包括话术抽取和范文生成, 主要使用了: 词权重模型 BOWtopic model(LSALDA)关键词 / 句抽取层次聚类自动摘要语义连贯性度量模型等其中, 词权重模型是后续很多步骤的基础, 现有的算法与我们的场景不太 match 实际效果也不好, 比如 TF-- 我发现好的话术 / 词与其在一次催收中出现的频率并不成正比(这里也毙掉了一堆基于语义 + 图 + pagerank 的算法, 如 textrank 等, 它们本质雷同词本身 / 同义词出现越多越关键)IDF-- 没有考虑类别信息(绩优 or 绩差)ICF-- 考虑了类别信息但在二类情况下不够 smooth 等等, 所以我根据业务先验知识重新定义了 token 的 local weight 和 global weight
(小心得: 现有的学术模型虽然很多, 但并不一定与工业界的具体场景 match, 还是要多看数据多看数据多看数据, 归纳先验, 根据实际情况选择 or 重制 model)
话术抽取: 有了上面的词权重模型后就可以用 BOWtopic model 对文档向量化做聚类, 使内容雷同 (如打给相同对象具有相同话题 等) 的文本大概率聚到一类中, 从催收效果好的类中抽取 topic(谈个人影响谈法律谈上门催收等等), 再从各 topic 中抽取范句
范文生成: 先根据案件信息决定本次通话的 topic slot(一个简单的基于统计的 bayes 就可以搞定), 根据既定的 topic 选出候选 sentences, 通过语义连贯性度量模型 + beam search 把句子组合成更流畅的范文这里的语义连贯性度量模型是可以在 chat bot 中复用的, 暂时用的是一个简单的 end2end 模型, 主要包括两部分: 1,hierarchical BILSTM encoder, 分别做 sentence 级别的和 paragraph 级别的 encode;2,topic encoder, 对 topic 编号 embedding 通过 RNN 对 topic sequence 做 encode;concat 起 1 和 2 的 vector 后接 DNN 做评分为了提高范文的质量与多样性防止以后用到 bot 上后净回复废话 (源于 MLE 固有的缺陷), 用强化学习策略网络对模型 retrain, 根据句子的质量(用之前的词权重模型度量) 做 good/bad reward, 这一块还在实验
(我去, 一个项目就啰啰嗦嗦写了这么多, 下面的得简练一些)
反欺诈
这个好理解: 根据进件特征判断进件人 (即申请贷款的人) 是不是欺诈用户
我主要从特征和模型两方面做了些实验
特征挖掘: 利用 community detection 算法对社交网做分团以发现欺诈团伙为决策模型提供特征技术方面见这篇文章: 图计算 1: 社区发现(分团)-python(networkx igraph), 不赘述了
模型: 实验了一下 传统 ML 的 LR 随机森林等以及 DL 的多层的 NN 做欺诈预测其中在深层网络中实验了多种 trick: 比如为了减少原始信息在中间各层传递时的损失, 参考了 residual network 以及 highway network 的思路有时甚至直接把原始 input concat 上当前层的输出传递给下一层结论就是:... 嗯... 业务上的东西不能写那么结论就是~ 用 pytorch 写各种脑暴的非主流模型最爽! 可以灵活的拼各种奇形怪状的模型, 而且升级时 API 的变动也不会像 TensorFlow 那么大!(讲真 TensorFlow 的 API 老是变来变去我想说脏话)
信审机器人
业内对客户的信息审核一般都是通过人工打电话校验, 现在也有些产品能通过让客户答题的方式自动对地址类信息做验证, 我司要出一款信审机器人~ 它功能更完善~ 吸取了竞品的优点改进了竞品的缺点... (不敢透露太多)
对话管理的实现这块主要是我和王灿做的, 包括: webservice 知识图谱语义计算 (比如用户说他是做面包的的, 则需要把他归一化到西餐厨师) 等等主要就是一些深度学习语义增强距离度量 (cosineword movers distance 等) 等方面的东西(不敢透露太多)
智能营销
用人工智能辅助做营销
我做了: 观点分析模型, 从电销与客户的通话数据中抽出用户对各产品 / 活动 / 优惠 / 风险等方面的观点, 如客户 A 对体验金不感兴趣对满减券感兴趣担心 P2P 跑路对养老产品感兴趣 等等, 可以用来做用户画像精准推销等
技术: 挺传统的其实就是个情感分析模型, 一部分是粗粒度的判断情感极性一部分是细粒度地抽出实体词及态度词, 基于 依存句法 和 业务 写规则 ->统计 ->写规则...... 而且, 口语对话中存在大量的间断重复颠倒使得依存分析的召回低的可怕...
智能客服 demo
hackathon 时, 做了个智能客服 toy, 详见这里: 做个聊天机器人 / 智能客服, 木想到还赚了三千块钱并且当做 demo 挂在了团队的网站上
NLP 基础服务
做了个简单语义相似度模型综合使用了统计 NLP 和 Deep NLP 懒得写详情了配了个简单的 web demo 挂着团队主页等待有需求的业务方来定制
本来计划中, 最后这里还要写 1000 字的入职感想的, 嗯~ 简练点吧: 挺好的结束
来源: http://www.tuicool.com/articles/3MB7Bju