本文由 FMI 飞马网原创, 原文链接: 人工智能工业应用痛点及解决思路
分享一些关于人工智能的干货小白 | Python+Matlab + 机器学习 + 深度神经网络 + 理论 + 实践 + 视频 + 课件 + 源码, 附下载!
在关于 AI 人工智能的消息铺天盖地卷来的今天, 你是不是觉得人工智能应用已经在我们生活的方方面面普及了?
事实是尽管人工智能在语音图象 NLP 领域其实有了比较多的应用, 但是实质上相比于大家在手机里装的 APP 来说, 它并没有那么多真正上的应用为什么会产生这样的情况呢? 人工智能是不是已经爆发了, 或者离爆发还差什么样的因素呢?
来自第四范式的联合创始人深度学习迁移专家陈雨强在由飞马网主办的 FMI2017 人工智能大会上为我们做了详细解释
陈雨强
人工智能的兴起是随着数据量变大, 机器性能提升和并行计算发展共同带来的结果
工业界的人工智能需要什么样的系统呢?
陈雨强表示, 需要的是 Scalable 的系统, 而这个 Scalable 两层含义, 一层含义是传统大数据 Scalable, 这个 Scalable 指的是我们机器学习, 数据处理的吞吐使得机器的量增加而增加另一个更重要意义上的 Scalable, 是我们的机器智能水平服务质量客户体验等, 随着业务量的增加, 随着用户量的增加而增加, 这是更重要意义上的 Scalable 体系那为什么这是非常重要的呢?
因为它给企业来一种新的增长的方式过去企业基本上拼的是跑马圈地, 我拼我的渠道, 我拼我的运营, 我拼我的市场, 我拼我的资本在这种情况下, 谁拥有更好的资本, 谁拥有更好的运营, 你就拥有更多的市场, 圈更多的地但随着跑马圈地的阶段接近尾声, 增长达到一定程度以后, 跑马圈地并不是可持续的发展方式而现在慢慢的由跑马圈地, 需要转化成精细化运营这种情况下谁的运行效率更高, 谁的效果更高, 谁就能抢到更多的用户, 带来更好的效果而这是个非常高的壁垒, 人工智能正好能做到这一点, 因为人工智能用到的是数据, 数据是无法被复制的比如即使你现在拥有百度所有的代码, 你也不会拥有跟百度一样能力的搜索引擎, 因为你没有近 10 年以来所有人的搜索习惯
对于企业来说多了一种新的增长方式或者壁垒的方式, 通过建立人工智能的能力, 让它积累的时间上的优势和数据上的优势变成它壁垒这也正是人工智能收到追捧的原因
怎样才能达到一个比较高的 Scalable 的系统呢?
陈雨强在演讲中提到: 工业大数据需要高 VC 维模型 VC 理论描述的是计算机人工智能的程度, 描述拟合复杂函数的能力, VC 越高的话代表这个模型越聪明, VC 越端, 代表这个模型越弱
从上图可以看出, 高 VC 维的情况下, 我们不断的进行学习, 训练数据上的损失在不断的下降, 但你测算的损失是先下降, 后上升的
对于人工智能来说, 由于无法区分数据的好坏, 所谓的低 VC 维模型, 当数据量不够大的时候, 用蠢一点的模型, 随着训练不断的增加, 测试在将来的表现越来越好另一方面在于这个数据不永远是小的, 现在随着互联网的发展, 数据越来越多, 在这种情况下你会发现笨一点的模型比好一点的模型效果好很多
工业界要获得一个 Scalable 的系统, 就需要一个高 VC 维模型的模型, 随着数字的增加, 智能程度就增加, 智能程度增加, 用户的体验, 产品的壁垒就高
那么怎么得到一个高 VC 维模型的呢?
陈雨强为我们总结了大概的几种套路: 机器学习 = 数据 + 特征 + 模型
数据量, 在数据保持恒定的情况下, 其实我们可以看到, 我们从两个角度分开看这个事情, 一个宏观特征, 一个微观特征另外了模型分成两部分, 一部分叫做简单的模型, 简单的模型用学术语言说法, 比如说线性模型, 还有一种复杂模型, 是非线性模型, 其实有比较多的模型我们看到这种分法把我们机器学习人工智能分成四个现象, 第一个象限, 简单模型加上微观特征, 在这样的系统里面我们的人工智能比较难以发挥比较好的效果的, 因为因为他的 VC 维比较低, 效果一般不是特别好
第一象限, 在上个世纪七八十年代, 有个比较著名的数据, 大概一千多数据集, 每个数据集大概一百到一千个数据, 一千条数据这样子的国画过去的科学家在这个数据上去研究方法, 不可能有一个比较复杂的模型所以说当时大概研究的主要是第一象限的模型
第二象限, 最著名的一个代表的工业界的代表可能是谷歌的 Adword2 谷歌在非常多的领域都是开山鼻祖的这么一个角色和地位了在广告方面也是这么一个地位, 谷歌在当时使用了上千亿的特征, 上千亿的训练数据, 在一个线性模型上面获得了无与伦比的效果, 即使在现在, 深度学习风靡全球的情况下, 这套模型仍然是非常非常优秀的一个机器学习模型所以第二象限里面在工业界有非常成功的应用, 为谷歌, 为百度, 为非常多公司的广告, 每年都在创造上百亿甚至上千亿的价值
第三象限是一个复杂模型, 宏观特征的情况, 如果大家熟悉的话, 微软的 Bing 和雅虎里面比较重要的第三象限, 特征没有那么复杂, 但是模型是复杂的, 也能获得一个比较高 VC 维模型
第四象限, 复杂模型, 微观特征, 他的高 VC 维模型非常非常高, 但是挑战非常大, 因为它的模型实在太大, VC 维太高, 所以说也是一个非常热的研究领域
如何沿着模型走?
我们可以看到有两条路, 一条是特征这条路, 一个是模型这条路, 怎么沿着模型这条路走呢?
首先, 我们怎么做一套复杂的模型出来呢?
学术界主导 (ICML,NIPS,ICLR)
* 非线性的三把宝剑: Kernel,Boosting,Neural Network;
* 模型大部分单机可加载;
* 解决数据分布式问题, 以及降低 overhead;
工业界针对应用定制模型
* 基于思考或者观测得到假设;
通过观察我们企业内部的业务和数据, 来做出一些假设, 这些假设一般是数学模型的假设, 把这些假设通过某种方式加入模型, 最后在新的数据上验证这样的假设是不是对的
* 加入新的模型结构, 以加入更多参数;
* 典型案例: 伽利略;
如何沿着特征走?
如何沿着特征走, 这条路基本上是工业主导的, 因为工业界他的工程实现能力, 他的架构比较强, 所以他需要高效并行并保证快速的做这个事情比如说 KDD,WWW 这样偏工业结合这样的工作比较多, 这个里面基本上模型相对简单粗暴
不存在万能模型
陈雨强表示, 所有的机器学习本身就是一个偏置的不管是深度学习, 都是一个偏置的, 如果我们用更多的模型假设, 我们需要更少的数据而如果我们用更简单的模型假设, 我们需要更多的数据支持与特征刻画
当然, 不同的模型各有优缺点, 比如偏置如果过大的话, 它可能错但是你还有另一种方法, 你不做那么多假设, 你把这个事情交给数据去做, 让数据学出来, 他的好处是, 你假设越简单, 你简单假设错的概率就越低, 因为你没有什么假设他的坏处你需要更多的数据, 帮你拟合出这个复杂的特征
所以, 工业界机器学习没有免费的午餐, 要做出对业务问题合适的选择, 你是什么样的业务选择什么样的模型并非机器学习一定比深度学习更好, 所以一定要做出合适的选择, 才是明智的做法
工业界应用机器学习难题
需要 AI 应用平台
工业界应用机器学习到底有哪些难题除了有图片上的 XN, 大家直观的想法一定是需要一个 AI 平台即使现在有很多开源工具, 但其实我们发现这些工具并不足够
为什么人工智能还没有真的大规模应用到每个企业?
这个要求就是说, 我如果要做一个成功的 AI 系统, 我一定要是一个 AI 的专家, 这个要求我们原来的架构师, 不仅要懂自己的架构方面的事情, 我还要懂 AI 的事情, 才能做这样的一个问题, 这样的要求是非常高的, 这样也导致 AI 非常难以落地
特征工程: 是一个根据你的模型找出最关键特征的过程叫做特殊工程包括特征的清洗, 特征的变换, 特征的组合, 和特征的二次工程这样一些事情
特征工程是非常难的, 并且特征工程需要根据你的模型, 有非常大的区别, 需要对你的业务有非常深刻的理解, 所以工业界特征工程的难度, 让很多人其实没有办法将机器学习直接应用到人工智能应用里面去
陈雨强告诉我们, 第四范式想做一个自动特征组合的事情,, 调研下来发现有三条路:
一隐式特征组合; 主要指一些不是显式特征组合的方式进行特征组合, 这种方式, 对连续值组合特征天然比较友好深度学习就是一个非常典型的隐式特征组合的工作
二半显式的特征组合; 主要是它看起来是显式, 但是他并不是做显式特征组合的方式这个地方指的是我们的数, 看起来每一条路径是一个特征组合, 他指一堆特征变量在固定区间取值的组合, 但是不是特征本身的组合, 他的特点是效果比较好, 但是它的特征组合其实只是复杂, 并不是一个真正的做特征组合的方式
三显式特征组合; 显式特征组合是个非常非常困难的问题, 但是它的好处是可以叠加, 因为它是特征工程, 这个特征工程可以被应用到所可以应用到所有需要特征工程的地方去
另外, 陈雨强告诉我们, 第四范式最近提出了一个 FeatureGO 的算法, 这个算法是一个能够做高阶特征组合方法这个方法体系下, 我们做到了高至 10 阶, 我们最多做到 16 阶的特征组合这样的算法, 基于 MCTS 的方法, 我能知道在某一种特征组合下, 它可能获得更好的效果的概率是什么样的
人工智能的计算能力也是人工智能非常重要的一部分传统上来说, 大家只要说你做的模型是人工智能最重要的一部分, 但是其实现在来说, 人工智能的模型和计算能力, 都是非常重要的一点
最后, 陈雨强认为, 未来用机器换人, 肯定是将来工业界人工智能发展的一个趋势从这一点上, 还有很多工作要做, 去不断降低用户建模的门槛
来源: https://juejin.im/post/5aa7705a6fb9a028b92cd081