2019 年 4 月 15-18 日, O'ReillyAI Conference 在纽约举行, 整个大会为期 4 天, 在会上, 参会嘉宾讨论了人工智能学术现状, 公司在部署 AI 中遇到的问题, 以及在业界的应用情况.
作为机器学习和数据科学领域最有影响力的全球峰会之一, 本次大会据了解有超过 2000 人参加. 大数据文摘作为特约合作媒体, 也是整场会议唯一的中国媒体受邀参会, 在现场度过了收获满满的 4 天.
除了现场论坛, 还从各种细节安排上感受到了 O'Reilly 这一国际顶级 AI 行业论坛的诚意, 所以今天的稿子与其说是干货, 不如说是一次现场" 游记 ".
那么, 请各位跟着文摘菌一起出发吧!
学术成果正加速落地
本次大会主论坛最让文摘菌印象深刻的演讲来自 O'Reilly Media 的首席数据科学家 Ben Lorica, 他介绍了现在行业的现状和发展方向.
Ben Lorica 提到, 2010 年 AI 学术论文和 patent and invention 的转化率由的 8:1 到 2016 的 3:1, 种种数据都表明现在 AI 已经加速进入了落地实施阶段.
在所有的学术论文转化中, 计算机视觉方面的专利申请最多, 比 2011 年增长 24%, 排在第二位和第三位的分别是自然语言处理以及语音处理.
在自然语言处理方面, 涌现出现了很多开源的模型例如 ELMo, BERT, MT-DNN 和 GPT-2. 另外, 根据 O'Reilly 的问卷调查, Tensorflow 和 Pytorch 变得十分常见, 其他工具例如 Nauta,keras 等等也在帮助公司进一步优化资源, 流程以及建模自动化方面发挥着越来越重要的作用.
强化学习也得到越来越多的关注. O'Reilly 在一项对 1300 个公司的问卷调查中发现, 大约有 1/5 的公司开始着手准备或已经在使用 RL 强化学习. 原因之一是许多的开源工具及公司开发的专有软件 proprietary tools 的涌现还有云服务的发展.
Ben Lorica 还表示, 不同企业的 AI 发展有不同的挑战, 对于刚开始采用 AI 或还在评测考虑的企业, 他们最大的瓶颈是: 公司文化没有认识到 AI 的需求以及难以确定适当的 AI 业务案例. 而对于 AI 应用和使用方面比较成熟的公司来说, 他们认为缺乏足够的数据进行分析或者数据质量方面的问题与缺乏合适的人才是当前最大的瓶颈. 另外, 对大多数公司来说, 对数据工程师和计算机基础架构人才的需求同等重要.
总的来说, 公司应该更加关注: 公平和公正, 安全和可靠, 隐私, 安全漏洞, 模型的可解释性. 如果对他们排序的话, 重要程度从高到低分别是: 模型的可解释性以及透明度, 公平以及偏见, 隐私, 安全和可靠性, 安全漏洞.
分论坛演讲: Intel 和 Netflix
除了主论坛, 每天下午都有 5 个时间段的 40 分钟的分论坛, 第一个从午饭后开始, 每场有 9 个可以选择, 对你没有看错, 会议议题就是这么的丰富!
Intel 的 AI 产品组的副总裁 GadiSinger 也在大会发表了演讲. 他认为深度学习正在改变着计算, 并且改变了计算带给人们和公司的价值.
越来越多的深度学习和机器学习被运用到企业里面, 当前企业面对的 AI 应用三个常见的问题分别是: 如何应用规模部署, 如何推动绩效但保持管理成本以及如何应对未来所需的不确定性和变化. 另外他还提到, 现阶段的 deep learning 和 AI 应用是可以用 CPU 实现完成的.
在 CPU 上实现 AI 模型, 3 年时间经历了 3 个阶段的变化.
接下来 Gadi 分别聊到 intel 是如何帮助四家公司在图像识别, 推荐系统, NLP 等领域基于 CPU 应用人工智能和深度学习优化企业解决方案.
Philips 在医疗领域的图像识别应用案例
Taboola 在内容推荐系统的应用
科大讯飞的 NLP 应用
令文摘菌印象比较深刻的还有 Netflix 机器学习总监 TonyJebara 介绍的 Netflix 如何用推荐系统给用户提供个性化的服务: 除了众所周知的推荐节目, 到标题的展示, 到搜索功能等等.
TonyJebara 重点介绍了推荐系统是如何给用户提供个性化封面图片. 什么意思呢? 比如对于 stranger things 这部剧, 如果用户对青少年题材感兴趣, 那么推荐系统就会使用带有主角的处境的图片来推荐. 而对恐怖题材感兴趣的用户就会见到留鼻血的这张图片作为推荐的图片.
接下来 Tony 进一步指出, 传统机器学习 batch machine learning 和 A/B test 的问题, 还介绍了 Netflix 如何应用 online learning 来实现数据收集和学习相辅相成, 并优化推荐系统.
他指出, 传统的监督学习和 contextual bandits 的不同以及 netflix 的图片推荐系统是如何利用 online learning 在更短时间内找到点击率最高的图片.
来自 Alibaba 硅谷研发中心的人工智能专家陈三鉴博士和常剑博士介绍了时间序列模型的特点以及 AI 技术在时序预测中产生的巨大效果提升, 受到了现场听众的热烈反响. 陈三鉴博士在做完演讲之后, 在现场被提问者团团围祝
现场花絮
最近火到爆炸的 BERT 模型创始人之一 Chang-Ming Wei 也受邀来到现场介绍 BERT 模型.
Dr. Chang-Ming Wei 先简单介绍了现阶段的几种比较受欢迎的 NLP 模型包括 Word embeddings, ELMO 等, 指出现阶段模型的不足之处. 接着详细讲解了 BERT 这种双向编码器连接 (transformer blocks) 是如何打破了前几个模型的纪录. 并着重介绍 pretraining 和 fine-tuning 两个 BERT 的训练步骤, 他指出这两者的区别在于 pretraining 是用大量的没有标签的数据 (unlabel) 完成的, 而后者是用少量的针对特定任务的标签数据 (task-specific label data) 完成的. 如果小伙伴对 BERT 感兴趣可以参见我们前两天发的另外一篇科普文哦.
大会从第三天开始, 也开启了现场展位. 各个 booth 前都热闹非常, 企业和各公司都很想借助这个机会更多了解不同的 service provider 和不同类型的服务, 以及如何借力 AI 使公司进一步发展.
H20.ai 的现场展位熟悉 kaggle 竞赛的小伙伴应该都知道 H2Oai 有好几位 grandmaster 的加持, 并且他们的 xx 产品是号称 "brings you the intelligence of a Kaggle Grandmaster in a box(拥有 xx 产品你就拥有了世界顶级的数据科学家)."
文摘菌在参会过程中也和参会者们聊了聊, 基本都是来自业内顶级公司的技术从业者. 各大公司当然也不会放弃这么好的招人机会, 现场黑板留言区满满的招聘信息.
大会现场文摘菌还偶遇了不少大咖, 包括 Deep Learning Cookbook 一书的作者 DouweOsinga, 并且请他为大数据文摘的读者们签了个名.
最后, 这次峰会的部分精彩演讲已经被主办方放上官网啦, 对 keynote 感兴趣的小伙伴可以通过下面的网址注册会员观看!
https://learning.oreilly.com/home/
另外, O'Reilly AI Conference 在今年 6 月份也要来北京啦, 不用飞到纽约就能直接体验这个超棒的会议, 学习先进的行业知识与顶尖的 AI 科技公司 0 距离接触哦.
今年的北京站嘉宾也绝对是重量级的. 包括加州大学伯克利分校 EECS 教授 IonStoica,Google Brain 团队中移动和嵌入式 TensorFlow Group 的技术主管 Pete Warden, 以及刚刚加入阿里巴巴达摩院的大神贾扬清.
抢票参会:
本届 AI Conference 2019 北京站早鸟票价本周五结束(5 月 10 日), 搜索 AI 大会或人工智能大会, 进入官网查看详情.
来源: http://www.ailab.cn/huiyi/2019050690432.html