更多深度文章, 请关注云计算频道: https://yq.aliyun.com/cloud
请收下这份关于人工智能的根目录博客整理系列(一)
关于数据科学的那些事博客整理系列(二)
机器学习必备手册博客整理系列(三)
扩展眼界的都在这博客整理系列(四)
深度学习必备手册 (上) 博客整理系列(五)
深度学习必备手册 (下) 博客整理系列(六)
机器学习是计算机科学的一个子领域, 在人工智能领域, 机器学习逐渐发展成模式识别和计算科学理论的研究从 2016 年起, 机器学习到达了不合理的火热巅峰但是, 有效的机器学习是困难的, 因为机器学习本身就是一个交叉学科, 没有科学的方法及一定的积累很难入门
如果你也想学习机器学习或者正在学习机器学习, 本手册一定会帮助你走向你自己的人生巅峰手册包含如何入门机器学习, 机器学习流行算法, 机器学习实战等等
一.机器学习入门篇:
1.让你少走弯路: 这有一份开展机器学习的简短指南
摘要: 本文分享了一份简单的关于开展机器学习的心得体会, 目的是给初学者提供基本的指导, 主要讲解了建立系统选择合适的评价指标数据处理系统优化等内容, 帮助初学者少走一些弯路
2. 机器学习的入门秘籍
摘要: 机器学习已经成为当下最火热的技术之一, 对于初学者来说, 如何快速入门机器学习是至关重要的本文属于入门级宝典, 高手请绕道!
3. 会玩超级玛丽, 机器学习能有多难?
摘要: 小白也能看懂机器学习? 这篇文章用超级玛丽的原理教会你, 到底什么是机器学习, 让尖端科技不再艰深难懂
4. 机器学习能为你的业务做什么? 有些事情你肯定猜不到!(机器学习入门第一篇)
摘要: 机器学习是一项令人难以置信的技术, 你需要了解很多很多的基础知识, 以使得业务功能尽可能的不受复杂算法的影响, 让你能够提出正确的问题了解机器学习模型开发过程成立一个团队以促进学科间的不断合作, 而不是把数据科学视为一个产生奇迹的黑匣子
5. 关于机器学习算法 你需要了解的东西(机器学习入门第二篇)
摘要: 对学习算法进行分类是基于构建模型时所需的数据: 数据是否需要包括输入和输出或仅仅是输入, 需要多少个数据点以及何时收集数据根据上述分类原则, 可以分为 4 个主要的类别: 监督学习无监督学习半监督学习和强化学习
6. 如何开发机器学习模型?(机器学习入门第三篇)
摘要: 创建一个优秀的机器学习模型跟创建其他产品是一样的: 首先从构思开始, 把要解决的问题和一些潜在的解决方案放在一起考虑一旦有了明确的方向, 就可以对解决方案进行原型化, 然后对它进行测试以确定是否满足需求, 不妨看看本文是如何一步一步实现的
7. 如何高效运作机器学习团队(机器学习入门第四篇)
摘要: 一个传统的产品团队由设计师工程师和产品经理组成, 而数据分析师有时也会包含在其中, 但大多数情况下是多个团队共享这个稀缺资源在机器学习团队中又会有哪些角色和组织结构呢, 本文为你揭晓
8. 机器学习会产生哪些用户体验问题?(机器学习入门第五篇)
摘要: 许多机器学习算法都是黑匣子: 输入大量的数据, 然后获得一个以某种神秘方式工作的模型这使得很难向用户解释机器学习的结果在许多算法中, 还存在着交互效应, 这使得模型更加难以解释了你可以把这个看成是特征之间的复合效应, 特征之间以多种奇怪而又复杂并且不为人类所理解的方式结合在一起, 整体效应大于各个部分效应
9. 简单自学机器学习理论引言 (Part I)
摘要: 本篇文章是 "机器学习理论" 三部曲中的第一部分, 主要介绍学习机器学习的动机及基本理论知识, 详细介绍机器学习所学习的问题泛化误差以及学习问题是否可解的公式化表示, 为初步研究机器学习的人员介绍了机器学习的基本处理过程
10. 简单自学机器学习理论 泛化界限 (Part II )
摘要: 本篇文章是 "机器学习理论" 三部曲中的第二部分, 主要介绍独立同分布大数法则及 hoeffding 不等式等基本数学知识, 详细推导了泛化界限及其分解
11. 简单自学机器学习理论正则化和偏置方差的权衡 (Part III )
摘要: 本篇文章是 "机器学习理论" 三部曲中的第三部分, 主要介绍方差分解以及目标函数的正则化, 通过仿真可以看到, 引入正则化项限定了学习问题的解决方案范围
12. 入门级攻略: 机器学习 VS. 深度学习
摘要: 本文以浅显易懂的语言介绍了机器学习和深度学习的定义及应用, 以及在源数据要求, 硬件支持, 特征工程问题解决方式执行时间及可解释性等方面的区别, 对于新手入门有很大启示意义
13. 增强学习小白? 本文带你入门了解增强学习
摘要: 入门一件新事物总是会有些无从下手的, 看了本文希望可以给大家一些帮助和了解
14. 这 10 本由浅入深的好书, 或让你成为机器学习领域的专家
摘要: 机器学习是个跨领域的学科, 而且在实际应用中有巨大作用, 但是没有一本书能让你成为机器学习的专家在这篇文章中, 我挑选了 10 本书, 这些书有不同的风格, 主题也不尽相同, 出版时间也不一样因此, 无论你是新手还是领域专家, 定能找到适合你的
15. 想知道机器学习掌握的怎么样了吗? 这有一份自测题(附答案和解析)
摘要: 人类对于自动化和智能化的追求一直推动着技术的进步, 而机器学习这类型的技术对各个领域都起到了巨大的作用随着时间的推移我们将看到机器学习无处不在从移动个人助理到电子商务网站的推荐系统即使作为一个外行你也不能忽视机器学习对你生活的影响本次测试时面向对机器学习有一定了解的人
16. 送机器学习电子书(TensorFlow)RNN 入门
摘要: 本文作者正在写自己的新书 Machine Learning with TensorFlow, 这篇博文只是他新书的一小部分, 作者用简单的语言介绍了 RNN, 不用一个小例子介绍了如何使用 Tensorflow 中内置的 RNN 模型进行预测
17. 适合入门的 8 个趣味机器学习项目
摘要: 还在为找不到机器学习入门练手项目而感到无奈吗? 本指南中, 将给大家带来 8 个适合初学者学习的有趣的机器学习项目, 简单易学, 相信会增添大家学习机器学习的信心
18. 机器学习快速入门: 你必须知道的三大算法
摘要: 每天霸占新闻头条的机器学习, 想入门, 先看懂这三大算法
二.机器学习算法篇:
1. 快速选择合适的机器学习算法
摘要: 机器学习初学者可以通过本文了解如何快速找到合适的机器学习算法
2. 多重角度解读: 贝叶斯推理是怎么工作的
摘要: 本文首先介绍了贝叶斯的起源, 并利用简单的例子生动形象地讲解了贝叶斯定理是如何工作的, 解释了其基本原理以及公式的物理含义
3. 简单通俗易懂: 一个小例子完美解释 Naive Bayes(朴素贝叶斯)分类器
摘要: Naive Bayes 分类器的解释有很多, 但是基于一个小例子来解释的不多, 本文就是基于一个简单通俗易懂的小例子来解释 Naive Bayes 分类器
4. 学习二合一: 监督学习支持向量机 (SVM) 入门
摘要: SVM 是机器学习中有监督学习的一种, 通常用来进行模式识别分类以及回归分析本文用一个小例子简介 SVM, 言简意赅, 通俗易懂
5. 机器学习利器决策树和随机森林
摘要: 机器学习是当下最火的领域, 本文通过一个小例子介绍了其核心算法: 决策树和随机森林
6. 基于图的机器算法 (一)
摘要: 基于图的机器算法学习是一个强大的工具结合运用模块特性, 能够在集合检测中发挥更大作用
7. 基于图的机器算法 (二)
摘要: 基于图的机器算法学习是一个强大的工具结合运用模块特性, 能够在集合检测中发挥更大作用本文是基于图的机器算法系列文的第二篇
8. 简单易学! 一步步带你理解机器学习算法马尔可夫链蒙特卡罗(MCMC)
摘要: 对于简单的分布, 很多的编程语言都能实现但对于复杂的分布, 是不容易直接抽样的马尔可夫链蒙特卡罗算法解决了不能通过简单抽样算法进行抽样的问题, 是一种实用性很强的抽样算法本文将简明清晰地讲解马尔可夫链蒙特卡罗算法, 带你理解它
9. 进阶隐式矩阵分解探讨如何实现更快的算法
摘要: 本文重点是围绕 Conjugate Gradient(共轭梯度)方法来探讨更优的矩阵分解算法
10. 纯干货 | 机器学习中梯度下降法的分类及对比分析(附源码)
摘要: 本文详细介绍了基于使用数据量的多少, 时间复杂度以及算法准确率的不同类型的梯度下降法, 并详细说明了 3 种梯度下降法的比较
11. 深度学习网络大杀器之 Dropout(I)深入解析 Dropout
摘要: 本文详细介绍了深度学习中 dropout 技巧的思想, 分析了 Dropout 以及 Inverted Dropout 两个版本, 另外将单个神经元与伯努利随机变量相联系让人耳目一新
12. 深度学习网络大杀器之 Dropout(II)将丢弃学习视为集成学习之我见
摘要: 本文分析了可以将丢弃学习当作是集成学习在集成学习中, 可以将一个网络划分成若干个子网络, 并且单独训练每个子网络在训练学习后, 将每个子网络的输出进行平均得到集成输出另外, 展示了丢弃学习可以看成是在每次迭代中不同隐藏节点集合的集成学习表现, 同时也展示了丢弃学习有着与 L2 正则化一样的效果
13. 神经网络常用激活函数对比: sigmoid VS sofmax(附 python 源码)
摘要: 本文介绍了神经网络中的两种常用激活函数 softmax 与 sigmoid 函数, 简单介绍了其基本原理性质及其使用, 并用 python 进行了实例化演示, 在文章的最后总结了两种激活函数的区别
14. 新颖训练方法用迭代投影算法训练神经网络
摘要: 本文介绍了一种利用迭代投影算法对神经网络进行训练的方法, 首先介绍了交替投影的基础知识, 说明投影方法是寻找非凸优化问题解决方案的一种有效方法; 之后介绍了差异图的基础知识, 将差异图与一些其他算法相结合使得差分映射算法能够收敛于一个好的解决方案; 当投影的情况变多时, 介绍了分治算法, 最后将迭代投影算法应用到神经网络训练中, 给出的例子实验结果表明效果不错
15. 车辆追踪算法大 PK:SVM+HOG vs. YOLO
摘要: 本文通过 SVM+HOG 算法, YOLO 算法实现车辆检测和跟踪准确性和速度的对比, 得出 YOLO 算法更具优势的结论
16. 什么是视频向量化? 本文带你了解基于 DeepWalk 的视频推荐
摘要: 本文简要讲述了视频向量化, 对 DeepWalk 的算法进行简单的解释
17. 比 PCA 降维更高级(R/Python)t-SNE 聚类算法实践指南
摘要: 本文介绍 t-SNE 聚类算法, 分析其基本原理并从精度上与 PCA 等其它降维算法进行比较分析, 结果表明 t-SNE 算法更优越, 本文最后给出了 RPython 实现的示例以及常见问题 t-SNE 算法用于自然语音处理图像处理等领域很有研究前景
18. 随机森林 VS 梯度提升机模型融合之我见
摘要: 本文节选自 Quora 社区上 When would one use Random Forests over Gradient Boosted Machines (GBMs)? 问题的回答, 几位博主就随机森林 (Random Forests) 与梯度提升机 (Gradient Boosted Machines, GBMs) 的适合场景以及优缺点展开了讨论
三.机器学习常用库:
1. 倚天遇到屠龙: LightGBM VS xgboost 谁才是最强的梯度提升库?
摘要: 很多人把 XGBoost 比作屠龙刀, LightGBM 比作倚天剑, 那么当倚天遇到屠龙, 谁更强呢?
2. 即学即用: Pandas 入门与时间序列分析
摘要: 这篇文章是 Alexander Hendorf 在 PyData Florence 2017 上做的报告报告前半部分主要为初学者介绍 Pandas 的基本功能, 如数据输入 / 输出可视化聚合与选择与访问, 后半部分主要介绍如何使用 Pandas 进行时间序列分析, 源代码亲测可用
3. 俄罗斯最大搜索引擎 Yandex 开源了一款梯度提升机器学习库 CatBoost
摘要: 俄罗斯搜索巨头 Yandex 宣布, 将向开源社区提交一款梯度提升机器学习库 CatBoost 它能够在数据稀疏的情况下教机器学习特别是在没有像视频文本图像这类感官型数据的时候, CatBoost 也能根据事务型数据或历史数据进行操作
4.Netflix 开源面向稀疏数据优化的轻量级神经网络库 Vectorflow
摘要: 在 Netflix 公司, 我们的机器学习科学家在多个不同的领域处理着各种各样的问题: 从根据你的爱好来定制电视和推荐电影, 到优化编码算法我们有一小部分问题涉及到处理极其稀疏的数据; 手头问题的总维度数很容易就能达到数千万个特征, 即使每次要看的可能只是少数的非零项
5.Python 高性能计算库 Numba
摘要: 在计算能力为王的时代, 具有高性能计算的库正在被广泛大家应用于处理大数据例如: Numpy, 本文介绍了一个新的 Python 库 Numba, 在计算性能方面, 它比 Numpy 表现的更好
6. 第二热门语言: 从入门到精通, Python 数据分析库大全
摘要: 本文介绍了一些常见的用于数据分析任务的 Python 库, 如 NumpyPandasMatplotlibScikit-learn 以及 BeautifulSoup 等, 这些工具库功能强大, 便于上手有了这些帮助, 数据分析会变得分外简单
7. 新工具 TensorLayer: 管理深度学习项目的复杂性
摘要: 本文介绍了一种新基于 TensorFlow 的 python 库 TensorLayer, 它能够有效的帮助开发者管理好自己的深度学习网络并且它还提供了很多功能强悍的 API, 帮助开发者更好的完成任务
8.Pandas 并非完美无缺
摘要: 我们一直使用 Pandas, 但是却不知道关于 Pandas 的细节 Pandas 开发者深度复盘 Pandas, 指出了十大关键性问题, 并通过介绍了如何使用 Apache Arrow 来解决这些问题
9. 关于 Numba 你可能不了解的七个方面
摘要: 目前 Numba 正被开始流行使用来加速 Python 程序, 本文讲解了七个大家可能不了解的方面, 希望对大家有所帮助
四.机器学习实战篇:
1.57 行价值八千万美元的车牌识别代码
摘要: 为了防止被窃车辆进入黑市销售, 警方使用了一个名为 VicRoads 的基于网络的服务, 该服务用于检查车辆的登记状态该警局还投资研发了一个固定式汽车牌照扫描器: 一个固定的三脚架摄像头, 可扫描过往的车辆, 并自动识别被窃车辆
2. 如何利用机器学习预测房价?
摘要: 本文作者利用自己过去三个月里所学到的东西, 来预测所在城市的房价所用到的技术有网络爬取技术文本自然语言处理, 图像上的深度学习模型以及梯度增强技术等
3. 机器学习中的技术债务
摘要: 许多人遇到技术债务时都会眉头紧锁, 但一般来说, 技术债务并不是一件坏事例如, 当我们需要在最后期限之前发布版本的时候, 技术债务就是一个可以利用起来的合理手段但是技术债务存在与金融债务一样的问题, 那就是到了要偿还债务的时候, 我们所付出的要比开始时付出得多这是因为技术债务具有复合效应
4.DIY 图像压缩机器学习实战之 K-means 聚类图像压缩: 色彩量化
摘要: 本文以图像压缩为例, 介绍了机器学习的实际应用之一
5. 如何将机器学习用在基于规则的验证上
摘要: 这篇文章介绍了一些高级问题, 比如: 智能自治系统的验证有多少可以用机器学习来实现? 大多数的需求是否仍然是基于规则的, 如果是这样, 那么它们如何跟机器学习相结合? 机器学习和规则之间的不稳定接口如何影响基于机器学习的系统?
6.Certigrad 随机计算图优化系统
摘要: Certigrad 是一种概念证明, 它是用于开发机器学习系统的一个新途径
7. 使用神经网络和遗传算法玩转 Flappy Bird
摘要: 本文展示了针对 Flappy Bird 游戏设计的机器学习算法本实验的目标是使用神经网络和遗传算法编写一个人工智能游戏控制器, 打出游戏最高分, 不服的来挑战!
8. 教机器写代码: 增强拓扑进化网络(NEAT)
摘要: NEAT 的意思是增强拓扑进化网络, 它描述了在进化过程中受遗传修饰启发的自学习机器的算法概念, 不妨看看它是如何教机器写代码的
9. 机器学习中, 使用 Scikit-Learn 简单处理文本数据
摘要: 机器学习中, 我们总是要先将源数据处理成符合模型算法输入的形式, 比如将文字声音图像转化成矩阵对于文本数据首先要进行分词 (tokenization), 移除停止词(stop words), 然后将词语转化成矩阵形式, 然后再输入机器学习模型中, 这个过程称为特征提取(feature extraction) 或者向量化(vectorization)
五.机器学习杂谈篇:
1. 关于机器学习你必须了解的十个真相
摘要: 作者从非专业人士的角度对人工智能常见的误解进行了解释说明
2. 谁更胜一筹? 随机搜索 V.S. 网格搜索
摘要: 随机法和网格法都是常用的有效的结构优化方法那么它们两者当中谁更胜一筹呢? 在本文中, 作者通过有趣的地形搜索实验, 找到了答案
3. 没有任何公式直观的理解变分自动编码器 VAE
摘要: 本文简单介绍了变分自动编码器 VAE 的基本原理, 从经典神经网络的贝叶斯计算概率方法慢慢转变到变分自动编码器神经网络中的优化问题, 使用 KL 散度度量误差, 给大家提供一个 VAE 的基本框架全篇没有公式, 通俗易懂
4. 增强避障系统设计浅析: 站在机器学习的角度, 剖析学习型避障小车的设计思路
摘要: FF91 于 12017 年 1 月 4 日在美国拉斯维加斯成功首发, 拉开了互联网生态电动汽车的序幕自动泊车使得停车也成为了一种享受, 新手司机再也不用担心该如何见缝插针了但是如果在车水马龙的繁忙环境下, 无人驾驶还能得心应手吗? 本文将站在机器学习的角度和大家分享学习型避障小车的设计思路
5.AlphaGo 在围棋界成为最强王者后, 我们该如何进行机器学习?
摘要: 机器学习无疑是时下的科技热点无人驾驶, 机器下棋, 股市预测等领域, 我们都能找到机器学习忙碌和高大的身影那么对于初学者来说, 该如何下手? 该怎么学习呢?
6. 分享 Andrew Ng 在深度学习暑期班中演讲的机器学习项目
摘要: 深度学习项目流程, 带你走出迷茫
7. 分布式机器学习平台比较
摘要: 机器学习, 特别是深度学习(DL), 最近已经在语音识别图像识别自然语言处理推荐 / 搜索引擎等领域获得了成功这些技术在自主驾驶汽车数字卫生系统 CRM 广告物联网等方面都存在着非常有前景的应用当然, 资金驱动着这些技术以极快的速度向前发展, 而且, 最近我们已经看到了有很多机器学习平台正在建立起来
8. 机器学习和统计学的爱恨情仇可以结束了
摘要: 机器学习和统计学在数据科学的领域里, 已经相爱相杀很多年今天, 就让我们跟随 ML 从业者和统计学家两者组成团队, 解开两者这几十年的爱恨情仇
9.2017 上半年无监督特征学习研究成果汇总
摘要: 无监督学习是人工智能时代核心技术, 今天我们就来盘点一下 2017 上半年无监督学习出现了那些重要的研究成果
10. 有监督相似性学习: 基于相似问题数据的对称关系学习
摘要: 本文简单介绍基于相似问题数据的对称关系学习, 通过在 Quora 数据集和 StackExchange 语料库上应用孪生卷积神经网络的结果表明, 对称网络能够较大幅度地提高检测精度
11. 应用机器学习: 传道解惑指南
摘要: 本文作者编辑了一份包括概念定义资源以及工具的知识合集, 这对于在这个复杂领域从事工作的人来说非常有用
本系列博客内容由北邮 @爱可可 - 爱生活老师推荐,@阿里云云栖社区组织翻译, 翻译小组袁虎负责整理本系列长期更新, 更多关于机器学习的优质好文, 多多推荐!
来源: http://click.aliyun.com/m/33134/