1. 复习一下, 如何亲手从 0 到 1 建立一个学科体系
昨天给大家介绍了如何亲手从 0 到 1 建立一个学科体系, 我们先做一个简单回顾.
现在开始着手构建数据分析的学科体系啦哎, 等等, 有没有这种感觉, 哈哈. 前一秒还在吃瓜, 下一秒直接就要改变宇宙了?
为了让大家更好的理解数据科学的意义, 我们需要回到当时数据科学产生的背景.
2. 数据科学产生的背景
2.1 首先是数学学科的完善和发展
从康拓建立集合论, 到罗素提出罗素悖论, 到出现数学第四次危机, 再到布尔巴基学团完善集合论, 数学学科的整个大厦已经建立.
然而数学在现实中的应用却远远不够, 甚至有些方面的内容至今都没有找到和现实生活的联系. 比如数论的内容, 我们至今不知道可以用在什么地方, 按照以往的经验, 每一个高深数学分支在现实的落地, 都将重塑我们对于现实的认知, 相信当有一天, 数论的内容找到和现实对应的时候, 我们一定又会更新一次对现实世界的理解, 就像当年爱因斯坦结合黎曼的复变几何发明广义相对论一样. 即使应用, 我们应用的领域也非常有限, 除了在物理最前沿的科研, 例如量子力学中有一些对应, 在现实生活的应用非常少.
就好像我们知道有一个地方有无尽的宝藏, 然而我们却不知道怎么开采一样, 面对前人留下的这些顶尖智慧成果, 我们不知如何利用.
2.2 其次是科学的方法论的完善
科学思维的演绎法启蒙
科学思维启蒙于古希腊雅典城邦, 其鲜明的特征是利用数学工具去抽象化的研究脱离现实世界的问题, 这里面有鲜明的俩个特征: 1 脱离现实 2 使用公理;
其中里程碑的事件是发现无理数, 大家思考一下为什么? 因为当时的生产活动完全不需要无理数 我们计算圆周率π, 完全可以求一个 3.14 就可以用, 根本不需要知道他其实还 3.1415926.... 相比我们, 中国古代只有技术, 没有科学, 我们的技术发展一直牢牢的与生产结合, 都是一些生产经验的积累. 虽然不能说没用, 但是和现代科学是八竿子打不着的.
科学思维的实验思维发端
我们初中物理课都学过, 伽利略的斜面实验, 当时伽利略, 但是这种实验思维的集大成者却不是伽利略, 甚至牛顿都算不上, 当数笛卡尔, 没错, 就是笛卡尔坐标系的那个笛卡尔.
笛卡尔在其著作 <探探方法> 中给出了给出了一套严格的思考思路 "第一条是, 凡是我没有明确认识到的东西, 我绝不把它当成真的接受. 也就是说, 要小心避免轻率的判断与先入之见, 除了清楚分明地呈现在我的心里, 使我无法怀疑的事情除外, 不要多放一点东西到我的判断里. 第二条是, 把我审查的每一个难题按照可能和必要的程度分成若干部分, 以便一一妥为解决. 第三条是, 按次序进行我的思考, 从最简单, 最容易认识的对象开始, 一点点逐步上升, 直到认识最复杂的对象; 就连那些本来没有先后关系的东西, 也给他们设定一个次序. 最后一条是, 在任何情况下, 都要尽量全面地考察, 尽量普遍地复查, 做到确信无疑"
现代人根据笛卡尔的思想, 确定了用科学方法研究一个对象的方法 1 面对一个观点 ; 2 悬置判断 3 文献综述 了解关于这个观点的前人成果 4 如果前人已经证明, 直接引用 5 如果前人没有证明, 那么我们需要自己实验; 科学方法在后来的发展过程中, 继续丰富了自己的内涵, 例如引入了同行评议, 丰富了具体操作实验的方法, 但是一直没有脱离以上的俩点基础: 公理演绎和实验.
2.3 统计学的困境
过去, 我们用统计学工具去分析问题, 往往需要先收集数据, 我们往往遇到俩个问题:
收集数据的成本非常高. 这导致了什么呢? 因为高成本严格限制了统计学的应用范围, 只有大公司在重大问题上的决策, 才愿意去收集数据, 进行统计分析; 一般个人或者小型企业, 往往没有这样的经济实力.
收集数据的准确性低. 为什么准确性低呢? 因为收集数据, 往往都通过调查问卷, 收集数据的这个行为本身对调查对象干扰太大, 人们往往愿意美好自己的实际情况, 或者加重问题的描述. 因为这俩点原因, 统计学的应用一直有限.
2.4 互联网基础设施的发展
互联网技术的发展, 导致了收集数据非常方便, 而且非常准确. 我们的手机就是一个移动的传感器, 无时无刻的不在收集我们的数据; 而且因为收集的很多都是行为数据, 非常真实. 除了手机之外, 我们身边还有各种各样的传感器设备, 在收集我们的数据, 比如城市的摄像头 / 家庭里的各种智能设备. 这正好解决了统计学的燃眉之急 - 没有数据和数据不准确.
另一方面, 互联网云服务的兴起, 有效解决了算力和存储的问题. 特别是亚马逊的通用云服务, 谷歌的专为深度学习设计的云服务, 微软的混合云服务.
2.5 人工智能技术, 在深度学习方向上获得进展
深度学习技术非常适合从大量数据中, 发现规律, 建立模型的工作.
我们传统上解决一个重大难题的方法只有一个那就是去抽象转化成一个数学问题, 然后用数学工具去解决他.
但是我们现在有了另外一个思路, 那就是把几个难题转化成一个大量的重复计算的数学问题, 然后用深度学习去解决他. 至此, 我们终于挖开了数学里的又一块宝藏 - 求解模糊解的若干方法.
2.6 总结: 数据分析应运而生
现在我们对数据科学的定义有一个清晰的理解: 我们用输入 - 处理 - 输出来描述数据分析的过程. 输入: 业务问题 处理: 综合 统计学 / 深度学习 / 互联网数据源 / 商业分析框架 底层处理工具: 科学方法论, 贝叶斯过程(等会会介绍哦). 输出: 分析模型
3. 数据分析的公理化基础
终于铺垫完了, 我们可以看一看数据科学这个学科的公理化基础是什么? 主要有俩点: 科学方法论和贝叶斯过程.
3.1 科学方法论核心三要素
测量 我们面对一个问题的时候, 第一个问题就是如何定义研究对象. 科学方法论上, 把一个对象存在定义为可测量, 就是存在 = 可测量. 比如 我们研究一个人的智力, 智力这个概念, 包涵了人类太多的情感因素, 是不可以直接描述的, 但是我们可以设计各种间接反映智力水平的量表(相当于答题), 我们通过量表的数据来认识智力这个现实概念.
实验 实验有这样几个关键要素: 大样本 / 随机 / 双盲.
大样本: 试验选取的样本数要尽可能多. 因为统计学的 "大数原则" 告诉我们, 样本越大, 统计结果越能稀释掉那些特例(例如某些人免疫系统特别强或特别弱), 也就越能逼近真实情况. 随机: 样本选取遵循随机原则. 这样可以有效避免病人由于病情轻重而导致的痊愈效果阶段性差异. 双盲: 实验者和被实验者都不知道对照组是哪个.
演绎 通过实验获得基本的公理, 然后根据公理去建立知识体系, 建立模型, 建立范例.
同行评议 此外, 还可以加上同行评议. 也就是一个成果的价值不是由吃瓜群众决定的, 而是由同行共识决定的,
3.2 贝叶斯过程
掌握了科学之后, 我们是不是就可以解决所有问题了? 有些时候, 我们没有办法做实验, 比如: 规划一座城市的发展. 有些时候, 我们没有办法测量研究对象, 比如: 研究爱情的时候. 有些时候, 我们没有时间, 没有成本去做实验, 比如老板明天就要出方案. 那么面对复杂的现实情况, 我们只能靠猜吗? 这个时候我们就要请出我们的另一个公理贝叶斯定理.
A = 业务现状 B = 新的影响因素 B/A = 新的影响因素加入之后, 对业务的影响 当不能准确知悉一个事物的本质时, 可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率. 用数学语言表达就是: 支持某项属性的事件发生得愈多, 则该属性成立的可能性就愈大.
说的简单一点就是理想很美好, 现实很骨感, 现实中, 我们往往不是求解最优方案, 而是找合适的方案, 我们的解决方案可能会随着新的影响因素的不断加入, 而不断调整, 最后结果会趋近于最优方案.
我们来看看 "满意决策论", 获得过心理学杰出贡献奖, 图灵奖和诺贝尔经济学奖的著名管理大师赫伯特 - 西蒙提出了与 "麦穗理论" 异曲同工的 "满意决策论". 他认为: 一切决策都是折中, 只是当下可选的最佳行动方案. 为了满意, 而不是最优, 决策应该遵循以下原则: 第一, 定下最基本的满意标准; 第二, 考察现有的可选方案; 第三, 如果有可选方案满足最基本的满意标准, 就不再寻找更优方案.
既然现实这么复杂, 那我们掌握科学方法论还有什么意义? 其实科学方法论最有意义的地方在于, 我们要知道事情理想的情况是什么样的, 然后现实根据理想情况去调整.
现实中, 完整比完美重要.
最后总结一下, 我们今天主要了解了三方面
数据科学的产生背景
数据科学的定义
数据科学的俩条基本公理
1 科学方法论 = 测量 + 实验 + 演绎 + 同行评议
2 贝叶斯过程 = 明确资源限制 * 设定基本标准 * 寻找复合标准解决方案 * 根据新信息不断优化
最后讲一个小故事, 苏格拉底讲解如何找到另一半
2500 年前, 三个学生问西方哲学奠基者苏格拉底一个问题:"怎样才能找到理想的人生伴侣?" 苏格拉底带着学生来到一片麦田前, 说:"请你们走进麦田, 一直往前不要回头, 途中摘一支最大的麦穗, 只能摘一支." 第一个学生走进麦田. 他很快就看见一支又大又漂亮地麦穗, 于是很高兴地摘下了这支麦穗. 可是, 他继续往前走, 发现有很多麦穗比他摘的那支大得多. 他很后悔下手早了, 只好遗憾的走完了全程. 第二个学生吸取了教训. 每当他要摘时, 总是提醒自己, 后面还有更好的. 不知不觉就走到了终点, 却一支麦穗都没摘. 他也很后悔, 没有把握住机会, 总觉得后面会有更好的选择, 最后错过了全世界. 第三个学生吸取了前两者的教训. 他把麦田分为三段, 走过第一段麦田时, 只观察不下手, 在心中把麦穗分为大, 中, 小三类; 走过第二段时, 还是只观察不下手, 验证第一段的判断是否正确; 走到第三段, 也就是最后三分之一时, 他摘下了遇到的第一支属于大类中的麦穗. 这可能不是最大的一支, 但他心满意足地走完了全程. 这就是著名的 "麦穗理论".
后来经济学家, 把这个理论更加精确化, 把时间分为两段, 第一段用 37% 的时间来确定 "最基本的满意标准", 第二段用 63% 的时间来选择满足 "最基本的满意标准" 的第一个方案.
一个女孩打算在 19~40 岁之间, 也就是用 21 年时间寻找理想的人生伴侣. 如果她相信 "37% 理论", 就可以用这 21 年的 37%, 也就是 7.77 年来交往不同的男士. 到 26.77(19+7.77)岁, 确定 "最基本的满意标准". 然后, 嫁给从那一天开始他遇到的第一个好于这个标准的男士, 并不再寻找更优方案.
以上纯属扯淡, 爱情还是靠缘分吧, 哈哈.
来源: https://www.cnblogs.com/data-analyst-qjj/p/faddy.html