前言
现代科技高速发展,一方面给人们生活带来了便利;另一方面也给人们工作,生活冲击越来越大.接下来的物联网,人工智能,大数据,云计算,智能硬件等高科技来袭,会进一步颠覆人们传统的生活方式,工作方式,所以我们有必要认识和了解它们.
作者将分七篇文章与条头们分享讨论互联网发展过程中发生了那些重要的科技创新,本篇主要分享 "大数据".
大数据(big data)定义:
美国国家标准技术研究院(NIST)给出的定义是:大数据是数量大,获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理.
2. 大数据的 4V 特征:
2. 1.Volume 容量:数据体量巨大,从 TB 增长到 PB 指非结构化数据的模型和增长速度;
①非结构化数据占总数据量的 80-90%,比结构化数据增长快 10-50 倍,数据量是传统数据库的 10-50 倍;
说明:
a,非结构化数据 - 是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据.包括所
有格式的办公文档,文本,图片,XML, html,各类报表,图像和音频 / 视频信息等等.
b,结构化数据,简单来说就是数据库.比如企业 ERP,财务系统,医疗 HIS 数据库等
②数据基本单位:bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB.相邻单位之间差 1024 倍,如 TB=1024GB,PB=1024TB;
2.2.Variety 多样化:指数据的异构和多样性,数据多种不同形式,如文本,图像,视频,机器数据;数据无模式或者模式不明显;
①数据来源多,微博,传感器,社交网站;
②数据的种类多,非结构化数据多,视频,模型,音频,文档,连接信息;
③关联性强:譬如旅行图片和日志,就能推测出你的位置和行程是怎么样的.
2.3.Value 价值:体现在大量的不相关信息,价值密度低,需要通过深度复杂分析才可以对未来趋势与模式进行预测;价值密度低,从海量数据中挖掘稀有并珍贵的信息才是大数据的核心;
2.4.Velocity 高效:实现实时分析,实时呈现分析结果;能否实现实时的数据流处理是区别大数据应用和传统数据仓库技术 - BI 的关键差别之一;
3. 大数据的意义:
大数据是帮助企业利用海量数据资产实时,精确的洞察未知逻辑领域的动态变化,并快速重塑业务流程,组织和行业的新型数据管理技术构建颠覆性优势:
①洞察未知:多样化的数据使企业可以利用更为广泛的数据以支撑企业更多维度的分析需求,而不再局限于已知事实的分析,进而增加战略洞察力;
②优化流程:动态的分析变化可以使企业实时监测分析业务流程的不足,进而不断优化业务流程;
③实时响应:数据可实时访问分析加速了企业获取信息及分析的速度,进而使用户更加灵敏的应对市场的变化.
4. 大数据技术和传统数据管理技术不同:
4.1. 大数据以动态为主,传统数据以静态为主
维度大数据传统数据从数据来看大数据技术针对的是实时产生的大量结构化及非结构化数据传统数据管理针对的是过去一段时间内已知范围内的易于理解的数据从处理工具来看大数据技术要求实时处理数据要求高效,高吞吐处理数据,并未有严格的时限要求从数据算法来看探究的是建立算法模型,基于实时数据不断优化管理统计分析主题关系早确立且不变
4.2. 从是否已知关系来看
维度大数据传统数据已知关系未知为主,大数据探究的是已知之外的数据关联程度已知为主,传统数据管理技术探究的是基于已知下数量关系
5. 大数据的技术支撑:
5.1. 存储
①存储成本下降,存储成本的下降,也改变了大家对数据的看法,更加愿意把 1 年,2 年甚至更久远的历史数据保存下来,有了历史数据的沉淀,才可以通过对比,发现数据之间的关联和价值;
②正是由于存储成本的下降,才能为大数据搭建最好的基础设施;
5.2. 计算
运算速度越来越快,海量数据从原始数据源到产生价值,期间会经过存储,清洗,挖掘,分析等多个环节,如果计算速度不够快,很多事情是无法实现的.
5.3. 智能
机器拥有理解数据的能力大数据带来的最大价值就是 "智慧",大数据让机器变得有智慧,同时人工智能进一步提升了处理和理解数据的能力.
6. 大数据几种较为常用的功能:
6.1. 追踪
互联网和物联网无时无刻不在记录,大数据可以追踪,追溯任何一个记录,形成真实的历史轨迹.追踪是许多大数据应用的起点,包括消费者购买行为,购买偏好,支付手段,搜索和浏览历史,位置信息等.
6.2. 识别
在对各种因素全面追踪的基础上,通过定位,比对,筛选,可以实现精准识别,尤其是对语音,图像,视频进行识别,使可分析内容大大丰富,得到的结果更为精准.
6.3. 画像
通过对同一主体不同数据源的追踪,识别,匹配,形成更立体的刻画和更全面的认识.对消费者画像,可以精准推送广告和产品;对企业画像,可以准确判断其信用及面临的风险.
6.4. 提示
在历史轨迹,识别和画像基础上,对未来趋势及重复出现的可能性进行预测,当某些指标出现预期变化或超预期变化时给予提示,预警.以前也有基于统计的预测,大数据大大丰富了预测手段,对建立风险控制模型有深刻意义.
6.5. 匹配在海量信息中精准追踪和识别,利用相关性,接近性等进行筛选比对,更有效率地实现产品搭售和供需匹配.大数据匹配功能是互联网约车,租房,金融等共享经济新商业模式的基础.
6.6. 优化
按距离最短,成本最低等给定的原则,通过各种算法对路径,资源等进行优化配置.对企业而言,提高服务水平,提升内部效率;对公共部门而言,节约公共资源,提升公共服务能力.
来源: http://www.92to.com/bangong/2018/01-20/33110618.html