本文转载自公众号 "读芯术"(ID:AI_Discovery).
大数据技术的发展速度之快让人难以想象. 有研究发现, 世界上的字节数是可观测宇宙中恒星数的 40 多倍. 每天数十亿人产生的数据量之大简直令人难以想象, 对大数据全球市场规模的预测毫无疑问证明了这一点.
问题不在于你是否会在日常工作中使用大数据, 而在于你何时开始使用它. 大数据就在这里, 而且在可预见的未来里, 大数据都将一直存在. 过去十年里, 数据量增长迅速. 随着越来越多的公司使用大量数据运营且迅速开发物联网技术, 数据量只会持续增长.
在调查市场需求并密切关注市场动向后, 本文准备了一份大数据趋势的简要概述, 如果你对大数据感兴趣, 那么千万不要错过.
1. 增强型分析
增强型分析借助人工智能, 机器学习工具和框架来扩展商业智能工具.
这是从传统商业智能中产生的. 在传统商业智能中, IT 部门推动工具的创建和使用. 自助式商业智能为业务用户 (在某些情况下也为终端用户) 提供基于视觉的分析. 增强型分析是自助式商业智能进化的下一步, 它将机器学习和人工智能元素集成到公司的数据准备, 分析和商业智能流程中, 以提高数据管理性能.
增强型分析可以减少关于数据准备及清理的时间. 数据科学家日常生活中大部分时间都是在几乎没有监督的情况下为商务人士创造 (对市场的) 洞察力.
2. 连续智能
持续智能是将实时分析集成到当前业务运营中的过程. Gartner 称, 到 2022 年, 超过一半的新的主要业务系统将基于实时分析做出业务决策. 通过将实时分析集成到业务运营中, 并处理当前和历史数据, 持续智能有助于在新数据到来时增强人类决策能力.
许多组织仍然只依赖历史和过时数据. 这样的组织在快速变化的环境中可能会落后. 因此, 组织应该不断地, 迅速地更新数据. 这些数据将提高问题识别, 解决以及重要决策的速度.
3. 数据运营
数据运营在方向上类似于 DevOps 实践, 但它针对不同的进程.
与 DevOps 不同, 它通过跨组织的协作实践来实现数据集成和数据质量. 数据运营的重点在于减少端到端数据周期, 开始于数据摄取, 准备和分析, 结束于创建图表, 报告和见解.
数据运营能为不太熟悉数据流的员工处理数据处理区域. 这样人们就可以更多地关注领域的专业知识, 而不是数据如何在组织中运行.
随着云解决方案在市场上的强势出现, 新的趋势和实践正逐渐显现, 并相互交叉. 数据运营实践旨在简化和加速数据流, 这就是为什么数据运营工具箱包含所谓的 "无服务器" 实践. 这些实践能让组织通过在基于云的基础设施中管理数据管道, 以此减少硬件数量, 轻松快速地扩展并加速数据流更改.
实现数据的集成, 可靠性和交付需要大量的工作和技能. 数据工程师, 数据科学家和 DevOps 工程师需要花时间来实现所有的数据运营实践. 在市场上不断出现的新产品能够利用你的数据落实这些实践.
这些产品提供了各种可插拔和可扩展的数据运营实践, 能够基于你的数据来进行复杂的数据流的开发, 同时还为数据科学部门提供 API.
4. 内存计算
内存计算是另一种加速分析的方法.
除了实时数据处理之外, 它还解决了缓慢的数据访问 (磁盘) 的问题, 并将所有进程流完全建立在 RAM 中存储的数据之上. 这使得数据的处理和查询速度比任何其他解决方案快 100 多倍, 这有助于企业立即做出决策并采取行动.
5. 边缘计算
边缘计算是一种分布式计算框架, 可将计算带到需要的数据源附近.
随着传输到云分析解决方案的数据量不断增加, 原始数据的延迟和可伸缩性以及处理速度等问题也随之出现. 边缘计算方法能减少数据生产者和数据处理层之间的延迟, 并通过将数据处理管道的部分移近原点 (传感器, 物联网设备) 来减少对云层的压力.
Gartner 估计, 到 2025 年 75% 的数据将在传统数据中心或云之外进行处理.
6. 数据治理
数据治理是一个实践和过程的集合, 可以确保组织内部信息得到有效使用
安全数据泄露和通用数据保护条例的引入迫使公司更加关注数据. 像首席数据官 (CDO) 和首席保护官 (CPO) 这样的新角色已经开始出现, 他们负责根据法规和安全策略管理数据. 数据治理不仅涉及安全和法规, 还涉及企业使用的数据的可用性, 有效性和完整性.
数据量的快速增长以及法规和合规要求的不断提高是全球数据治理市场大幅增长的幕后原因.
7. 数据虚拟化
数据虚拟化集成了跨系统的所有企业数据, 其管理统一的数据来集中保证安全与治理, 并将其实时交付给商业用户.
当使用不同来源的数据时, 比如数据仓库, 云存储或安全 SQL 数据库, 就需要组合或分析这些不同来源的数据, 以便基于分析提供见解或商业决策. 这与主要从其他来源复制数据的 ETL 方法不同, 数据虚拟化直接处理数据源并对其进行分析, 而不需要在数据仓库中复制数据源. 这节省了数据处理的存储空间和时间.
8. Hadoop> Spark
市场需求总是在不断变化的, 工具也是如此. 在现代数据处理中, 越来越多的工程趋势受到大数据基础设施的影响. 值得注意的软件趋势之一是迁移到云. 数据处理正从本地或数据中心转移到使用 AWS 服务进行数据提取, 分析和存储的云提供商.
并不是所有的工具都能跟上转变的步伐. 例如, 大多数 Hadoop 提供商仍然只支持数据中心基础设施, 而像 Spark 这样的框架在数据中心和云环境中都能适应. Spark 不断地发展和进步, 以跟上市场的需求, 为企业提供了更多的混合云端和多云端设置的选择.
根据市场预测, 大数据将持续增长. 根据多项研究和预测, 2025 年大数据全球市场规模将达到惊人的 2500 亿美元.
前几年的一些趋势, 例如增强型分析, 内存计算, 数据虚拟化和大数据处理框架, 仍然具有现实意义, 并将对商业产生重大影响. 例如, 内存计算的速度是其他任何解决方案的 100 多倍, 这有助于企业立即做出决策, 采取行动. 至于数据虚拟化 -- 其能节省数据处理存储空间和时间 -- 到 2022 年, 近三分之二的公司都会采用这种方法.
新趋势也在涌现. 诸如持续智能, 边缘计算和数据运营之类的功能强大的工具可以帮助改善业务并更快地完成任务. 例如, 持续智能同时考虑了历史数据和实时数据, 这极大地影响了组织的决策方式以及决策的效率和速度.
到 2022 年, 超过 50% 的新主要商业系统将基于实时分析环境来做商业决策. 边缘计算等方法允许在传统数据中心或云之外处理数据. 据估计, 到 2025 年 75% 的企业生成数据将在边缘进行处理.
数据运营工具包中的无服务器实践早已减少了企业的硬件数量, 并让其方便快捷地进行扩展. 近 50% 的公司已经或计划在不久的将来使用无服务器架构.
总之, 企业保持专注是至关重要的, 它们需要通过采用新颖的解决方案继续进行数字转型, 并继续改进处理数据的方式, 以免落后.
来源: http://bigdata.51cto.com/art/202102/644891.htm