最近的一项调查显示, 随着云端对象库成为事实上的数据湖, 企业在查找和统计堆积的所有数据时, 处于艰难的境地.
对于拥有大量空旷空间的人们来说, 其存放的物品总是凌乱散布, 而这可能是人类的本性. 而目前也有这样一个趋势, 即对于越来越多的企业来说, 云对象存储正在成为事实上的数据湖. 好消息是, 云对象存储成本相对更低, 并且具有高度可扩展性, 而且越来越易于访问. 例如, 大多数云 Hadoop 服务交换 Hadoop 分布式文件系统 (HDFS) 的对象存储, 并且越来越多的云计算提供商正在提供服务, 提供临时查询或将云对象存储视为数据仓库的扩展表.
依赖云存储作为默认目标或数据湖的另一个方面是需要协调通用目标中数据的积累, 需要对数据隐私或数据保护更负责, 尤其对于 GDPR 等规则生效的情况.
Chaos Sumo 公司计划在今年夏天推出 SaaS 提供商的搜索层以添加云存储(现在称为 Amazon S3), 该公司刚刚发布了一项调查, 显示云计算采用者感受到的一些痛点.
无可否认, 这个调查规模并不大, 只有 120 名受访者, 主要针对的是数据操作专业人员, 该示例很可能偏向已经接受云计算的组织. 例如, 72% 的人表示他们目前使用某种形式的云对象存储. 对于那些使用亚马逊 S3 的人来说, 40% 的受访者表示他们预计明年他们使用 S3 存储的比例至少会增长 50%.
对于企业来说, 主要用于备份, 存储和归档. 但是 28% 的人已经在使用数据湖的对象存储, 而另外 18% 的人计划在未来的 12-18 个月内实施. 毫不奇怪, 对于这个以 AWS 为主的样本, 如今在使用 Amazon Athena 报告的类似比例(23%). 大约一半的受访者表示, 已使用 Amazon Redshift 数据仓库, Spectrum 现在可以将 S3 视为扩展表.
Athena 等工具的创新开放了对系统中数据的交互式访问, 而不是对存储进行优化, 而不需要 ETL(尽管数据必须采用某种形式的半结构化存储, 如 CSV,JSON,Parquet 或其他格式).
但正如图表所显示的那样, 随着数据在对象存储中的涌现, 越来越多的少数人担心问责制问题. 这正是 Hadoop 等平台的商业销售优势, 以及用于分析和数据准备的打包工具, 这些平台具有某种形式的数据沿袭, 安全性和访问控制作为其存在的理由. 云对象存储在涉及治理或周边安全时是赤裸裸的 -- 传统上是数据平台, 云主机或消耗数据的分析工具的工作.
因此, 四分之一的受访者担心他们将不得不移动数据来分析数据, 而数量较少但具有统计学意义的少数群体则对查找数据, 合规性和安全性表示担忧. 他们花费大量时间清理和准备数据, 超过一半的受访者表示花费每周至少 6 小时, 其中近 40% 的受访者表示每周花费超过 11 小时来完成任务.
值得注意的是, 只有 7% 的受访者表示目前很容易分析当今在对象存储中的数据. 这就是调查赞助商 Chaos Sumo 公司的商业用途. 该公司计划引入它所谓的 "数据结构", 将于今年夏天将 S3 数据打开到 Elastic search, 供现有 SaaS 提供商使用 OEM. 预计 S3 将成为更多分析平台和工具的良好去处. 对于 Chaos Sumo 来说, 将搜索作为 SaaS 提供商的实用工具来增加这些数据的可见性可以更好地应用云存储.
来源: http://cloud.51cto.com/art/201805/572934.htm