随着人们开始进入深度学习和人工智能领域, 如何从基础数据收集发展到基于信息的世界需要进行一下反思, 这可能是一个好主意.
存储的数据只是大量混杂的信息, 直到人们可以将其转化为可操作的信息, 并且有时需要多年的收集数据才能够达到这一点. 需要长期收集的数据的例子包括: 采用新工艺, 药物或设备进行的医学试验, 基于不经常发生的外部因素的团体行为, 以及气候变化等.
对于数据就是知道自己不知道的事物. 一个很好的例子就是 "垃圾 DNA", 这个术语来自 20 世纪 70 年代和 80 年代, 是用于描述处在染色体之间的 DNA. 到了 2000 年代, 人们发现一些 "垃圾"DNA 能够调节染色体复制的方式和时间. 人们存储这些数据的好处是, 当时每个字节的存储成本很高. 这在当时成本很高, 而更高的成本是测序 DNA 的成本, 这也是它需要保存的原因. 从历史上看这很常见, 收集数据的成本很高, 存储数据的成本也很高, 所以人们需要感谢那些之前做正确事情的人. 他们存储了这些原始数据, 因为人们从中学到了很多东西.
人们知道天气预报中心每天都会收集所有气象数据, 其中包括预测模型的输出. 当这些网站有一个新的预测模型时, 他们通过新模型运行旧数据, 并查看模型输出和观察结果, 以查看新模型是否比旧模型好多少. 在一个城市实施似乎很容易, 但在国家范围和全球范围内做这件事需要处理和对比大量的数据和信息.
因此, 存储和数据架构师面临的挑战是通过开发满足性能, 可扩展性和治理需求的体系结构来保存这些数据.
什么是信息管理?
自从数据收集开始以来, 收集数据的重点就是要了解所收集的所有数据. 人工收集数据并进行分析是非常耗时的事情, 将数据转换为信息花费的时间既耗费时间又成本高昂.
信息的现代起源于 1890 年美国人口普查使用 Hollerith 穿孔卡片, 虽然它们是空白的, 不像人们可能目前看到的格式化卡片, 而在当时, 大量数据没有工具来分析数据, 并且将其转化为信息的成本相当高昂, 而在 1890 年人口普查之前, 这都是人工完成的.
显然, 按照现在的标准, 1890 年人口普查中产生的信息非常简陋. 但根据 19 世纪 90 年代的标准, 人们可以如此迅速地观察人口普查结果并作出决定(例如基于数据的可操作信息), 这是一种革命性的举措.
如今, 人们不会将 1890 年人口普查数据信息中的数据列入表格. 信息的定义 (仅仅与数据相比) 应该以时间标准为基础, 现在很多领域的定义正在迅速演变.
信息分析市场的规模和范围正在不断扩大, 从自动驾驶汽车到安全摄像头分析, 再到医疗发展. 在每个行业中以及人们生活的每一个部分, 都发生了迅速的变化, 并且速度在加快. 所有这些都是数据驱动的, 而收集的所有新旧数据都用于开发新类型的可操作信息. 而围绕收集的所有数据和开发的信息, 有很多问题被需要询问.
这对组织意味着什么?
人们所拥有的信息和数据的类型有很多要求. 有些可能会涉及到使用所谓的 DAR(空闲时数据加密), 它需要加密存储设备, 以防从系统中删除时, 数据几乎或完全不可访问(其难度取决于加密算法和大小, 设备的密钥或密钥的复杂性和熵).
从数据治理的角度理解数据或产生的信息所需的内容是基于组织所在的行业或法规以及美国国家标准局(NIST),ISO,HIPAA,SEC,GDPR 等机构的最佳实践. 由此产生的体系结构或程序变更是组织作为架构的一部分需要解决的事情.
组织的合规团队很清楚自己需要保留数据或信息多长时间, 但还需要解决许多其他需求, 以确保在性能, 可用性和数据完整性方面满足业务目标, 所有这些都需要在数据和信息的生命周期内解决.
最后的想法
遵守法规并不容易, 也不是免费的. 其成本取决于很多因素, 但是在架构规划和构建之后尝试强制遵从总是比预先制定的成本要高得多.
在确定合规要求时, 组织应该关注未来发展, 而不是现在, 因为事后必须承担成本并面临挑战. 这意味着需要不断研究组织所在行业的合规要求以及最佳实践. 数据只会在未来变得更加重要, 人们将会面临这些挑战.
来源: http://stor.51cto.com/art/201806/576552.htm