什么是数据集市?
数据集市专注于组织的单个功能区域, 并包含存储在数据仓库中的数据子集.
数据集市是数据仓库的精简版本, 旨在供组织中的特定部门, 单位或用户组使用. 例如, 营销, 销售, 人力资源或财务. 它通常由组织中的单个部门控制.
与数据仓库相比, 数据集市通常仅从少数几个来源获取数据. 与 Datawarehouse 相比, 数据集市规模小, 灵活性更高.
为什么需要数据集市?
由于减少了数据量, Data Mart 有助于增强用户的响应时间
它可以轻松访问经常请求的数据.
与企业 Datawarehouse 相比, 数据集市更易于实施. 与此同时, 与实施完整数据仓库相比, 实施数据集市的成本肯定较低.
与数据仓库相比, 数据集市更加灵活. 如果型号发生变化, 由于尺寸较小, 可以更快地构建数据集市.
Datamart 由单个 Subject Matter Expert 定义. 相反, 数据仓库由来自各个领域的跨学科 SME 定义. 因此, 与 Datawarehouse 相比, 数据集市更容易改变.
数据已分区, 并允许非常精细的访问控制权限.
数据可以分段并存储在不同的硬件 / 软件平台上.
数据集市的类型
数据集市有三种主要类型:
依赖: 依赖数据集市是通过直接从运营, 外部或两个来源提取数据来创建的.
独立: 无需使用中央数据仓库即可创建独立数据集市.
混合: 此类数据集市可以从数据仓库或操作系统获取数据.
依赖数据集市
依赖数据集市允许从单个数据仓库中获取组织的数据. 它提供了集中化的好处. 如果需要开发一个或多个物理数据集市, 则需要将它们配置为依赖数据集市.
依赖数据集市可以以两种不同的方式构建. 用户可以根据需要访问数据集市和数据仓库, 或者访问仅限于数据集市. 第二种方法不是最优的, 因为它有时被称为数据垃圾场. 在数据垃圾场中, 所有数据都以公共源开头, 但它们被废弃, 并且大多数都是废弃的.
image.PNG
独立数据集市
在不使用中央数据仓库的情况下创建独立数据集市. 这种数据集市是组织内小型团体的理想选择.
独立数据集市既没有与企业数据仓库的关系, 也没有与任何其他数据集市的关系. 在独立数据集市中, 数据是单独输入的, 其分析也是自主执行的.
独立数据集市的实施与构建数据仓库的动机是对立的. 首先, 您需要一致的, 集中的企业数据存储, 可以由需要不同信息的不同兴趣的多个用户进行分析.
image.PNG
混合数据集市:
混合数据集市结合了来自数据仓库的来源. 当您需要临时集成时, 这可能会有所帮助, 例如在将新组或产品添加到组织之后.
它最适合任何组织的多个数据库环境和快速实施周转. 它还需要最少的数据清理工作. Hybrid Data mart 还支持大型存储结构, 最适合于以小型数据为中心的应用程序.
image.PNG
实施 Datamart 的步骤
实施数据集市是一个有益但复杂的过程. 以下是实施数据集市的详细步骤:
image.PNG
设计
设计是数据集市实施的第一阶段. 它涵盖了启动数据集市请求与收集有关需求信息之间的所有任务. 最后, 我们创建了数据集市的逻辑和物理设计.
设计步骤涉及以下任务:
收集业务和技术要求并识别数据源.
选择适当的数据子集.
设计数据集市的逻辑和物理结构.
可以根据以下标准对数据进行分区:
日期
业务或功能单位
地理
以上任意组合
可以在应用程序或 DBMS 级别对数据进行分区. 建议在应用程序级别进行分区, 因为它允许每年不同的数据模型随着业务环境的变化而变化.
建设
这是第二阶段的实施. 它涉及创建物理数据库和逻辑结构.
此步骤涉及以下任务:
实现早期阶段设计的物理数据库. 例如, 创了表, 索引, 视图等数据库模式对象.
需要一个关系数据库管理系统来构建数据集市. RDBMS 具有数据集市成功所需的若干功能.
存储管理: RDBMS 存储和管理数据以创建, 添加和删除数据.
快速数据访问: 使用 SQL 查询, 您可以根据特定条件 / 过滤器轻松访问数据.
数据保护: RDBMS 系统还提供了一种从系统故障中恢复的方法, 例如电源故障. 它还允许从磁盘故障中恢复这些备份中的数据.
多用户支持: 数据管理系统提供并发访问, 允许多个用户访问和修改数据, 而不会干扰或覆盖其他用户所做的更改.
安全性: RDMS 系统还提供了一种管理用户对对象和某些类型操作的访问的方法.
填充:
填充步骤涉及以下任务:
源数据到目标数据映射
提取源数据
对数据进行清理和转换操作
将数据加载到数据集市中
创建和存储元数据
可以使用 ETL(提取变换加载) 工具完成这些填充任务. 此工具允许您查看数据源, 执行源到目标映射, 提取数据, 转换, 清理数据并将其加载回数据集市.
在此过程中, 该工具还会创建一些与数据来源相关的元数据, 例如数据的来源, 最近的数据, 对数据进行的更改类型以及完成的摘要级别.
访问
涉及使用数据: 查询数据, 创建报告, 图表和发布数据. 最终用户向数据库提交查询并显示查询结果
访问步骤需要执行以下任务:
设置一个元数据层, 将数据库结构和对象名称转换为业务术语. 这有助于非技术用户轻松访问数据集市.
设置和维护数据库结构.
如果需要, 设置 API 和接口
您可以使用命令行或 GUI 访问数据集市. GUI 是首选, 因为它可以轻松生成图形, 并且与命令行相比, 用户友好.
管理
涵盖管理任务, 例如:
正在进行的用户访问管理.
系统优化和微调以实现增强的性能.
在数据集市中添加和管理新数据.
规划恢复方案并在系统出现故障时确保系统可用性.
您可以使用 GUI 或命令行进行数据集市管理.
实施数据集市的最佳实践
数据集市的来源应该是部门
应在短时间内测量数据集市的实施周期, 即数周而不是数月或数年.
由于数据集市实施可能很复杂, 因此让所有利益相关方参与规划和设计阶段非常重要.
数据集市硬件 / 软件, 网络和实施成本应在您的计划中准确预算
即使数据集市是在同一硬件上创建的, 它们也可能需要一些不同的软件来处理用户查询. 应评估额外的处理能力和磁盘存储要求, 以便快速响应用户
数据集市可能位于与数据仓库不同的位置. 这就是为什么确保它们具有足够的网络容量来处理将数据传输到数据集市所需的数据量非常重要的原因.
实施成本应预算 Datamart 加载过程所需的时间. 加载时间随着变换复杂性的增加而增加.
参考资料
python 测试开发项目实战 - 目录
python 工具书籍下载 - 持续更新
python 3.7 极速入门教程 - 目录
讨论 qq 群 630011153 144081101
来源: http://www.jianshu.com/p/749a51faad31