手把手教你如何在 SPSS 中执行数据分析并生成预测模型
R K Sharath Kumar
作为一个数据挖掘应用程序, IBM SPSS Modeler 提供了一种在大数据集中查找有用关系的策略方法. 与更传统的统计方法相比, 您不需要在一开始就知道要查找哪些关系. 您可以探索您的数据, 适合不同的模型并研究不同的关系, 直到找到有用的信息. 本教程已在 Windows 7 上使用 IBM SPSS Modeler v18.1 进行了测试.
学习目标
学完本教程后, 您将掌握如何:
使用 IBM SPSS Modeler v18.1 创建统计模型并审查所创建的统计模型.
前提条件
IBM SPSS Modeler
数据. 本教程使用的数据来自 Watson Analytics 社区的
WA_Retail-SalesMarketing_-ProfitCost.CSV
的数据.
预估时间
完成本教程大约需要 30 分钟.
步骤
启动 IBM SPSS Modeler
利用 IBM SPSS Modeler 处理数据需要三个步骤.
首先, 将数据读入 IBM SPSS Modeler.
其次, 通过一系列操作来运行数据.
最后, 将数据发送至目标.
这个操作序列被称为数据流, 因为每个操作中, 数据都是按照记录逐条地从数据源移动, 最终, 生成一种模型或数据输出.
循序渐进地进行这个过程. 通过右键单击每个节点并按住 Connect 移动到下一个节点, 选择节点, 操作节点并连接到后续节点.
1. 读取数据
导入数据
这是 SPSS 流中的第一步. 选择 Sources 面板下的 Var.File 节点, 并拖放到 SPSS Modeler 界面上. Var.File 选项用于读取 CSV 文件, 文本文件等.
点击查看大图
读取数据
下一步是读取 SPSS 中的数据. 选择文件右侧的单选按钮, 导航到保存数据文件的文件夹. 单击 open, 然后单击 OK.
点击查看大图
审核数据
第三步是从 Output 面板中选择 Data Audit 节点.
点击查看大图
Data Audit 节点有助于确认存在多少条有效记录, 以及基本的统计数据. 下面的屏幕截图显示记录总数为 84672,Revenue 及下面的属性仅有 24743 条有效记录, 剩余属性为 null.
点击查看大图
替换 null 值
下一个操作是将 null 替换为各个属性的均值. 从 Field Ops 面板中选择 Filler 节点, 然后从 Output 面板中选择 Set Globals 节点, 以查找多个属性的均值.
点击查看大图
将 Nulls 替换为 Mean (均)值.
点击查看大图
派生新变量
数值列应该包含实数. 这里创建了一个名为 Quantity_New 的新属性用于将数据类型从整数转换为实数.
点击查看大图
将新创建的变量的 Nulls 替换为 Mean 值.
点击查看大图
再次审核数据
再次运行 Data Audit, 检查 Nulls 是否已替换为 Mean 值. 请注意, 除 Quantity 外的所有属性都有 84672 条记录. 使用 Quantity_New 属性替换 Quantity, 以便实现数据分析和建模.
点击查看大图
2. 提炼数据
选择输入参数
继续执行下一个操作. 选择输入参数和目标变量. 从 Field Ops 面板中选择 Type 节点.
点击查看大图
Type 节点允许选择输入变量和目标变量. 应该忽略分类变量, 按以下方式进行选择.
点击查看大图
对数据进行分区
我们需要在训练与测试数据之间使用推荐的 70:30 拆分比例来分割数据. 从 Field Ops 面板中选择 Partition 节点.
点击查看大图
基于 Training data 上构建模型, 并在 Testing Data 上进行测试. 在数据中创建分区.
点击查看大图
选择用于构建模型的训练数据
使用 Record Ops 中的 Select 节点来选择用于构建模型的训练数据.
点击查看大图
选择 Training Data 节点, 并单击 Annotations 将其重命名为 Training_Data. 默认名称为 Select.
点击查看大图
从 Modelling 面板, 将 Auto Numeric 节点拖放到界面上. 当我们预测一个连续变量 (数值数据) 时, 我们选择 Auto Numeric 节点. 如果您想预测一个分类变量, 请选择 Auto Classifier 节点.
点击查看大图
节点的名称默认为我们尝试预测的变量. 在本例中, 该名称是 Revenue. 在此节点中, 我们将使用 Fields 下为实现建模而预定义的角色. 因为我们上一步已在 Type 节点下选择了输入和目标变量.
点击查看大图
我们选择以下参数建模.
点击查看大图
我们可以在 Auto Numeric 节点中的 Expert 选项卡下选择不同的算法, 然后右键单击该节点并单击 Run.
点击查看大图
3. 审查并测试模型
审查统计模型
我们使用 SPSS 创建了 3 个用于预测的模型, 因为我们已在 Auto Numeric 节点中将要使用的模型数量指定为 3.
点击查看大图
选择第一个模型, 单击 Graph 选项卡来查看散点图和预测指标重要性.
点击查看大图
单击 Summary 选项卡来识别输入 / 目标变量和其他详细信息.
点击查看大图
测试模型
使用 Record Ops 中的 Select 节点来选择用于模型测试和评估的测试数据.
点击查看大图
选择 Testing Data 并单击 Annotations, 将该节点重命名为 Testing_Data. 默认名称为 Select.
点击查看大图
右键单击 Testing_Data 节点并连接到该模型块, 然后单击 Run. 从 Output 面板中选择 Analysis 节点, 将它连接到模型块并单击 Run.
点击查看大图
分析结果
分析结果. 在本例中, 模型的准确率为 100%, 没有误差, 这与大多数时候的情况不符. 模型准确度和误差还取决于正在使用的数据.
点击查看大图
导出结果
从 Output 面板中选择 Table 节点来导出结果.
点击查看大图
在 Table 节点中, 选择 output to file 选项将结果导出到 CSV 文件. 选择 File name 旁边的单选按钮, 并提供 CSV 文件的导出路径. 输出文件有两个附加属性:$XR-Revenue 是我们预测的输出, 它是每个模型各自的预测值的平均值,$XRE-Revenue 是全体模型所做预测的标准误差.
点击查看大图
4. 完成 SPSS 建模流
下面显示了该流的完整流程.
点击查看大图
本文仅尝试介绍了创建统计模型的基本步骤. 可以进一步增强这些步骤, 以满足不同的需求.
结束语
感谢您阅读本教程, 希望您在下一个数据分析项目中更精通并更倾向于使用 IBM SPSS Modeler 18.1.
参考资源
从 SPSS 调用 R
使用 IBM SPSS 产品结合残差法实现发电机运行状态评估
SPSS 产品套件风电行业齿轮箱轴承故障预测解决方案
本文翻译自: Use SPSS to generate insights from data analysis(2018-08-11)
评论
来源: http://www.ibm.com/developerworks/cn/analytics/library/spss-data-modelling-prediction/index.html