1 使用 sklearn 进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术 2 并行处理 2.1 整体并行处理 2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久化 6 回顾 7 总结 8 参考资料 1 使用 sklearn 进行数据挖掘 1.1 数据挖掘的步骤数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用 sklearn 工具可以方便地进行特征工程和模型训练工作,在《使用 sklearn 做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三个方法 fit、transform 和 fit_transform,fit 方法居然和模型训练方法 fit 同名(不光同名,参数列表都一样),这难道都是巧合?显然,这不是巧合,这正是 sklearn 的设计风格。我们能够更加优雅地使
发布时间:2017-12-15 |
类别: 未分组
本文介绍 RSA 加解密中必须考虑到的密钥长度、明文长度和密文长度问题,对第一次接触 RSA 的开发人员来说,RSA 算是比较复杂的算法,天缘以后还会补充几篇 RSA 基础知识专题文章,用最简单最通俗的语言描述 RSA,让各位了解 RSA 算法本身其实也很简单,RSA 的复杂度是因为数学家把效率和安全也考虑进去的缘故。本文先只谈密钥长度、明文长度和密文长度的概念知识,RSA 的理论及示例等以后再谈。提到密钥,我们不得不提到 RSA 的三个重要大数:公钥指数 e、私钥指数 d 和模值 n。这三个大数是我们使用 RSA 时需要直接接触的,理解了本文的基础概念,即使未接触过 RSA 的开发人员也能应对自如的使用 RSA 相关函数库,无需深入了解 e、d、n 是如何生成的,只需要知道我该如何用、要注意什么。一、密钥长度 1、密钥是指谁?首先我们说的 "密钥" 是指谁?由于 RS
发布时间:2017-12-14 |
类别: 未分组
客户流失 "流失率" 是描述客户离开或停止支付产品或服务费率的业务术语。这在许多企业中是一个关键的数字,因为通常情况下,获取新客户的成本比保留现有成本(在某些情况下,贵 5 到 20 倍)。因此,了解保持客户参与度是非常宝贵的,因为它是开发保留策略和推出旨在阻止客户走出门的运营实践的合理基础。因此,公司越来越感兴趣开发更好的流失检测技术,导致许多人寻求数据挖掘和机器学习以获得新的和创造性的方法。这是一篇关于使用 Python 对客户流失进行建模的文章。 下面开始介绍一下具体的实现步骤: 数据集我将使用的数据集是一个长期的电信客户数据集,您可以在这里下载。数据很简单。 每行代表一个预订的电话用户。 每列包含客户属性,例如电话号码,在一天中不同时间使用的通话分钟,服务产生的费用,生命周期帐户持续时间以及客户是否仍然是客户。
发布时间:2017-12-12 |
类别: 未分组