SEO
手册
游戏
WEB
字典
单词
在线工具
当前位置:
首页
/
IT
/
程序
/
越秀山下,匍匐前行
越秀山下,匍匐前行
2017年7月7日
CentOS上安装Hadoop2.7,添加数据节点,运行wordcount
摘要: 安装hadoop的步骤比较繁琐,但是并不难。 在CentOS上安装Hadoop2.7 1. 安装 CentOS,注:图形界面并无必要 2. 在CentOS里设置静态IP,手工编辑如下4个文件 /etc/hosts /etc/sysconfig/netwok /etc/hostname /etc/sy
阅读全文
posted @ 2017-07-07 00:12 苹果提子 阅读(21) 评论(0)
编辑
2017年5月29日
最近用django做了个在线数据分析小网站
摘要: 用最近做的理赔申请人测试数据集做了个在线分析小网站。 数据结构,算法等设置都保存在json文件里。将来对这个小破站扩充算法,只修改一下json文件就行。 当然,结果分析还是要加代码的。页面代码不贴了,搞清楚django的view+model模型后,写程序还是很简单的。 那些不要脸的爬虫网站,敢不敢注
阅读全文
posted @ 2017-05-29 23:03 苹果提子 阅读(149) 评论(0)
编辑
2017年5月8日
在SCIKIT中做PCA 逆变换 -- 新旧特征转换
摘要: PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 在Scikit中运用PCA很简单: 以上代码是将含有4个特征的数据经过PCA压缩为3个特征。P
阅读全文
posted @ 2017-05-08 00:32 苹果提子 阅读(124) 评论(0)
编辑
2017年5月4日
特征工程之应用业务知识(保险)
摘要: 1. 可通过其他属性推断一些缺失值: 缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性; 费率可以推测被保人的性别,年龄 一般来说,吸烟者都会在系统中有标识,所以没有
阅读全文
posted @ 2017-05-04 00:56 苹果提子 阅读(53) 评论(0)
编辑
2017年4月15日
数据分析一些感受
摘要: 忙碌了几个月,历经了希望、失望、再起希望、打击、学习、推倒重来的过程,现在总算迎来一线曙光了。我知道接下来还会有希望、还会有打击,生活除了眼前的折腾,不要忘了还有诗和远方。 现将几个月来工作的一些感想记下,也算是个小结吧: 1. 确信数据质量。 从源头到每一个字段,确保数据是真实可信的。 2. 业务
阅读全文
posted @ 2017-04-15 13:32 苹果提子 阅读(32) 评论(0)
编辑
2017年1月17日
数据清洗真是蛋疼的工作
摘要: 然而我又乐在其中
来源: http://www.cnblogs.com/okokok/
与本文相关文章
十月工作总结:勿忘初心,继续前行
多元化的未来,OpenStack的铮铮前行
缕清思路,继续前行
不忘初码,聚栈前行
【UOJ274】【清华集训2016】温暖会指引我们前行
一路前行 华为科技发布AMAZFIT智能运动手表2代
一路前行 华米科技发布AMAZFIT智能运动手表2代
回望 2017:一个前端从业者砥砺前行的一年
暂无,快来抢沙发吧!
更多
提交
验证码:
{uname}
{body}
最佳答案
{$v.body}
{fun date('Y-m-d',$v.time)}