昨天的随手记, 补发一下.
今天是星期天, 腾讯广告算法大赛的比赛的人数还是挺多的, 竞争也比较激烈, 昨天通过那个规则计算出来的一个分值, 79.2933 分, 当时看了按照这个分值可以排在 25 名左右的, 今天下午三点又到了更新榜单的时间, 大葱哥看了看重新更新的榜单, 发现自己的分数 79.2933 分的排名是在 48 位.
可以看出从昨天到今天的排行榜中大家的平均分值都提高了不少, 79.2933 马上就排到 50 名之外了, 看了看有 50 个人的分数都在 70 分以上, 最高的那个 86.423 分, 自己差距还是很大的, 还得继续努力.
今天看看如果有时间的话, 继续尝试下. 大概思路还是在规则看看还有没有潜力, 增加下规则, 然后基于广告曝光的历史数据, 再做一些深入研究, 看看能不能在规则上再挖掘一定的潜力. 然后提高一下这个分数.
昨天的文章发完之后呢, 有很多的网友在 QQ 里, 简书上, 给我留言, 然后想要一下我的一个 submission.CSV! 其实这个规则的没有太大的一个技术含量啊! 就是根据测试集数据和单调性标准, 写出一个曝光值. 最简单的把出价的那一列数据直接修改为曝光, 提交也能得到一个还可以的分数. 还有网友建议对那个出价除以 1 个分母作为曝光, 分布大概是 10 吧, 我记得有网友说也能到 50-60 吧.
这种都是利用了评分标准的第二条, 价格的单项相关性, 也就是同一个广告价格高的曝光量要大, 这个规则要利用好. 大葱哥 79 分的 submiss.CSV 也是按照这个思路来做的, 只不过做了一些取值范围的控制.
晚上, 大葱哥对照测试集加了一些规则, 比如投放时间范围大的应该曝光量高一些, 投放人群限制多的曝光量应该少一些, 投放人群是 all 的曝光量应该高等等, 按照这些规则拍脑袋定一个系数, 调整曝光量, 提交测试, 发现不理想, 调整了三次分数分别如下, 都没有昨天的理想.
image.PNG
放弃规则, 准备从数据入手, 开始学习 pandas, 文件比较大读起来电脑吃不消, 于是乎打算对曝光数据文件进行拆分, 经过统计发现曝光数据一共有 102386695 条, 1 亿条记录, 我的乖乖, 果然是大数据 (对个人电脑来说), 同时学习了怎么将时间戳转换成年月日时分秒, 但这里有一个问题, 官方没有说明这个时间戳是按照哪个时区计算的, 默认按北京市区吧.
exposureLogdf['请求时间'].apply(lambda x:time.strftime("%Y%m%d%H%M%S",time.localtime(x)))
文件拆分后大概有 100 个, 单个文件 67M, 这个数据大葱哥的本本还能吃得消.
image.PNG
暂时写到这里.
来源: http://www.jianshu.com/p/54c4ec4fd643