Skip to content

DataCastle ICC 游戏玩家金额付费预测大赛

Notifications You must be signed in to change notification settings

ZyzyPeter/DC-Game-pre

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

DataCastle ICC 游戏金额付费预测大赛 记录

很高兴能够在DataCastle的数据挖掘比赛中获得亚军。

尽管最终的代码很短很短,但这只是我们在最后整理出来的最直观并且能够直接运行的版本。还有很多用不同方法尝试的内容因为效果并不佳所以我们把它从中去除掉了。

思路的基础是延续DC官方选手思路分享所做的数据分析。

思路示意图

但我们增加的是基于付费现象本身将预测目标“玩家45天所付金额”拆解成“玩家付费能力+玩家付费倾向”,付费能力可以从前7天中的付费金额中看出,我想做的是找到付费倾向的大小以及其与付费能力组合的关系。提出这个想法主要是因为数据本身的特殊性——因为我们如果直接将已付金额作线性回归能够得到相对而言一个比较不错的结果(A榜得分70左右),即使减去已付金额再做目标预测,依然表现的不差,这说明已付金额对于将付金额的影响相当之大。

更让我倾向于往这上面思考的原因还有一个,这要感谢另一名大佬的分享特征工程方法寻找中,这位大佬作的一些特征工程上的可视化让我们意识到不少特征之间有特殊的线性关系,而后我们又借鉴这位大佬作了一些例如玩家部队增长量与已付金额之间的关系可视化,确实也能发现已付金额与其它特征之间也有很大的线性关系,并且也有很合理的现实解释——玩家冲的钱越多,其游戏中的各项数值一般而言就会表现的越高。这也意味着我们如果不做一些针对性的特征变换,我们对目标的所有预测都会受到已付金额的巨大影响,即使使用一个特征不包含已付金额的模型,因为其它的特征也是与已付金额关系很大的,所以我们依然无法避免这种影响。

因此我们认为想提升效果需要考虑降低已付金额的影响,这就是我们对特征作变换和对预测目标作出变换的理由。体现在算法上我们的做法是将一些相关特征例如增加量和消耗量的比值,同类特征例如资源的总值均值中值等计算出来并作为新的特征扩展进数据。然后将扩展特征后的数据用于预测付费倾向并将其与已付金额作运算来得到最终结果。

尽管我们最终获得了亚军的名次,我认为我的水平还是与排名前十甚至许多没有的排名的大佬相差甚远。这次之所以能拿到好名次除了相当大的运气外,主要还是得益于数据本身的一些特殊性以及大佬们的无私分享。

About

DataCastle ICC 游戏玩家金额付费预测大赛

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages