我正在一个机器学习项目中尝试预测哪些客户将购买特定产品(购买产品是我的目标变量)。我有很多关于客户的功能和足够的历史数据。
我的问题是我的目标变量是高度季节性的-大多数产品在12月出售,其他月份的销售很少。
为了弥补这种不平衡,我该怎么办?目标变量是否需要调整?我需要模型在所有月份中都具有一致的性能。谢谢

最佳答案

最简单的选择是以某种方式将月份作为功能包括在内。一些这样做的选择:


一个热编码月份。优点:非常简单,导致功能集稀疏
创建一个朴素贝叶斯类型特征,对给定月份的先验销售概率进行编码。例如如果60%的销售额是在12月,而其他两个月的销售额分别是3.6%,则此功能在12月的每笔销售额的价值为0.6,在其他月份的销售额为0.036


对于这两种方法,您都希望确保自己拥有完整的12个月的训练数据,并且还拥有完整的12个月的评估集。

关于machine-learning - 机器学习项目-我的目标变量没有及时分布,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59667381/

10-12 18:16