kaggle经典赛 | IEEE欺诈检测竞赛金牌方案分享-LMLPHP

https://www.kaggle.com/competitions/ieee-fraud-detection

赛题背景

想象一下,站在杂货店的收银台,身后排着长队,收银员不那么安静地宣布你的卡被拒绝了。在这一刻,你可能没有考虑决定你命运的数据科学。

尴尬,并且确定您有足够的资金来支付 50 个最亲密朋友的史诗般的玉米片派对所需的一切,您再次尝试您的卡。相同的结果。当您退到一边并让收银员照顾下一个客户时,您会收到来自银行的短信。“如果你真的想花500美元买切达奶酪,请按1。

虽然目前可能很麻烦(而且经常令人尴尬),但这种欺诈预防系统实际上每年为消费者节省数百万美元。IEEE计算智能学会(IEEE-CIS)的研究人员希望改善这一数字,同时改善客户体验。通过更准确的欺诈检测,您可以轻松使用筹码。

IEEE-CIS适用于各种人工智能和机器学习领域,包括深度神经网络、模糊系统、进化计算和群体智能。今天,他们正在与世界领先的支付服务公司Vesta公司合作,为欺诈预防行业寻求最佳解决方案,现在邀请您加入挑战赛。

赛题任务

在本次竞赛中,参赛者将在一个具有挑战性的大规模数据集上对机器学习模型进行基准测试。这些数据来自Vesta的真实电子商务交易,包含从设备类型到产品功能的广泛功能。参赛者还有机会创建新功能来改善结果。

数据描述

在本次竞赛中,参赛者预测的是在线交易欺诈的可能性,如二进制目标所示。

数据分为两个文件identitytransaction,由TransactionID连接。并非所有交易都有相应的身份信息。

  • Categorical Features - Transaction
    • ProductCD

    • card1 - card6

    • addr1, addr2

    • P_emaildomain

    • R_emaildomain

    • M1 - M9

  • Categorical Features - Identity
    • DeviceType

    • DeviceInfo

    • id_12 - id_38

  • Files
    • train_{transaction, identity}.csv

    • test_{transaction, identity}.csv

    • sample_submission.csv

评估标准

该竞赛的评估指标是ROCAUC (Area Under the ReceiverOperating Characteristic Curve) ,参赛者需要尽可能地提高自己模型的ROCAUC得分。竞赛的排名是根据提交的测试集预测结果的ROCAUC得分来确定的,得分越高排名越靠前。

优胜方案

第一名

https://www.kaggle.com/c/ieee-fraud-detection/discussion/111284

对抗性验证具有AUC=1的原因不是因为欺诈的性质随着时间的推移而发生根本性的变化,而是因为数据集中的客户端随着时间的推移而发生根本性的变化。

一旦你意识到这一点,你就会知道这场竞赛的挑战是建立一个可以预测看不见的客户(不是看不见的时间)的模型。下图显示了私有数据集(有 400,000 行)中的数据。68.2% 的数据是我们在训练数据集中看不到的客户端。16.4% 的数据同时位于训练数据集和测试数据集中。15.4%我们不确定。下面的每条蓝线都是一个客户端。每个客户进行许多交易,蓝线的左端是他们时间的第一笔交易,右端是最后一笔交易。

我们标签的逻辑是将卡上报告的拒付定义为欺诈交易 (isFraud=1),并将用户帐户、电子邮件地址或账单地址直接链接到这些属性的交易定义为欺诈。如果上述情况均未报告且发现超过 120 天,则我们定义为合法交易 (isFraud=0)。

第二名:https://www.kaggle.com/competitions/ieee-fraud-detection/discussion/111321

第五名:https://www.kaggle.com/competitions/ieee-fraud-detection/discussion/111735

第六名:https://www.kaggle.com/competitions/ieee-fraud-detection/discussion/111247

关注下方【学姐带你玩AI】🚀🚀🚀

回复“比赛”领取190+场比赛top方案合集

码字不易,欢迎大家点赞评论收藏!

05-18 22:32