Counterfactual Learning and Evaluation for Recommender Systems: Foundations, Implementations, and Recent Advances

ABSTRACT

反事实评估器允许我们使用现存的日志数据来评估当我们使用新的目标推荐策略来替换之前的策略时候会如何表现。我们称这些评估器以“异策略(off-policy)”的方式在工作。反事实衡量器引出了类似于无偏离线A/B测试的“异策略衡量(Off-policy Evaluation, OPE)”方式以及通过“异策略学习(Off-policy Learning, OPL)”习得的新的推荐策略。

本教程的目标是总结OPE/OPL的基础、具体实现以及最近的进展,更准确地来讲,我们将会介绍OPE/OPL的基础并且提供对于传统方法在理论上以及实验上的比较。然后我们将会介绍目前出现的一些现实的挑战,例如如何考虑组合动作、分布位移(distribution shift)、曝光公平性以及双边市场结构。

1 INTRODUCTION: MOTIVATION AND TAGETED AUDIENCE

动机和目标受众。

交互式决策系统例如广告/推荐/搜索平台对评估以及重新设计系统提供了日志数据。例如新闻推荐系统的日志数据记录了那些被展示给用户的新闻标题以及用户是否阅读了它。这些数据给了平台的设计者机会去重新设计推荐机制来使得推荐结果更加相关。
然而挖掘利用log bandit data比传统的监督机器学习更加困难,因为我们只能观察到系统已经采取了的行动产生的日志,但是无法观察到用户可以采取的其他动作的结果。由于重复展示系统偏好的动作,所以这些日志数据也是存在偏差的。这个问题的一个潜在的解决方案是进行A/B测试,在线上环境下比较竞争系统的表现情况。

然而,A/B测试一般情况下是比较困难的,因为将新的策略部署到线上需要耗费时间和金钱,并且还要承担一定的失败风险。这些缺点推动了OPE/OPL的发展,这项技术旨在评估新策略的表现,或者只使用曾经的策略产生的日志数据来训练新的策略。

由于OPE/OPL的实际意义,目前已经出现很多对其理论和方法论上的探索。然而,将这些方法运用到真实世界中还是存在一些困难的,例如组合/连续行为、distribution shift、曝光需求的公平性。本教程旨在弥补OPE/OPL的理论和实际应用之间的沟壑。更准确地说,我们将会介绍OPE/OPL的基础理论,从理论和实验的视角对比传统方法之间的异同。之后我们将会介绍该领域最新的进展以及出现的一些实际挑战。

我们提出了一个开源的代码包Open Bandit Pipeline[15],介绍了它如何帮助我们实现OPE/OPL,无论是为了研究探索还是实际利用。我们将会展示真实世界的案例以及提出未来的方向。

自从Thorsten Joachims以及Adith Swaminathan在SIGIR2016[6]上发表了《推荐、搜索以及广告置换的反事实评价以及学习》(Counterfactual Evaluation and Learning for Search,Recommendation and Ad Placement)以来,已经过去了5年。这是一个很好的时间来收集并且统一最近的重要工作,并将它们整理到同一篇教程中,这对推荐系统研究也是及其重要的。

学习本教程可以得到:

(1)了解OPE/OPL的传统方法和概念
(2)熟悉最近一些实际挑战的进展,如曝光公平性等问题的
(3)理解如何在研究和应用中实现OPE/OPL
(4)了解最近的挑战以及研究领域中的一些研究机会

2 OUTLINE OF THE TUTORIAL

(1) Introduction: 这里将要介绍一些传统的OPE/OPL公式和方法

[3]2014.Doubly Robust Policy Evaluation and Optimization
[4]2018.More Robust Doubly Robust Off-policy Evaluation
[5]2016.Doubly Robust Off-policy Value Evaluation for Reinforcement Learning
[14]2020.Doubly robust estimator for ranking metrics with post-click conversions.
[19]2020.Doubly Robust Off-Policy Evaluation with Shrinkage
[20]2019.Cab:Continuous Adaptive Blending for Policy Evaluation and Learning
[21]2015.Batch Learning from Logged Bandit Feedback through Counterfactual Risk Minimization.
[24]2017.Optimal and adaptive off-policy evaluation in contextual bandits.

此外,我们将会从理论和实验的角度提供全面的多方面的对比。

(2) 最近的一些顶级的优秀方法: 这部分将会涵盖解决OPE/OPL方法的一些实际问题的最新工作,例如
组合行为:
[13]2020.Off-policy Bandits with Deficient Support

多记录器
[1]2017.Effective Evaluation using Logged Bandit Feedback from Multiple Loggers.
[7] 2021.Optimal Off-Policy Evaluation from Multiple Logging Policies.

分布偏移
[9]2020. Off-Policy Evaluation and Learning for External Validity under a Covariate Shift.,
[11] 2019. Triply Robust Off-Policy Evaluation,
[16] 2020. Distributionally Robust Policy Evaluation and Learning in Offline Contextual Bandits.

这些挑战极其接近真实生活中推荐系统以及电商系统的应用。

(3) 实现以及案例研究: 本部分将会介绍如何使用Open Bandit Pipline工具包来在研究和应用中实现OPE/OPL[15] 2020. Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation。我们也会展示一些真实世界中的案例研究,来描述如何实现OPE/OPL。

(4) 总结:

11-16 11:40