1 导引

在机器学习,尤其是涉及异构数据的迁移学习/联邦学习中,我们常常会涉及互信息相关的优化项,我上半年的第一份工作也是致力于此(ArXiv链接:FedDCSR)。其思想虽然简单,但其具体的估计与优化手段而言却大有门道,我们今天来好好总结一下,也算是对我研一下学期一个收尾。

我们知道,随机变量\(X\)\(Y\)的互信息定义为其联合分布(joint)\(p(x, y)\)和其边缘分布(marginal)的乘积\(p(x)p(y)\)之间的KL散度(相对熵):

\[\begin{aligned}I(X ; Y) &= D_{\text{KL}}\left(p(x, y) \parallel p(x)p(y)\right) \\&=\mathbb{E}_{p(x, y)}\left[\log \frac{p(x, y)}{p(x)p(y)}\right] \end{aligned}\tag{1}\]
09-21 07:33