混合离散-连续几何深度学习
通过DISCO卷积的可扩展和等变球形CNN

一、说明

   现有的球面卷积神经网络 (CNN) 框架既可计算可扩展又可旋转等变。连续方法捕获旋转等方差,但通常对计算要求过高。离散方法提供更有利的计算性能,但代价是等方差。我们开发了一种混合离散-连续 (DISCO) 群卷积,该卷积同时是等变的,并且在计算上可扩展到高分辨率。这种方法在许多基准密集预测任务上实现了最先进的 (SOTA) 性能。(更多细节可以在我们的ICLR论文中找到 DISCO卷积的可扩展和等变球形CNN。
混合离散-连续几何深度学习-LMLPHP

照片由 达斯汀·特拉梅尔 on Unsplash
G群的计量深度学习有许多应用,例如分析对地球的观测以及全景 360° 照片和视频,仅举几例。然而,当前的方法存在二分法:它们要么表现出良好的等方差特性,要么表现出良好的计算可扩展性;但不是同时两者。

二、 二分法:离散方法与连续方法

几何深度学习技术的主要目标是对各种组变换进行等方差编码(这通常转化为非常好的性能),同时具有高度的计算可扩展性。

正如我们之前的TDS文章所讨论的,针对具有全局对称性的同质空间的群设置,群上的几何深度学习可以大致分为离散方法和连续方法。连续方法提供等方差,但计算成本很高。另一方面,离散方法通常具有相对的计算效率,但会牺牲等方差。

三、打破二分法:离散-连续 (DISCO) 方法

在Copernic AI,我们最近开发了打破这种二分法的技术(最近发表在ICLR [1]上)。也就是说,我们已经在群上开发了几何深度学习技术,这些技术具有出色的等方差特性,同时具有很高的计算效率,因此它们可以有效地扩展到巨大的高分辨率数据集。

打破离散与连续二分法的关键是采用混合方法,其中表示的某些部分是离散化的,以促进高效计算,而其他部分则保持连续以促进等方差。由于其混合性质(如下图所示),我们将这种方法命名为 DISCO,即 DIScrete-COntinous。

虽然DISCO方法是通用的,但我们关注的是球体作为具有全局对称性的同质空间的群体设置的典型例子。
混合离散-连续几何深度学习-LMLPHP

通过旋转等变和计算可扩展的混合离散-连续 (DISCO) 方法打破连续与离散二分法。[原创图由作者创作。

四、离散-连续 (DISCO) 群卷积

DISCO方法基于卷积层,其中DISCO组卷积之后是标准组卷积的仔细混合表示。表示的某些分量保持连续,以便于精确的旋转等方差,而其他分量则被离散化,以产生可扩展的计算。

在组上定义的信号(即数据、特征图)f 的 DISCO 群卷积,使用滤波器 Ψ,由下式给出
混合离散-连续几何深度学习-LMLPHP

其中 g 是群 G 的元素,dμ(u) 是积分的 (Haar) 度量,q(ui) 是正交权重。方括号和索引下标表示离散化量,i 表示样本索引,圆括号表示连续量。

在球体上,我们考虑由 3D 旋转给出的变换,因此球体上信号的 DISCO 卷积读取

混合离散-连续几何深度学习-LMLPHP

其中 R 表示旋转,ω 表示球面坐标。

聚焦于球面情况,显然必须在样本位置ωi处对目标信号进行离散化。然而,至关重要的是,在 DISCO 方法中,滤波器 Ψ 和群作用 R 保持连续。这允许滤波器被任何 R 连续变换,保持相干表示,避免任何离散化误差,从而提供旋转等方差,这与完全离散的方法不同。

相对于 ω 的积分也必须离散化。对于紧凑齐次流形(如球体)上的带限信号,采样定理的存在确保了积分可以使用正交权重 q(ωi) 非常精确地近似。

群卷积的 DISCO 近似对于带限信号非常准确,而实际信号在足够的带限下可以很好地近似。通过诉诸采样定理,信号的所有信息内容都可以在有限的样本集 {f[ωi]} 中捕获。滤波器是连续表示的,因此不会引入任何错误。因此,近似误差的唯一来源是用于计算积分的正交。对于足够密集的采样,可以求助于采样定理和相应的正交来精确评估这一点。因此,原则上可以精确地计算 DISCO 群卷积,而不会出现任何近似误差。由于近似值非常精确,对于足够密集的采样可以精确,并且群作用是连续处理的,因此DISCO群卷积表现出优异的等方差性质,并得到了数值验证[1]。

五、可扩展计算

DISCO卷积通过稀疏张量表示[1]提供了计算可扩展的实现。具体来说,我们利用稀疏密集张量乘法运算符在硬件加速器(例如 GPU、TPU)上有效地计算 DISCO 球面卷积。

通过进一步限制旋转空间(商空间 SO(3)/SO(2))并利用采样方案的对称性,我们实现了计算成本和内存要求的线性缩放。

下图显示了 DISCO 球面卷积的浮点运算 (FLOP) 数量和内存要求与分辨率/带限的函数,与表现出旋转等方差的最有效的替代球面卷积相比。
混合离散-连续几何深度学习-LMLPHP

DISCO球面卷积的计算成本和内存要求与表现出旋转等方差的最有效的替代球面卷积相比,作为分辨率/带限的函数。[原创图由作者创作。
对于 4k 球面图像,我们节省了 10⁹ 的计算成本和 10⁴ 的内存使用量。

六、DISCO 球形 CNN 架构

转置 DISCO 卷积也可以以类似于上述前向卷积的方式构建,然后可用于提高密集预测任务的内部特征表示的分辨率。

然后,通过将 DISCO 正向和转置球面卷积与逐点非线性激活和其他常见架构特征(如跳跃连接、批量归一化、多通道等)相结合,可以构建常见 CNN 架构的高效球形实现。

下面我们考虑了一些密集预测任务,例如语义分割和深度估计,为此我们采用了具有 DISCO 卷积的残余 UNet 架构的共同主干。我们由此产生的 DISCO 模型在迄今为止考虑的所有基准问题上都实现了最先进的 (SOTA) 性能。

七、语义分割

我们考虑了360°照片语义分割的密集预测问题。

对于室内 360° 照片的 2D3DS 数据集,我们在下面展示了球面 RGB 图像、地面实况分割和 DISCO 模型仅从 RGB 图像预测的分割示例。
混合离散-连续几何深度学习-LMLPHP

室内 360° 照片的 2D3DS 数据分割示例。[原创图由作者创作。
虽然预测的细分并不完美,但它们通常非常准确。事实上,与所有其他替代方案相比,我们的 DISCO 方法实现了 SOTA 性能(有关详细信息,请参见 [1])。

对于我们家门 360° 照片的 Omni-SYNTHIA 数据集,我们还展示了以下球形 RGB 图像、地面实况分割和预测分割的示例。

混合离散-连续几何深度学习-LMLPHP

户外 360° 照片的 Omni-SYNTHIA 数据分割示例。[原创图由作者创作。
同样,预测的分割通常非常准确,与所有其他替代方案相比,我们实现了SOTA性能(有关详细信息,请参阅[1])。

八、深度估计

另一个常见的密集预测任务是深度估计。我们考虑了从 360° 照片进行单目深度估计的任务,解决了 Matterport3D 数据集的 Pano3D 基准。

下面我们展示了球形RGB图像、地面实况深度和DISCO模型仅从RGB图像预测的深度示例。

混合离散-连续几何深度学习-LMLPHP

室内 360° 照片的 Matterport3D 数据的深度估计示例。[原创图由作者创作。
预测的深度通常非常准确。事实上,与所有其他替代方案相比,我们再次实现了SOTA性能(有关详细信息,请参见[1])。

九、未来展望

现在,通过混合离散-连续 (DISCO) 表示,群上的等变和计算可扩展几何深度学习问题已经得到解决。正如我们在上面考虑的基准测试任务中所看到的,我们实现了SOTA性能,出色的等方差特性转化为出色的性能。

现在,我们拥有了将现代深度学习架构扩展到具有全局对称性的同质空间(例如球体)的组设置所需的底层构建块。现在,有大量这样的应用可以释放现代深度学习的潜力。

引用
[1] Ocampo、Price、McEwen,通过离散连续 (DISCO) 卷积进行可扩展和等变球形 CNN,ICLR (2023),arXiv:2209.13603

03-21 05:59