ANN/CNN/RNN
ANN、CNN和RNN区别
卷积
2D卷积(2D Convolution)、3D卷积(3D Convolution)和1×1卷积(1×1 Convolution)
反卷积(转置卷积)(Transposed Convolution)和扩张卷积(Dilated Convolution / Atrous Convolution)讲解
扩张/空洞/膨胀卷积dilated convolution
全连接层和卷积层
池化选择
BN,LN,IN,GN总结
总结
Batch Normalization 处理对象是一批样本。(通常在cv中使用)
Layer Normalization 的处理对象是单个样本。(通常在NLP中使用)
BN和LN区别
Batch Normalization 是对这批样本的同一维度特征做归一化,
Layer Normalization 是对这单个样本的所有维度特征做归一化。
Instance Normalization 一种不受限于批量大小的算法专门用于Texture Network中的生成器网络。
Instance Normalization
GN介于LN和IN之间,其首先将channel分为许多组(group),对每一组做归一化,及先将feature的维度由[N, C, H, W]reshape为[N, G,C//G , H, W],归一化的维度为[C//G , H, W]
激活函数
损失函数Loss Function
损失函数:是定义在单个样本上的,是指一个样本的误差
感知损失
L1、L2和smooth L1
常见的几种损失函数
KL散度函数(相对熵)
代价函数Cost Function(是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的平均)
目标函数Object Function(是指最终需要优化的函数,一般来说是经验风险+结构风险,也就是(代价函数+正则化项))
优化器(反向传播)
RMSprop、Adam、AdaMax、Nadam、AMSGrad讲解
注意力机制
注意力总结1
注意力总结2
空间注意力和通道注意力机制
位置注意力机制
Coordinate Attention
non-local
non-local
多头自注意机制
多头注意力机制
评判指标
Transformer网络
元学习meta-learning
元学习希望使得模型获取一种学会学习调参的能力,使其可以在获取已有知识的基础上快速学习新的任务。
入门
meta-learning
Siamese network孪生网络
Siamese network
Siamese 网络采用两个不同的输入,通过两个具有相同架构、参数和权重的相似子网络。这两个子网互为镜像,就像连体双胞胎一样。 因此,对任何子网架构、参数或权重的任何更改也适用于其他子网。两个子网络输出一个编码来计算两个输入之间的差异。Siamese 网络的目标是使用相似度分数对两个输入是相同还是不同进行分类。
孪生网络
对抗训练
对抗训练一般在NLP上会有很好的效果;在CV中效果不行,因为它会破坏训练-测试中的同分布设定,使得训练集和测试集事实上分布不一致了。
拓展:对抗攻击