博客
关于我
CVPR 2021 | 港科大&旷视提出ACON:激活还是不激活?学习自定义激活函数
阅读量:533 次
发布时间:2019-03-09

本文共 1996 字,大约阅读时间需要 6 分钟。

ACON激活函数:从ReLU到Swish的扩展与Meta-ACON设计

在该工作中,我们提出了一种名为ACON(Activate or Not)的激活函数。ACON激活函数通过引入两个可学习参数p1和p2,能够在不同的输入阶段选择是否激活神经元。此外,我们还发现NAS搜索得到的Swish函数是ReLU激活函数的一种平滑形式,并通过扩展推广到其他变体如Leaky-ReLU、PReLU等。

Smooth Maximum的提出

ReLU激活函数从本质上是一个MAX函数,其平滑可微分变体被称为Smooth Maximum。其公式表示为:

smooth_maximum(x, x1_func, x2_func, beta=0.0) = (x1(x) * e^{beta * x1(x)} + x2(x) * e^{beta * x2(x)}) / (e^{beta * x1(x)} + e^{beta * x2(x)})其中,beta是一个平滑因子。当beta趋近于无穷大时,Smooth Maximum恢复为标准MAX函数;当beta为0时,Smooth Maximum变为算术平均操作。

从ReLU到Swish的推广

考虑平滑形式下的ReLU激活函数,其公式为:

swish(x, beta=1.0) = beta * x / (1 + e^{-x})通过代入公式,我们发现其与Smooth Maximum的结合即为Swish激活函数ACON-A。

ACON-B的设计

ACON-B扩展到了ReLU的其他变体,如Leaky-ReLU和PReLU。通过引入两个参数x1_func和x2_func,我们设计了ACON-B的平滑形式,并验证了其与Leaky-ReLU的性能一致性。

ACON-C的提出

ACON-C是最广泛的ACON形式,允许通过p1和p2两个可学习参数对一阶导数进行上下界控制。其函数形式为:

acon_c(x) = activation(x) = p1 * sigmoid(p1 * x - p2 * x) + p2 * x通过计算其一阶导数和二阶导数,我们可以清晰地看到其梯度控制的灵活性。该函数的梯度上下界由p1和p2共同决定,并且在无穷远处可以逐渐趋近于p1和p2。

Meta-ACON的设计与实现

为了让网络能够自适应地选择是否激活神经元,Meta-ACON通过引入两个卷积层和sigmoid函数设计空间。其具体实现为:

class MetaAconC(nn.Module): def __init__(self, width): super().__init__() self.fc1 = nn.Conv2d(width, width//16, kernel_size=1, stride=1, bias=False) self.fc2 = nn.Conv2d(width//16, width, kernel_size=1, stride=1, bias=False) self.p1 = nn.Parameter(torch.randn(1, width, 1, 1)) self.p2 = nn.Parameter(torch.randn(1, width, 1, 1)) self.sigmoid = nn.Sigmoid()
def forward(self, x):    beta = self.sigmoid(self.fc2(self.fc1(x.mean(dim=2, keepdims=True).mean(dim=3, keepdims=True))))    return (self.p1 * x - self.p2 * x) * self.sigmoid(beta * (self.p1 * x - self.p2 * x)) + self.p2 * x

该实现通过两层卷积和sigmoid函数计算出beta值,用于控制神经元的激活状态。其中,fc1和fc2用于降维和升维处理,而p1和p2通过卷积层学习到最佳的激活参数。

实验结果与应用

通过实验,我们发现替换ReLU为Meta-ACON可以在ResNet-152中提升1-2个点的网络精度。对于小网络,我们建议替换所有ReLU激活层;对于大网络(如ResNet50/101),建议仅替换每个Block中的3x3卷积后面的ReLU激活层,以避免过拟合。设计空间的消融实验显示,channel-wise空间表现最佳。

小结与展望

该工作从ReLU和NAS搜索中的Swish激活函数出发,提出了ACON系列激活函数,并进一步设计了Meta-ACON激活函数。通过实验验证其在不同网络规模和结构上的有效性,为激活函数研究提供了新的思路。未来,这一工作可能会激发更多关于自适应激活函数的研究。

转载地址:http://mgwsz.baihongyu.com/

你可能感兴趣的文章
net start mysql 发生系统错误2 系统找不到指定的文件
查看>>
发工资的骚操作。。
查看>>
送一个ipad【最后一个】
查看>>
重磅!大数据《实战全栈工程师成长手册》,附 PDF & PPT 下载
查看>>
JAVA异常和基础类库
查看>>
洛谷【数据结构1-1】线性表
查看>>
AI技术国际领先!一文回顾百度大脑的2020
查看>>
CVPR 2021 | 港科大&旷视提出ACON:激活还是不激活?学习自定义激活函数
查看>>
EfficientNetV2震撼发布!更小的模型,更快的训练
查看>>
python-计网实验二-套接字
查看>>
C++学习日记2——多态篇的纯虚函数和抽象类
查看>>
F - 数据结构实验之链表四:有序链表的归并
查看>>
为什么使用%lf读取double型的值,而用%f进行显示?
查看>>
用JavaScript实现希尔排序
查看>>
iconfont字体图标导入到vue项目中
查看>>
2020.11.30-12.6周报
查看>>
Nuxt.js服务器端渲染框架
查看>>
Svn commit failed aborting commit
查看>>
卧槽!细说JVM内存模型,已拿到offer
查看>>
带你一起手撕Dubbo,SpringBoot与Cloud,深入剖析
查看>>