传统卷积神经网络CNN与注意力机制的结合改进方向

背景

随着深度学习的快速发展，卷积神经网络（CNN）已成为计算机视觉领域的基础模型。传统CNN在处理复杂图像时存在一定局限性，无法灵活地根据不同特征的重要性进行加权。这一问题催生了众多新的注意力机制，它们通过动态调整特征的权重，极大地提升了模型的性能。

本文将探讨一系列现代注意力机制的演变，从传统CNN到SENET、SKNET，再到CBMA、Triplet Attention、CoordAttention、ECA-NET和DA-NET。这些机制的核心目标是通过更智能的特征选择和权重分配，帮助模型更好地理解和处理输入数据。

一、传统CNN

传统卷积神经网络（CNN）中的每个通道代表不同的特征，但是每个特征权重重叠。这意味着在处理图像时，所有特征都被同等对待。然而，这种方法存在一定的局限性，因为它无法根据实际情况调整不同特征的重要性。

import torch
import torch.nn as nn
import torchvision.transforms as transforms
import torchvision.datasets as datasets

# 定义传统CNN模型
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.fc2 = nn.Linear(128, 10)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 64 * 7 * 7)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# 数据加载和训练省略

二、SENET

在了解了传统CNN的基本概念后，我们首先要探讨的是SENET，这一机制如何引入通道注意力的概念，以便在特征图中灵活调整通道的权重。

SENET引入了一种新的注意力机制，可以让不同通道之间的权重有所不同。这种机制被称为“squeeze-and-excitation”（挤压-激活），它通过对特征进行加权来增强或抑制某些通道。SENET的优点在于可以根据输入图像自动调整不同通道的权重，从而提高模型的性能。

class SqueezeExcitation(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SqueezeExcitation, self).__init__()
        self.fc1 = nn.Linear(channel, channel // reduction, bias=False)
        self.fc2 = nn.Linear(channel // reduction, channel, bias=False)

    def forward(self, x):
        batch_size, channel, _, _ = x.size()
        y = F.adaptive_avg_pool2d(x, 1).view(batch_size, channel)
        y = F.relu(self.fc1(y))
        y = torch.sigmoid(self.fc2(y)).view(batch_size, channel, 1, 1)
        return x * y.expand_as(x)

# 将SENET与传统CNN结合
class SENetCNN(nn.Module):
    def __init__(self):
        super(SENetCNN, self).__init__()
        self.base_model = SimpleCNN()  # 使用上面定义的SimpleCNN
        self.se = SqueezeExcitation(64)  # 添加SE模块

    def forward(self, x):
        x = self.base_model(x)
        x = self.se(x)
        return x

# 数据加载和训练省略

三、SKNET

接着我们将深入SKNET，观察其如何通过空间自适应机制增强卷积操作的灵活性。

与SENET类似，SKNET也允许不同卷积的权重不一样。但是，它的重点在于让不同卷积的权重也不一样。这种机制称为“spatially-adaptive”（空间自适应），它可以通过改变卷积核的位置和大小来适应复杂的场景。SKNET的优势在于可以更好地捕捉图像的空间信息。

class SKConv(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(SKConv, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)
        self.fc = nn.Linear(out_channels, out_channels)

    def forward(self, x):
        x = self.conv(x)
        # 计算空间自适应权重
        attention = F.softmax(self.fc(x.view(x.size(0), -1)), dim=1).view(x.size())
        return x * attention

# 将SKNET与传统CNN结合
class SKNetCNN(nn.Module):
    def __init__(self):
        super(SKNetCNN, self).__init__()
        self.base_model = SimpleCNN()  # 使用上面定义的SimpleCNN
        self.skconv = SKConv(64, 64)  # 添加SK卷积模块

    def forward(self, x):
        x = self.base_model(x)
        x = self.skconv(x)
        return x

# 数据加载和训练省略

四、CBMA

CBMA，它结合了SENET和SKNET的优点，形成了一个更强大的动态选择机制。

CBMA将SENET和SKNET结合起来，实现了通道和卷积的动态选择。具体来说，它使用一种称为“channel-wise attention”（通道注意力）的方法来调整不同通道的权重，同时使用“spatial-wise attention”（空间注意力）来调整不同卷积的权重。这种结合方式有助于提高模型的准确性和效率。

class CBMA(nn.Module):
    def __init__(self, in_channels):
        super(CBMA, self).__init__()
        self.se = SqueezeExcitation(in_channels)
        self.skconv = SKConv(in_channels, in_channels)

    def forward(self, x):
        x = self.se(x)  # 通道注意力
        x = self.skconv(x)  # 空间注意力
        return x

# 使用CBMA
class CBMACNN(nn.Module):
    def __init__(self):
        super(CBMACNN, self).__init__()
        self.base_model = SimpleCNN()  # 使用上面定义的SimpleCNN
        self.cbma = CBMA(64)  # 添加CBMA模块

    def forward(self, x):
        x = self.base_model(x)
        x = self.cbma(x)
        return x

# 数据加载和训练省略

五、Triplet Attention

在CBMA基础上，Triplet Attention进一步扩展了这一概念，不仅让通道和卷积都动态选择，还将其组合起来以获得更好的结果。它使用一种称为“triplet attention module”（三元组注意力模块）的方法来融合多层卷积的特征。此外，它还考虑了同通道的上下文关系和不同通道的特征融合，从而提高了模型的泛化能力。

class TripletAttention(nn.Module):
    def __init__(self, in_channels):
        super(TripletAttention, self).__init__()
        self.channel_attention = SqueezeExcitation(in_channels)
        self.spatial_attention = SKConv(in_channels, in_channels)

    def forward(self, x):
        x = self.channel_attention(x)
        x = self.spatial_attention(x)
        return x

# 使用Triplet Attention
class TripletAttentionCNN(nn.Module):
    def __init__(self):
        super(TripletAttentionCNN, self).__init__()
        self.base_model = SimpleCNN()  # 使用上面定义的SimpleCNN
        self.triplet_attention = TripletAttention(64)  # 添加Triplet Attention模块

    def forward(self, x):
        x = self.base_model(x)
        x = self.triplet_attention(x)
        return x

# 数据加载和训练省略

六、CoordAttention

接下来的CoordAttention是一种针对不同特征图关注不同空间位置的机制，从而帮助模型更好地理解图像结构。之后，我们将介绍简化版的ECA-NET，它虽然计算量较小，但仍能有效提取图像中的关键信息。

CoordAttention是一种空间注意力机制，它可以针对不同特征图关注不同的位置。例如，在一个黑色布匹上有一个鸡蛋的图像中，经过CoordAttention输出之后可能只保留了鸡蛋区域的信息。这种机制可以帮助模型更好地理解图像的空间结构。

class CoordAttention(nn.Module):
    def __init__(self, in_channels):
        super(CoordAttention, self).__init__()
        self.conv = nn.Conv2d(in_channels, in_channels, kernel_size=3, padding=1)

    def forward(self, x):
        batch_size, channel, height, width = x.size()
        avg_pool = F.adaptive_avg_pool2d(x, (1, 1))
        max_pool = F.adaptive_max_pool2d(x, (1, 1))
        y = avg_pool + max_pool
        y = self.conv(y)
        return x * y.view(batch_size, channel, 1, 1)

# 使用CoordAttention
class CoordAttentionCNN(nn.Module):
    def __init__(self):
        super(CoordAttentionCNN, self).__init__()
        self.base_model = SimpleCNN()  # 使用上面定义的SimpleCNN
        self.coord_attention = CoordAttention(64)  # 添加Coord Attention模块

    def forward(self, x):
        x = self.base_model(x)
        x = self.coord_attention(x)
        return x

# 数据加载和训练省略

七、ECA-NET

ECA-NET是SENET的一种简化版，它的计算量小一点。虽然它没有SENET那么复杂，但它仍然能够有效地提取图像中的关键信息。ECA-NET使用一种称为“efficient channel attention”（高效通道注意力）的方法来调整不同通道的权重。

class ECA_Net(nn.Module):
    def __init__(self, in_channels):
        super(ECA_Net, self).__init__()
        self.conv = nn.Conv2d(in_channels, in_channels, kernel_size=3, padding=1, groups=in_channels)

    def forward(self

, x):
        y = self.conv(x)
        return x * torch.sigmoid(y)

# 使用ECA-NET
class ECA_NetCNN(nn.Module):
    def __init__(self):
        super(ECA_NetCNN, self).__init__()
        self.base_model = SimpleCNN()  # 使用上面定义的SimpleCNN
        self.eca_net = ECA_Net(64)  # 添加ECA-NET模块

    def forward(self, x):
        x = self.base_model(x)
        x = self.eca_net(x)
        return x

# 数据加载和训练省略

八、DA-NET（双向注意力网络）

最后的DA-NET是一种双重视觉注意力网络，它结合了多层卷积的特征融合、同通道的上下文关系以及不同通道的特征融合。这种机制可以帮助模型更好地理解图像的全局和局部信息。DA-NET的优点在于可以同时考虑图像的不同方面，从而提高模型的性能。

class DANet(nn.Module):
    def __init__(self, in_channels):
        super(DANet, self).__init__()
        self.channel_attention = SqueezeExcitation(in_channels)
        self.spatial_attention = SKConv(in_channels, in_channels)

    def forward(self, x):
        ca = self.channel_attention(x)
        sa = self.spatial_attention(x)
        return x + ca + sa  # 融合通道和空间注意力

# 使用DA-NET
class DANetCNN(nn.Module):
    def __init__(self):
        super(DANetCNN, self).__init__()
        self.base_model = SimpleCNN()  # 使用上面定义的SimpleCNN
        self.danet = DANet(64)  # 添加DA-NET模块

    def forward(self, x):
        x = self.base_model(x)
        x = self.danet(x)
        return x

# 数据加载和训练省略

结论：

总之这些注意力机制都是为了帮助模型更好地理解和处理输入数据，从而提高其性能和准确性。随着技术的发展，我们可能会看到更多创新的注意力机制出现。这些机制将在计算机视觉、自然语言处理等领域发挥重要作用。

日期: 2024年10月19日
作者: 汤青松
微信: songboy8888

传统卷积神经网络CNN与注意力机制的结合改进方向

背景

一、传统CNN

二、SENET

三、SKNET

四、CBMA

五、Triplet Attention

六、CoordAttention

七、ECA-NET

八、DA-NET（双向注意力网络）

结论：

汤青松

引用和评论

WAF规则对性能影响测试工具WRK2安装笔记

详解Diffusion扩散模型：理论、架构与实现

活动报名｜走进蚂蚁上海S空间，探索大模型背景下的私域知识库构建

专业级语义搜索优化：利用 Cohere AI、BGE Re-Ranker 及 Jina Reranker 实现精准结果重排

登 Nature 子刊！论文一作详解蛋白质语言模型的小样本学习方法，解决湿实验数据匮乏难题

SAM 2最新应用落地！牛津大学团队发布Medical SAM 2，刷新医学图像分割SOTA榜

Python用CNN - LSTM、ARIMA、Prophet股票价格预测的研究与分析|附数据代码