探索 CNN 中的逐点卷积：替换全连接层

介绍

卷积神经网络 ( CNN ) 一直是理解图像和模式、改变深度学习格局的关键角色。这个旅程从 Yan 介绍 LeNet 架构开始，今天，我们有一系列 CNN 可供选择。传统上，这些网络严重依赖于完全连接的层，尤其是在将事物分类为不同类别时。但是等等，空气中有变化。我们正在探索一种使用 Pointwise Convolution 的不同架构，这是一种全新且改进的 CNN 方法。就像走上了一条新路。这种方法挑战了通常使用的全连接层，带来了一些很酷的好处，使我们的网络更智能、更快速。与我们一起探索逐点卷积，并了解它如何帮助我们的网络更高效地运行并表现得更好。

学习目标

了解卷积神经网络 (CNN) 从 LeNet 等早期模型到当今使用的各种架构的历程。
探索与 CNN 中传统全连接层相关的计算强度和空间信息丢失相关的问题。
探索逐点卷积 CNN 中的特征提取替代方案如何高效
培养在 CNN 中实施逐点卷积的实用技能，涉及网络修改和超参数调整等任务。

了解全连接层

在传统的卷积神经网络（CNN）中，全连接层在将所有神经元从一层连接到另一层、形成密集的互连结构方面发挥着至关重要的作用。在图像分类等任务中使用这些层，其中网络学习将特定特征与特定类别相关联。

关键点

全局连接：完全连接的层创建全局连接，允许一层中的每个神经元连接到后续层中的每个神经元。
参数强度：全连接层中参数的绝对数量可以大大增加模型的参数数量。
空间信息丢失：在完全连接的层中展平输入数据可能会导致原始图像的空间信息丢失，这在特定应用中可能是一个缺点。
计算强度：与全连接层相关的计算负载可能会很大，尤其是当网络规模扩大时。
实践中的使用
卷积层之后：全连接层通常用在 CNN 架构中的卷积层之后，其中卷积层从输入数据中提取特征。
密集层：在某些情况下，完全连接的层被称为“密集”层，强调它们在连接所有神经元中的作用。
需要什么改变？
现在我们已经对常规卷积神经网络 (CNN) 中的全连接层有了基本的了解，让我们来谈谈为什么有些人正在寻找不同的东西。虽然完全组合的层可以很好地完成工作，但它们也面临一些挑战。它们可能对计算机来说有点繁重，使用很多参数，有时会丢失图片中的重要细节。
为什么我们要探索新事物：
全连接的小问题：将全连接层想象成一个有一些小问题的勤奋工人——它们很有效，但也带来了挑战。
寻找更聪明的方法：人们寻求更创新、更有效的方法来构建这些网络，而不会出现这些问题。
让事情变得更好：目标是让这些网络运行得更好——更快、更智能、使用更少的计算能力。
了解逐点卷积
既然我们对让网络变得更智能、更高效很感兴趣，那么让我们来了解一下逐点卷积，它是卷积神经网络 (CNN) 领域的游戏规则改变者。
了解逐点卷积
什么是逐点卷积？它就像我们工具包中用于构建 CNN 的新工具。它不像完全连接的层那样将全局的所有内容连接起来，而是更加集中。
改变路线：如果全连接层就像主干道，那么逐点卷积就像找到一条简洁的捷径——它可以帮助我们更快地到达我们想去的地方。
减轻繁重工作：逐点卷积的一个很酷的事情是，它可以在不使用与全连接层一样多的计算机能力的情况下完成其工作。
逐点卷积如何工作？
集中计算：逐点卷积就像在数据中的每个特定点进行小型计算。它更加专注，着眼于个别点而不是整体。
表示法：我们经常用术语 1×11×1 卷积来表示逐点卷积，因为它就像一次查看数据中的单个点，因此称为“1×1”。

逐点卷积的优点

现在我们已经掌握了逐点卷积，让我们深入探讨一下为什么它作为卷积神经网络 (CNN) 中的一个很酷的替代方案而受到关注。
是什么让逐点卷积脱颖而出：

减少计算负载：与涉及大量计算的全连接层不同，逐点卷积专注于特定点，使整个过程更加高效。
参数效率：凭借其 1×11×1 表示法，逐点卷积不需要那么多参数，从而使我们的网络更简单且更易于管理。
保留空间信息：还记得我们有时会丢失的空间信息吗？逐点卷积有助于保持其完整性，这在图像处理等任务中非常方便。
逐点卷积的实际应用示例：
现在我们已经介绍了为什么逐点卷积是一种有前途的方法，让我们深入研究一些已成功实现逐点卷积的卷积神经网络 (CNN) 的实际示例。
1.移动网络
什么是移动网络？MobileNet 是一种专门为移动和边缘设备设计的 CNN 架构，这些设备的计算资源可能有限。
Pointwise Convolution 的作用： Pointwise Convolution 是 MobileNet 中的关键角色，尤其是在瓶颈架构中。它有助于减少计算和参数的数量，使 MobileNet 在资源受限的设备上变得高效。
影响：通过利用 Pointwise Convolution，MobileNet 平衡了准确性和计算效率，使其成为移动应用程序的流行选择。

2.挤压网络

什么是挤压网？SqueezeNet 是一种强调模型压缩的 CNN 架构——用更少的参数实现高精度。
Pointwise Convolution 的作用： Pointwise Convolution 是 SqueezeNet 成功不可或缺的一部分。它取代了更大的卷积滤波器，减少了参数数量并实现了高效的模型训练和部署。
优点： SqueezeNet 对 Pointwise Convolution 的使用展示了这种方法如何在不牺牲性能的情况下显着减小模型大小，使其适用于资源有限的环境。

3.高效网络

概述：EfficientNet 是一个 CNN 架构系列，以在保持效率的同时实现最先进的性能而闻名。
Pointwise Convolution 的作用： Pointwise Convolution 在 EfficientNet 中战略性地使用，以平衡不同网络规模（B0 到 B7）的模型复杂性和计算效率。
意义：Pointwise Convolution 的结合有助于 EfficientNet 以相对较少的参数实现高精度。

4.ShuffleNet

ShuffleNet简介：ShuffleNet旨在通过引入通道混洗和逐点组卷积来提高计算效率。
Pointwise Convolution的作用： Pointwise Convolution是ShuffleNet设计中的基本元素，可以减少参数数量和计算量。
影响：通道混洗和Pointwise Convolution的结合使ShuffleNet能够平衡模型精度和计算效率，使其适合部署在资源受限的设备上。

5.幽灵网：

GhostNet 概述： GhostNet 是一种轻量级 CNN 架构，专为高效训练和部署而设计，专注于减少内存和计算需求。
Pointwise Convolution的作用： GhostNet中利用Pointwise Convolution来减少参数数量，提高计算效率。
优点：使用 Pointwise Convolution，GhostNet 以较低的计算需求实现了有竞争力的精度，使其适合资源有限的应用程序。

6.MnasNet：

MnasNet 简介： MnasNet 是一种面向移动设备的 CNN 架构，专门强调移动和边缘设备的效率和有效性。
Pointwise Convolution的作用： Pointwise Convolution是MnasNet的关键组件，有助于模型的轻量级设计和效率。
性能： MnasNet 展示了 Pointwise Convolution 如何创建适合移动应用的紧凑而强大的模型。
7.异常：
Xception概述： Xception（Extreme Inception）是一种CNN架构，其灵感来自于Inception架构，强调深度可分离卷积。
Pointwise Convolution 的作用： Pointwise Convolution 用于 Xception 的最后阶段，有助于特征集成和降维。
优点：Pointwise Convolution的集成有助于Xception在保持计算效率的同时捕获复杂特征的能力。
8. InceptionV3：
概述： InceptionV3 是一种广泛使用的 CNN 架构，属于 Inception 家族。它以其在图像分类和目标检测任务方面的成功而闻名。
Pointwise Convolution 的作用： Pointwise Convolution 是 InceptionV3 架构中的基本组件，有助于跨不同空间分辨率的特征的高效处理。
应用：InceptionV3 应用于各个领域，在医疗保健领域的医学图像分析中展示了强大的性能。

9.移动网络V2：

MobileNetV2简介： MobileNetV2是MobileNet的后续版本，专为移动和边缘设备而设计。它的重点是实现更高的准确性和更高的效率。
Pointwise Convolution 的作用： MobileNetV2 广泛使用 Pointwise Convolution 通过减少计算和参数来简化和增强架构。
意义：MobileNetV2由于其轻量级设计而在设备上处理中变得流行，使其适合移动设备上的图像识别等应用。

10.ResNeXt：

ResNeXt 概述： ResNeXt 是 ResNet 架构的变体，强调基数参数，使模型能够捕获更丰富的特征表示。
Pointwise Convolution 的作用：ResNeXt 采用 Pointwise Convolution 来增强网络通过灵活的特征融合捕获不同特征的能力。
影响：在 ResNeXt 中使用 Pointwise Convolution 有助于其在图像分类任务中的成功，特别是在多样化特征至关重要的场景中。
案例研究和比较
现在我们已经探索了几种利用逐点卷积的流行卷积神经网络 (CNN)。让我们研究具体的案例研究和比较，以了解这些网络在现实场景中的表现。
1. 图像分类：MobileNet 与 VGG16
场景：比较 MobileNet（利用 Pointwise Convolution 提高效率）和 VGG16（具有全连接层的传统架构）在图像分类任务中的性能。
观察：评估准确性、计算速度和模型大小，以展示 Pointwise Convolution 在不影响准确性的情况下在效率方面的优势。
2. 边缘设备部署：MobileNetV2 与 InceptionV3
场景：检查 MobileNetV2（利用 Pointwise Convolution）和 InceptionV3（传统架构）在计算资源有限的边缘设备上部署的效率和适用性。
结果：评估模型精度和计算需求之间的权衡，强调点式卷积在资源受限环境中的优势。
3. 语义分割：U-Net 与 GhostNet
场景：研究 U-Net（语义分割的传统架构）和 GhostNet（结合 Pointwise Convolution 以提高效率）在医学图像分割任务中的性能。
结果：分析分割精度、计算效率和内存要求，以展示逐点卷积如何帮助优化分割任务模型。
实现逐点卷积
现在，让我们深入探讨将逐点卷积集成到卷积神经网络 (CNN) 架构中的实际步骤。我们将重点关注一个简化的示例来说明实现过程。
1. 网络修改

确定现有 CNN 架构中想要用 Pointwise Convolution 替换的全连接层。

# Original fully connected layer
model.add(Dense(units=256, activation='relu'))

将其替换为：

# Pointwise Convolution layer
model.add(Conv2D(filters=256, kernel_size=(1, 1), activation='relu'))

2、架构调整

考虑逐点卷积在网络中的位置。它通常在其他卷积层之后使用，以有效地捕获和细化特征。

# Add Pointwise Convolution after a convolutional layer
model.add(Conv2D(filters=128, kernel_size=(3, 3), activation='relu'))
model.add(Conv2D(filters=256, kernel_size=(1, 1), activation='relu'))  
# Pointwise Convolution

3. 超参数调优

根据您的具体任务要求试验内核大小和步幅。

# Fine-tune kernel size and stride
model.add(Conv2D(filters=256, kernel_size=(3, 3), strides=(1, 1), activation='relu'))
model.add(Conv2D(filters=512, kernel_size=(1, 1), strides=(1, 1), activation='relu'))  
# Pointwise Convolution

4. 正则化技术

通过合并批量归一化来增强稳定性和收敛性。

# Batch normalization with Pointwise Convolution
model.add(Conv2D(filters=512, kernel_size=(1, 1), activation=None))
model.add(BatchNormalization())
model.add(Activation('relu'))

5. 模型评估

将修改后的网络的性能与原始架构进行比较。
```
# Original fully connected layer for comparison
model.add(Dense(units=512, activation='relu'))
```
结论
逐点卷积极大地改进了我们设计卷积神经网络 (CNN) 的方式。与通常的全连接层相比，它提供了一个集中且有效的选项。建议通过实验来评估逐点卷积的适用性和有效性，因为它随具体架构和任务的不同而变化。要使逐点卷积在网络中发挥作用，需要对架构进行智能更改并应对一些挑战。展望未来，使用逐点卷积意味着我们设计 CNN 的方式将发生改变，引导我们走向更高效、更易于调整的网络，为深度学习取得更大进展奠定基础。
要点

CNN 的演变：见证了从 LeNet 到当今多样化 CNN 的重大演变。
全连接层的挑战：传统层面临计算强度和空间信息丢失等问题。
Pointwise Convolution：有前途的替代方案，具有集中且高效的特征提取方法。
优点：减少计算量，提高参数效率，保留空间信息。
现实世界的影响：在优化网络性能方面发挥着至关重要的作用，这在 MobileNet 和 SqueezeNet 等模型中可见一斑。
实际实施：步骤包括网络修改、架构调整、超参数调整和模型评估。
经常问的问题
Q1：什么是 CNN 中的逐点卷积？
答：逐点卷积是一种专注于单个点的卷积神经网络 (CNN) 技术，为传统的全连接层提供了更有效的替代方案。
Q2：逐点卷积与全连接层有何不同？
答：与完全连接的层不同，逐点卷积在输入中的特定点上运行，减少了计算负载并保留了空间信息。
Q3：使用逐点卷积有什么优点？
答：Pointwise Convolution 带来了诸如减少计算负载、提高参数效率以及在 CNN 架构中保存空间信息等优点。
Q4：可以将逐点卷积应用于任何 CNN 架构吗？
A. 实验决定了Pointwise Convolution的适用性和有效性，这可能会根据具体的架构和任务而有所不同。
Q5：如何在 CNN 中实现逐点卷积？
答：实施涉及修改网络、调整架构、调整超参数以及考虑过度拟合等挑战以提高效率。
文章来源：https://www.analyticsvidhya.com/blog/2023/11/exploring-pointwise-convolution-in-cnns-replacing-fully-connected-layers/

探索 CNN 中的逐点卷积：替换全连接层

介绍

学习目标

了解全连接层

关键点

实践中的使用

需要什么改变？

了解逐点卷积

了解逐点卷积

逐点卷积如何工作？

逐点卷积的优点

逐点卷积的实际应用示例：

1.移动网络

2.挤压网络

3.高效网络

4.ShuffleNet

5.幽灵网：

6.MnasNet：

7.异常：

8. InceptionV3：

9.移动网络V2：

10.ResNeXt：

案例研究和比较

1. 图像分类：MobileNet 与 VGG16

2. 边缘设备部署：MobileNetV2 与 InceptionV3

3. 语义分割：U-Net 与 GhostNet

实现逐点卷积

1. 网络修改

2、架构调整

3. 超参数调优

4. 正则化技术

5. 模型评估

结论

要点

经常问的问题

Momodel

引用和评论

中国首个Sora级视频大模型Vidu震撼发布