PyTorch 模型输入形状

我加载了一个自定义 PyTorch 模型，我想找出它的输入形状。是这样的：

 model.input_shape

是否有可能获得这些信息？

更新： print() 和 summary() 不显示该模型的输入形状，所以它们不是我要找的。

原文由 Scott 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 974

PyTorch 的灵活性

PyTorch 模型是非常灵活的对象，以至于它们不强制或通常不期望数据的固定输入形状。

如果您有某些层，则可能会有限制，例如：

展平后跟宽度为 N 的完全连接层将强制原始输入的尺寸 (M1 x M2 x … Mn) 的乘积等于 N
N 个输入通道的二维卷积将强制数据为 3 维，第一维的大小为 N

但是正如您所看到的，这些都没有强制执行数据的总体形状。

我们现在可能没有意识到这一点，但在更复杂的模型中，正确设置第一个线性层的大小有时会令人沮丧。我们听说过著名从业者输入任意数字，然后依靠 PyTorch 的错误消息回溯其线性层的正确大小的故事。跛脚，嗯？不，这一切都是合法的！

使用 PyTorch 进行深度学习

调查

简单案例：第一层全连接

如果您的模型的第一层是全连接层，那么 print(model) 中的第一层将详细说明单个样本的预期维度。

模棱两可的案例：CNN

然而，如果它是一个卷积层，因为它们是动态的并且将在输入允许的范围内跨度/跨度，所以没有简单的方法可以从模型本身检索此信息。 1这种灵活性意味着对于许多体系结构来说， 多个兼容的输入大小 2都将被网络接受。

这是 PyTorch 的 Dynamic computational graph 的一个特性。

人工检查

您需要做的是研究网络架构，一旦您找到一个可解释层（如果存在，例如完全连接），就可以“反向工作”其维度，确定前面的层（例如池化和卷积）如何压缩/修改它。

例子

例如，在 深度学习与 PyTorch (8.5.1) 的以下模型中：

 class NetWidth(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 16, kernel_size=3, padding=1)
        self.fc1 = nn.Linear(16 * 8 * 8, 32)
        self.fc2 = nn.Linear(32, 2)

    def forward(self, x):
        out = F.max_pool2d(torch.tanh(self.conv1(x)), 2)
        out = F.max_pool2d(torch.tanh(self.conv2(out)), 2)
        out = out.view(-1, 16 * 8 * 8)
        out = torch.tanh(self.fc1(out))
        out = self.fc2(out)
        return out

我们看到模型接受输入 2.d。带有 3 通道的图像和：

Conv2d -> 将其发送到具有 32 个通道的相同大小的图像
max_pool2d(,2) -> 将每个维度的图像大小减半
Conv2d -> 将其发送到具有16个通道的相同大小的图像
max_pool2d(,2) -> 将每个维度的图像大小减半
view -> 重塑图像
Linear -> 获取大小为 16 * 8 * 8 的张量并发送到大小 32
…

所以向后工作，我们有：

形状的张量 16 * 8 * 8
未重塑形状（通道 x 高度 x 宽度）
un-max_pooled in 2d with factor 2, 所以高度和宽度未减半
从 16 个通道未卷积到 32 个

假设： 产品中的 16 可能是指通道数，并且 view 看到的图像的形状是 (channels, 8,8)，目前是 (channels, 16,16 ) 2 - un-max_pooled in 2d with factor 2, 所以高度和宽度再次减半（通道，32,32） - 从 32 个通道未卷积到 3 个

因此，假设 kernel_size 和 padding 足以使卷积本身保持图像尺寸，则输入图像的形状很可能是 (3,32,32)，即 RGB 32x32 像素正方形图像。

笔记：

即使是外部包 pytorch-summary 也需要您提供输入形状才能显示每一层输出的形状。
然而，它可以是任何 2 个数字，其乘积等于 8*8，例如 (64,1)、(32,2)、(16,4) 等，但是由于代码写为 8*8，因此作者很可能使用了实际的方面。

原文由 iacob 发布，翻译遵循 CC BY-SA 4.0 许可协议

print(model)

会给你一个模型的总结，在这里你可以看到每一层的形状。

您还可以使用 pytorch-summary 包。

如果你的网络有一个 FC 作为第一层，你可以很容易地计算出它的输入形状。你提到你在前面有一个卷积层。由于也存在全连接层，网络将仅针对一种特定的输入大小生成输出。我建议通过使用各种形状来解决这个问题，即喂养具有某种形状的玩具批次，然后检查 FC 层之前的 Conv 层的输出。

由于这取决于第一个 FC 层之前的网络架构（conv 层数、内核等），我无法为您提供正确输入的确切公式。如前所述，您必须通过尝试各种输入形状以及在第一个 FC 之前生成的网络输出来解决这个问题。有（几乎）总有一种方法可以用代码解决问题，但我现在想不出别的方法。

原文由 Alex Metsai 发布，翻译遵循 CC BY-SA 4.0 许可协议

PyTorch 模型输入形状

PyTorch 的灵活性

调查

简单案例：第一层全连接

模棱两可的案例：CNN

人工检查

例子

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译