pix2pix3D 是一种用于可控逼真图像合成的 3D 感知条件生成模型。 给定一个二维标签图,例如分割图或边缘图,pix2pix3D 模型会学习从不同的角度合成相应的图像。 为了启用显式 3D 用户控制,它使用神经辐射场扩展条件生成模型。 给定广泛可用的单目图像和标签图对,该模型除了颜色和密度之外,还会学习为每个 3D 点分配标...
为了避免大量的计算,现有的视频动作识别方法通常会采样几帧来表示每个视频,然而这往往会限制识别的性能。为此,Ample and Focal Network(AFNet)提出两个分支的结构,以用更少的计算量利用更多的视频帧。在减少计算量的前提下,AFNet 依然能借助其中间特征中的动态选择强制执行隐式时序建模,成功实现更高的精度。此...