SF
deephub
deephub
注册登录
关注博客
注册登录
主页
关于
RSS
IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析
deephub
2024-11-24
阅读 5 分钟
702
你是否曾经训练过一个模型,在评估指标上表现出色,但在实际可视化边界框时,却发现它在许多情况下都失败了?这可能是因为像简单交并比(IoU)这样的标准指标并没有很好地捕捉到你所期望的模型行为。
边缘检测评估方法:FOM、RMSE、PSNR和SSIM对比实验和理论研究
deephub
2024-10-11
阅读 9 分钟
1.2k
模型将每个像素分类为陆地或海洋(分割掩码)。随后,海岸线被定义为分类发生变化的像素位置(边缘图)。边缘检测可以通过提取图像分割模型输出的边界来实现。
图像数据增强库综述:10个强大图像增强工具对比与分析
deephub
2024-10-08
阅读 5 分钟
964
在深度学习和计算机视觉领域,数据增强已成为提高模型性能和泛化能力的关键技术。本文旨在全面介绍当前广泛使用的图像数据增强库,分析其特点和适用场景,以辅助研究人员和开发者选择最适合其需求的工具。
CNN中的注意力机制综合指南:从理论到Pytorch代码实现
deephub
2024-09-02
阅读 6 分钟
2.7k
注意力机制已经成为深度学习模型,尤其是卷积神经网络(CNN)中不可或缺的组成部分。通过使模型能够选择性地关注输入数据中最相关的部分,注意力机制显著提升了CNN在图像分类、目标检测和语义分割等复杂任务中的性能。本文将全面介绍CNN中的注意力机制,从基本概念到实际实现,为读者提供深入的理解和实践指导。
使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间
deephub
2024-08-12
阅读 18 分钟
1.3k
以Vision Transformer (ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大小,推理速度较慢。因此研究更快训练和推理Vision ...
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
deephub
2024-06-23
阅读 10 分钟
1k
1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
使用粒子滤波(particle filter)进行视频目标跟踪
deephub
2024-06-22
阅读 10 分钟
877
虽然有许多用于目标跟踪的算法,包括较新的基于深度学习的算法,但对于这项任务,粒子滤波仍然是一个有趣的算法。所以在这篇文章中,我们将介绍视频中的目标跟踪:预测下一帧中物体的位置。在粒子滤波以及许多其他经典跟踪算法的情况下,我们根据估计的动态进行预测,然后使用一些测量值更新预测。
CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型
deephub
2024-06-07
阅读 7 分钟
936
这篇论文研究了在3D医学图像分割领近年引入了许多新的架构和方法,但大多数方法并没有超过2018年的原始nnU-Net基准。作者指出,许多关于新方法的优越性的声称在进行严格验证后并不成立,这揭示了当前在方法验证上存在的不严谨性。
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
deephub
2024-05-25
阅读 4 分钟
3.5k
我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。
MambaOut:状态空间模型并不适合图像的分类任务
deephub
2024-05-23
阅读 3 分钟
1.1k
该论文探讨了Mamba架构(包含状态空间模型SSM)是否有必要用于视觉任务,如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果,认为其不如传统的卷积和注意力模型。
10个使用NumPy就可以进行的图像处理步骤
deephub
2024-05-01
阅读 7 分钟
892
图像处理是一种数学计算。数字图像由称为像素的彩色小点组成。每个像素由红、绿、蓝(RGB)三个独立的颜色组成。每个像素中的主色由每个RGB分量的数值决定。
2024年4月计算机视觉论文推荐
deephub
2024-04-27
阅读 6 分钟
1.9k
本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域
文生图的基石CLIP模型的发展综述
deephub
2024-03-22
阅读 4 分钟
1.4k
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。
2024年3月的计算机视觉论文推荐
deephub
2024-03-18
阅读 5 分钟
959
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
4张图片就可以微调扩散模型
deephub
2024-02-19
阅读 9 分钟
1.4k
稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。
MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型
deephub
2024-02-07
阅读 5 分钟
1.1k
视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
deephub
2024-01-23
阅读 2 分钟
1.6k
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
CLIP的升级版Alpha-CLIP:区域感知创新与精细控制
deephub
2023-12-12
阅读 1 分钟
838
为了增强CLIP在图像理解和编辑方面的能力,上海交通大学、复旦大学、香港中文大学、上海人工智能实验室、澳门大学以及MThreads Inc.等知名机构共同合作推出了Alpha-CLIP。这一创新性的突破旨在克服CLIP的局限性,通过赋予其识别特定区域(由点、笔画或掩码定义)的能力。Alpha-CLIP不仅保留了CLIP的视觉识别能力,而且实...
Recognize Anything:一个强大的图像标记模型
deephub
2023-09-15
阅读 3 分钟
899
Recognize Anything是一种新的图像标记基础模型,与传统模型不同,它不依赖于手动注释进行训练;相反,它利用大规模的图像-文本对。RAM的开发过程包括四个关键阶段:
SplitMask:大规模数据集是自我监督预训练的必要条件吗?
deephub
2023-09-09
阅读 2 分钟
927
自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。
Nougat:一种用于科学文档OCR的Transformer 模型
deephub
2023-09-08
阅读 2 分钟
879
随着人工智能领域的不断进步,其子领域,包括自然语言处理,自然语言生成,计算机视觉等,由于其广泛的用例而迅速获得了大量的普及。光学字符识别(OCR)是计算机视觉中一个成熟且被广泛研究的领域。它有许多用途,如文档数字化、手写识别和场景文本识别。数学表达式的识别是OCR在学术研究中受到广泛关注的一个领域。
CMT:卷积与Transformers的高效结合
deephub
2023-09-07
阅读 4 分钟
1k
论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕获远程依赖关系,利用cnn提取局部信息。构建了一系列模型cmt,它在准确性和效率方面有更好的权衡。
用于3D MRI和CT扫描的深度学习模型总结
deephub
2023-08-10
阅读 2 分钟
719
医学成像数据与其他我们日常图像的最大区别之一是它们很多都是3D的,比如在处理DICOM系列数据时尤其如此。DICOM图像由很多的2D切片组成了一个扫描或身体的特定部分。
Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%
deephub
2023-07-23
阅读 3 分钟
1.8k
但是它计算过程复杂,使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本文中我们将对这些加速方法进行了一系列对比测试。
使用Dreambooth LoRA微调SDXL 0.9
deephub
2023-07-15
阅读 5 分钟
1.6k
本文将介绍如何通过LoRA对Stable Diffusion XL 0.9进行Dreambooth微调。DreamBooth是一种仅使用几张图像(大约3-5张)来个性化文本到图像模型的方法。
将ChatGPT变成Midjourney提示生成器
deephub
2023-07-01
阅读 5 分钟
1.1k
已经有人总结过可以让ChatGPT作为Midjourney图像生成的模板。在本文中,我们将展示如何根据个人用例创建这些提示,这可以让ChatGPT生成的提示可控性更高。
MidJourney v5.2 、Stable Diffusion XL 0.9 出图对比
deephub
2023-06-30
阅读 3 分钟
1.2k
最近两个最流行的AI图像生成器,Midjourney和Stable Diffusion,都发布了重大更新。Midjourney v5.2引入了许多新功能,包括“缩小”功能、“/缩短”命令、改进的图像质量等。
设置和使用DragGAN:搭建非官方的演示版
deephub
2023-06-04
阅读 1 分钟
1.3k
DragGAN的官方版还没有发布,但是已经有非官方版的实现了,我们看看如何使用。DragGAN不仅让GAN重新回到竞争轨道上,而且为GAN图像处理开辟了新的可能性。正式版本将于本月发布。但是现在已经可以在一个非官方的演示中试用这个新工具了
NSFW 图片分类
deephub
2023-05-21
阅读 8 分钟
1.4k
NSFW指的是 不适宜工作场所("Not Safe (or Suitable) For Work;")。在本文中,将介绍如何创建一个检测NSFW图像的图像分类模型。
使用Dino+SAM+Stable diffusion 自动进行图片的修改
deephub
2023-04-30
阅读 7 分钟
2.3k
SAM 是Mata发布的“Segment Anything Model”可以准确识别和提取图像中的对象。 它可以分割任何的图片,但是如果需要分割特定的物体,则需要需要点、框的特定提示才能准确分割图像。 所以本文将介绍一种称为 Grounding Dino 的技术来自动生成 SAM 进行分割所需的框。
1
(current)
2
3
下一页
1
(current)
下一页