SF
deephub
deephub
注册登录
关注博客
注册登录
主页
关于
RSS
使用CLIP构建视频搜索引擎
deephub
2022-12-31
阅读 7 分钟
1.5k
CLIP(Contrastive Language-Image Pre-training)是一种机器学习技术,它可以准确理解和分类图像和自然语言文本,这对图像和语言处理具有深远的影响,并且已经被用作流行的扩散模型DALL-E的底层机制。在这篇文章中,我们将介绍如何调整CLIP来辅助视频搜索。
Pandas处理大数据的性能优化技巧
deephub
2022-12-30
阅读 14 分钟
1.3k
Pandas是Python中最著名的数据分析工具。在处理数据集时,每个人都会使用到它。但是随着数据大小的增加,执行某些操作的某些方法会比其他方法花费更长的时间。所以了解和使用更快的方法非常重要,特别是在大型数据集中,本文将介绍一些使用Pandas处理大数据时的技巧,希望对你有所帮助
降维和特征选择的对比介绍
deephub
2022-12-29
阅读 2 分钟
1.3k
在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。特征降维和特征选择的目的都是使数据的维数降低,使数据维度降小。但实际上两者的区别是很大,他们的本质是完全不同的。
为深度学习选择最好的GPU
deephub
2022-12-28
阅读 5 分钟
1.1k
在进行机器学习项目时,特别是在处理深度学习和神经网络时,最好使用GPU而不是CPU来处理,因为在神经网络方面,即使是一个非常基本的GPU也会胜过CPU。
PyTorch的Dataset 和TorchData API的比较
deephub
2022-12-27
阅读 10 分钟
868
在PyTorch中,torch.utils.data.Dataset和torch.utils.data.DataLoader通常用于加载数据集和生成批处理。但是从版本1.11开始,PyTorch引入了TorchData库,它实现了一种不同的加载数据集的方法。
如何检测时间序列中的异方差(Heteroskedasticity)
deephub
2022-12-26
阅读 4 分钟
1.9k
时间序列中非恒定方差的检测与处理,如果一个时间序列的方差随时间变化,那么它就是异方差的。否则数据集是同方差的。异方差性影响时间序列建模。因此检测和处理这种情况非常重要。让我们从一个可视化的例子开始。下面的图1显示了航空公司乘客的时间序列。可以看到在整个序列中变化是不同的。在该系列的后一部分方差更高...
论文推荐:CCNet用于语义分割的交叉注意力
deephub
2022-12-25
阅读 4 分钟
1.6k
CCNet, Transformer递归交叉自注意力,比非局部神经网络更有效。华中科技大学、地平线、ReLER 和伊利诺伊大学香槟分校联合研发
15个节省时间的Jupyter技巧
deephub
2022-12-24
阅读 7 分钟
987
Jupyter Notebooks使用非常简单并且对于任何面向python的任务都可以非常方便的使用。只要它的内核处于活动状态,就可以用数据子集运行和测试脚本,而不用每次重启程序,这样可以加快我们开发和测试的速度。
变分自编码器VAE的数学原理
deephub
2022-12-23
阅读 4 分钟
1.9k
变分自编码器(VAE)是一种应用广泛的无监督学习方法,它的应用包括图像生成、表示学习和降维等。虽然在网络架构上经常与Auto-Encoder联系在一起,但VAE的理论基础和数学公式是截然不同的。本文将讨论是什么让VAE如此不同,并解释VAE如何连接“变分”方法和“自编码器”。
基于CNN和LSTM的气象图降水预测示例
deephub
2022-12-22
阅读 6 分钟
1.4k
KNMI提供的数据集,我们假设气象雷达产生的信号在反射时会被降水(雨、雪、冰雹等)反射。由雷达捕获的反射信号的强度称为反射率(以 dBZ 计算),我们可以粗略认为它与该点的降水强度成正比。当通过根据信号强度映射色标将此反射率数据转换为图像时(默认情况下,KNMI 提供的色标为“viridis”,紫色/深蓝色表示较低值,...
Pandas中高效的选择和替换操作总结
deephub
2022-12-21
阅读 8 分钟
1.6k
作为数据科学家,使用正确的工具和技术来最大限度地利用数据是很重要的。Pandas是数据操作、分析和可视化的重要工具,有效地使用Pandas可能具有挑战性,从使用向量化操作到利用内置函数,这些最佳实践可以帮助数据科学家使用Pandas快速准确地分析和可视化数据。
计算机视觉面试中一些热门话题整理
deephub
2022-12-20
阅读 3 分钟
1.1k
通常在机器学习面试中,问完常见基础知识的技术问题之后会有具体的项目问题的讨论,所以这里准备了一些项目相关的话题,以可以帮助你准备和通过计算机视觉相关的面试。
强化学习的基础知识和6种基本算法解释
deephub
2022-12-19
阅读 6 分钟
1.2k
强化学习的基础知识和概念简介(无模型、在线学习、离线强化学习等)机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL):关注在给定标记训练数据的情况下获得正确的输出无监督学习(UL):关注在没有预先存在的标签的情况下发现数据中的模式强化学习(RL):关注智能体在环境中如何采取行动以最大化累积...
Python中的魔法方法
deephub
2022-12-18
阅读 6 分钟
1.5k
Python的魔法方法,也称为dunder(双下划线)方法。大多数的时候,我们将它们用于简单的事情,例如构造函数(__init__)、字符串表示(__str__, __repr__)或算术运算符(__add__/__mul__)。其实还有许多你可能没有听说过的但是却很好用的方法,在这篇文章中,我们将整理这些魔法方法!
使用PyTorch进行知识蒸馏的代码示例
deephub
2022-12-17
阅读 5 分钟
1.7k
随着机器学习模型的复杂性和能力不断增加。提高大型复杂模型在小数据集性能的一种有效技术是知识蒸馏,它包括训练一个更小、更有效的模型来模仿一个更大的“教师”模型的行为。
从另外一个角度解释AUC
deephub
2022-12-16
阅读 3 分钟
927
我的模型比随机模型好多少呢?理论随机模型只是对角线,这条对角线下的面积是0.5,我们的模型的AUC是0.75 那么这个0.75的AUC值究竟代表什么?
时间序列的蒙特卡罗交叉验证
deephub
2022-12-15
阅读 6 分钟
1.1k
交叉验证应用于时间序列需要注意是要防止泄漏和获得可靠的性能估计本文将介绍蒙特卡洛交叉验证。这是一种流行的TimeSeriesSplits方法的替代方法。
基于Vision Transformers的文档理解简介
deephub
2022-12-14
阅读 3 分钟
1.2k
文档理解算法使用编码器-解码器结构分析文档内容,该管道结合了计算机视觉(CV)和自然语言处理(NLP)方法。管道的CV部分将文档作为输入图像进行分析,生成transformer可以处理的表示形式。在下图中,CV模型生成图像嵌入,并将其馈送到多模态transformer中。
使用TensorFlow Probability实现最大似然估计
deephub
2022-12-13
阅读 5 分钟
1.1k
TensorFlow Probability是一个构建在TensorFlow之上的Python库。它将我们的概率模型与现代硬件(例如GPU)上的深度学习结合起来。
NeurIPS 2022-10大主题、50篇论文总结
deephub
2022-12-12
阅读 9 分钟
1.1k
2672篇主要论文,63场研讨会,7场受邀演讲,包括语言模型、脑启发研究、扩散模型、图神经网络……NeurIPS包含了世界级的AI研究见解,本文将对NeurIPS 2022做一个全面的总结。
论文推荐:Rethinking Attention with Performers
deephub
2022-12-11
阅读 3 分钟
741
重新思考的注意力机制,Performers是由谷歌,剑桥大学,DeepMind,和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用
PyTorch中学习率调度器可视化介绍
deephub
2022-12-10
阅读 8 分钟
1.5k
神经网络有许多影响模型性能的超参数。一个最基本的超参数是学习率(LR),它决定了在训练步骤之间模型权重的变化程度。在最简单的情况下,LR值是0到1之间的固定值。
基于SARIMA、XGBoost和CNN-LSTM的时间序列预测对比
deephub
2022-12-09
阅读 14 分钟
1.3k
本文将讨论通过使用假设测试、特征工程、时间序列建模方法等从数据集中获得有形价值的技术。我还将解决不同时间序列模型的数据泄漏和数据准备等问题,并且对常见的三种时间序列预测进行对比测试。
图像数据的特征工程
deephub
2022-12-08
阅读 6 分钟
1k
一提到特征工程,我们立即想到是表格数据。但是我们也可以得到图像数据的特征,提取图像中最重要的方面。这样做可以更容易地找到数据和目标变量之间的映射。
7个有用的Pandas显示选项
deephub
2022-12-07
阅读 4 分钟
795
Pandas是一个在数据科学中常用的功能强大的Python库。它可以从各种来源加载和操作数据集。当使用Pandas时,默认选项就已经适合大多数人了。但是在某些情况下,我们可能希望更改所显示内容的格式。所以就需要使用Pandas的一些定制功能来帮助我们自定义内容的显示方式。
为机器学习模型设置最佳阈值:0.5是二元分类的最佳阈值吗
deephub
2022-12-06
阅读 7 分钟
1.2k
对于二元分类,分类器输出一个实值分数,然后通过对该值进行阈值的区分产生二元的相应。例如,逻辑回归输出一个概率(一个介于0.0和1.0之间的值);得分等于或高于0.5的观察结果产生正输出(许多其他模型默认使用0.5阈值)。
支持向量机核技巧:10个常用的核函数总结
deephub
2022-12-05
阅读 7 分钟
1.3k
支持向量机是一种监督学习技术,主要用于分类,也可用于回归。它的关键概念是算法搜索最佳的可用于基于标记数据(训练数据)对新数据点进行分类的超平面。
在本地PC运行 Stable Diffusion 2.0
deephub
2022-12-04
阅读 3 分钟
1.5k
Stable Diffusion 2.0在前几天已经发布了,新版本在上一个版本的基础上进行了许多改进。OpenCLIP中新的深度检测和更好的文本到图像模型是主要的改进之一。
多元时间序列特征工程的指南
deephub
2022-12-03
阅读 7 分钟
1.6k
使用Python根据汇总统计信息添加新特性,本文将告诉你如何计算几个时间序列中的滚动统计信息。将这些信息添加到解释变量中通常会获得更好的预测性能。
从头开始进行CUDA编程:原子指令和互斥锁
deephub
2022-12-02
阅读 17 分钟
1.1k
在前三部分中我们介绍了CUDA开发的大部分基础知识,例如启动内核来执行并行任务、利用共享内存来执行快速归并、将可重用逻辑封装为设备函数以及如何使用事件和流来组织和控制内核执行。
上一页
1
…
More
21
22
23
(current)
24
25
…
More
下一页
上一页
23
(current)
下一页