LSTM-CRF模型详解和Pytorch代码实现

2023-10-19
阅读 29 分钟
339
在快速发展的自然语言处理领域,Transformers 已经成为主导模型,在广泛的序列建模任务中表现出卓越的性能,包括词性标记、命名实体识别和分块。在Transformers之前,条件随机场(CRFs)是序列建模的首选工具,特别是线性链CRFs,它将序列建模为有向图,而CRFs更普遍地可以用于任意图。

TSMixer:谷歌发布的用于时间序列预测的全新全mlp架构

2023-10-18
阅读 4 分钟
301
这是谷歌在9月最近发布的一种新的架构 TSMixer: An all-MLP architecture for time series forecasting ,TSMixer是一种先进的多元模型,利用线性模型特征,在长期预测基准上表现良好。据我们所知,TSMixer是第一个在长期预测基准上表现与最先进的单变量模型一样好的多变量模型,在长期预测基准上,表明交叉变量信息不太...

使用Pytorch实现频谱归一化生成对抗网络(SN-GAN)

2023-10-17
阅读 9 分钟
496
自从扩散模型发布以来,GAN的关注度和论文是越来越少了,但是它们里面的一些思路还是值得我们了解和学习。所以本文我们来使用Pytorch 来实现SN-GAN

使用轮廓分数提升时间序列聚类的表现

2023-10-16
阅读 12 分钟
77
我们将使用轮廓分数和一些距离指标来执行时间序列聚类实验,并且进行可视化让我们看看下面的时间序列:如果沿着y轴移动序列添加随机噪声,并随机化这些序列,那么它们几乎无法分辨,如下图所示-现在很难将时间序列列分组为簇:上面的图表是使用以下脚本创建的: {代码...} 现在我们需要确定聚类的基础。这里有两种方法:把接...

9月大型语言模型研究论文总结

2023-10-15
阅读 7 分钟
371
大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。

向量化操作简介和Pandas、Numpy示例

2023-10-14
阅读 4 分钟
391
Pandas是一种流行的用于数据操作的Python库,它提供了一种称为“向量化”的强大技术可以有效地将操作应用于整个列或数据系列,从而消除了显式循环的需要。在本文中,我们将探讨什么是向量化,以及它如何简化数据分析任务。

TimesNet:时间序列预测的最新模型

2023-10-13
阅读 5 分钟
580
2020年发布的N-BEATS、2022年发布的N-HiTS和2023年3月发布的PatchTST开始。N-BEATS和N-HiTS依赖于多层感知器架构,而PatchTST利用了Transformer架构。

GPU 虚拟化技术MIG简介和安装使用教程

2023-10-11
阅读 4 分钟
259
使用多实例GPU (MIG/Multi-Instance GPU)可以将强大的显卡分成更小的部分,每个部分都有自己的工作,这样单张显卡可以同时运行不同的任务。本文将对其进行简单介绍并且提供安装和使用的示例。

常用的相似度度量总结:余弦相似度,点积,L1,L2

2023-10-10
阅读 3 分钟
417
相似性度量在机器学习中起着至关重要的作用。这些度量以数学方式量化对象、数据点或向量之间的相似性。理解向量空间中的相似性概念并采用适当的度量是解决广泛的现实世界问题的基础。本文将介绍几种常用的用来计算两个向量在嵌入空间中的接近程度的相似性度量。

三个主要降维技术对比介绍:PCA, LCA,SVD

2023-10-09
阅读 9 分钟
297
随着数据集的规模和复杂性的增长,特征或维度的数量往往变得难以处理,导致计算需求增加,潜在的过拟合和模型可解释性降低。降维技术提供了一种补救方法,它捕获数据中的基本信息,同时丢弃冗余或信息较少的特征。这个过程不仅简化了计算任务,还有助于可视化数据趋势,减轻维度诅咒的风险,并提高机器学习模型的泛化性...

XGBoost 2.0:对基于树的方法进行了重大更新

2023-10-08
阅读 5 分钟
329
XGBoost是处理不同类型表格数据的最著名的算法,LightGBM 和Catboost也是为了修改他的缺陷而发布的。9月12日XGBoost发布了新的2.0版,本文除了介绍让XGBoost的完整历史以外,还将介绍新机制和更新。

从GPU的内存访问视角对比NHWC和NCHW

2023-10-07
阅读 3 分钟
290
NHWC和NCHW是卷积神经网络(cnn)中广泛使用的数据格式。它们决定了多维数据,如图像、点云或特征图如何存储在内存中。NHWC(样本数,高度,宽度,通道):这种格式存储数据通道在最后,是TensorFlow的默认格式。NCHW(样本数,通道,高度,宽度):通道位于高度和宽度尺寸之前,经常与PyTorch一起使用。NHWC和NCHW之间的选择会...

LongLoRA:不需要大量计算资源的情况下增强了预训练语言模型的上下文能力

2023-09-30
阅读 2 分钟
333
麻省理工学院和香港中文大学推出了LongLoRA,这是一种革命性的微调方法,可以在不需要大量计算资源的情况下提高大量预训练语言模型的上下文能力。

处理不平衡数据的十大Python库

2023-09-29
阅读 2 分钟
292
数据不平衡是机器学习中一个常见的挑战,其中一个类的数量明显超过其他类,这可能导致有偏见的模型和较差的泛化。有各种Python库来帮助有效地处理不平衡数据。在本文中,我们将介绍用于处理机器学习中不平衡数据的十大Python库,并为每个库提供代码片段和解释。
封面图

使用高斯混合模型拆分多模态分布

2023-09-28
阅读 2 分钟
518
高斯混合模型(Gaussian Mixture Models,简称GMM)是一种在统计和机器学习领域中常用的概率模型,用于对复杂数据分布进行建模和分析。GMM 是一种生成模型,它假设观测数据是由多个高斯分布组合而成的,每个高斯分布称为一个分量,这些分量通过权重来控制其在数据中的贡献。

9月人工智能论文和项目推荐

2023-09-27
阅读 2 分钟
367
LoRA是人工智能中有效扩展预训练语言模型(llm)上下文大小的一种方法。LongLoRA通过在训练期间利用稀疏的局部注意力和在推理期间利用密集的全局注意力,允许进行经济有效的微调并保持性能。LongLoRA在各种任务上展示了令人印象深刻的结果,并在llm中支持多达10万个令牌的上下文扩展。

EfficientFormer:高效低延迟的Vision Transformers

2023-09-26
阅读 3 分钟
602
我们都知道Transformers相对于CNN的架构效率并不高,这导致在一些边缘设备进行推理时延迟会很高,所以这次介绍的论文EfficientFormer号称在准确率不降低的同时可以达到MobileNet的推理速度。

基于对数谱图的深度学习心音分类

2023-09-25
阅读 3 分钟
464
这是一篇很有意思的论文,他基于心音信号的对数谱图,提出了两种心率音分类模型,我们都知道:频谱图在语音识别上是广泛应用的,这篇论文将心音信号作为语音信号处理,并且得到了很好的效果。

快速找到离群值的三种方法

2023-09-24
阅读 3 分钟
702
离群值(Outliers)是指在数据集中与其他数据点明显不同或者异常的数据点。这些数据点可能比其他数据点要远离数据集的中心,或者具有异常的数值。离群值可能是由于数据采集错误、异常事件、测量误差或者其他未知因素引起的。
封面图

在Python中创建相关系数矩阵的6种方法

2023-09-23
阅读 5 分钟
875
相关系数矩阵(Correlation matrix)是数据分析的基本工具。它们让我们了解不同的变量是如何相互关联的。在Python中,有很多个方法可以计算相关系数矩阵,今天我们来对这些方法进行一个总结

使用QLoRA对Llama 2进行微调的详细笔记

2023-09-21
阅读 16 分钟
933
使用QLoRA对Llama 2进行微调是我们常用的一个方法,但是在微调时会遇到各种各样的问题,所以在本文中,将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的,大多数注释都是针对所涉及的开源库以及所使用的方法和类的问题。

ChatGPT可以取代搜索引擎吗?

2023-09-20
阅读 6 分钟
440
ChatGPT对于一些简单的问题,可以完美的完成任务。但是我让它写一篇完整的文章,看看它能否代替我进行写作地的时候,我确定它不能完全取代人类。

时间序列的重采样和pandas的resample方法介绍

2023-09-19
阅读 6 分钟
645
重采样是时间序列分析中处理时序数据的一项基本技术。它是关于将时间序列数据从一个频率转换到另一个频率,它可以更改数据的时间间隔,通过上采样增加粒度,或通过下采样减少粒度。在本文中,我们将深入研究Pandas中重新采样的关键问题。

Stability AI发布基于稳定扩散的音频生成模型Stable Audio

2023-09-18
阅读 1 分钟
399
近日Stability AI推出了一款名为Stable Audio的尖端生成模型,该模型可以根据用户提供的文本提示来创建音乐。在NVIDIA A100 GPU上Stable Audio可以在一秒钟内以44.1 kHz的采样率产生95秒的立体声音频,与原始录音相比,该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。

Python中进行特征重要性分析的9个常用方法

2023-09-16
阅读 6 分钟
648
特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征,它是机器学习中经常使用的一种方法。

Recognize Anything:一个强大的图像标记模型

2023-09-15
阅读 3 分钟
365
Recognize Anything是一种新的图像标记基础模型,与传统模型不同,它不依赖于手动注释进行训练;相反,它利用大规模的图像-文本对。RAM的开发过程包括四个关键阶段:

向量数据库简介和5个常用的开源项目介绍

2023-09-14
阅读 4 分钟
501
在人工智能领域,有大量的数据需要有效的处理。随着我们对人工智能应用,如图像识别、语音搜索或推荐引擎的深入研究,数据的性质变得更加复杂。这就是向量数据库发挥作用的地方。与存储标量值的传统数据库不同,向量数据库专门设计用于处理多维数据点(通常称为向量)。这些向量表示多个维度的数据,可以被认为是指向空间...

Llama-2 推理和微调的硬件要求总结:RTX 3080 就可以微调最小模型

2023-09-13
阅读 2 分钟
828
大语言模型微调是指对已经预训练的大型语言模型(例如Llama-2,Falcon等)进行额外的训练,以使其适应特定任务或领域的需求。微调通常需要大量的计算资源,但是通过量化和Lora等方法,我们也可以在消费级的GPU上来微调测试,但是消费级GPU也无法承载比较大的模型,经过我的测试,7B的模型可以在3080(8G)上跑起来,这对...
封面图

Falcon 180B 目前最强大的开源模型

2023-09-12
阅读 8 分钟
439
Technology Innovation Institute最近发布了Falcon 180B大型语言模型(LLM),它击败了Llama-2 70b,与谷歌Bard的基础模型PaLM-2 Large不相上下。

Langchain的一些问题和替代选择

2023-09-10
阅读 2 分钟
781
但是Langchain乍一看似乎是一个方便的工具,但是它有时候否更像是一个语言迷宫,而不是一个直截了当的解决方案。在本文中,我们将探讨与Langchain相关的一些问题,并考虑一些替代框架。