处理不平衡数据的十大Python库

2023-09-29
阅读 2 分钟
308
数据不平衡是机器学习中一个常见的挑战,其中一个类的数量明显超过其他类,这可能导致有偏见的模型和较差的泛化。有各种Python库来帮助有效地处理不平衡数据。在本文中,我们将介绍用于处理机器学习中不平衡数据的十大Python库,并为每个库提供代码片段和解释。
封面图

使用高斯混合模型拆分多模态分布

2023-09-28
阅读 2 分钟
547
高斯混合模型(Gaussian Mixture Models,简称GMM)是一种在统计和机器学习领域中常用的概率模型,用于对复杂数据分布进行建模和分析。GMM 是一种生成模型,它假设观测数据是由多个高斯分布组合而成的,每个高斯分布称为一个分量,这些分量通过权重来控制其在数据中的贡献。

9月人工智能论文和项目推荐

2023-09-27
阅读 2 分钟
374
LoRA是人工智能中有效扩展预训练语言模型(llm)上下文大小的一种方法。LongLoRA通过在训练期间利用稀疏的局部注意力和在推理期间利用密集的全局注意力,允许进行经济有效的微调并保持性能。LongLoRA在各种任务上展示了令人印象深刻的结果,并在llm中支持多达10万个令牌的上下文扩展。

EfficientFormer:高效低延迟的Vision Transformers

2023-09-26
阅读 3 分钟
620
我们都知道Transformers相对于CNN的架构效率并不高,这导致在一些边缘设备进行推理时延迟会很高,所以这次介绍的论文EfficientFormer号称在准确率不降低的同时可以达到MobileNet的推理速度。

基于对数谱图的深度学习心音分类

2023-09-25
阅读 3 分钟
481
这是一篇很有意思的论文,他基于心音信号的对数谱图,提出了两种心率音分类模型,我们都知道:频谱图在语音识别上是广泛应用的,这篇论文将心音信号作为语音信号处理,并且得到了很好的效果。

快速找到离群值的三种方法

2023-09-24
阅读 3 分钟
724
离群值(Outliers)是指在数据集中与其他数据点明显不同或者异常的数据点。这些数据点可能比其他数据点要远离数据集的中心,或者具有异常的数值。离群值可能是由于数据采集错误、异常事件、测量误差或者其他未知因素引起的。
封面图

在Python中创建相关系数矩阵的6种方法

2023-09-23
阅读 5 分钟
889
相关系数矩阵(Correlation matrix)是数据分析的基本工具。它们让我们了解不同的变量是如何相互关联的。在Python中,有很多个方法可以计算相关系数矩阵,今天我们来对这些方法进行一个总结

使用QLoRA对Llama 2进行微调的详细笔记

2023-09-21
阅读 16 分钟
958
使用QLoRA对Llama 2进行微调是我们常用的一个方法,但是在微调时会遇到各种各样的问题,所以在本文中,将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的,大多数注释都是针对所涉及的开源库以及所使用的方法和类的问题。

ChatGPT可以取代搜索引擎吗?

2023-09-20
阅读 6 分钟
442
ChatGPT对于一些简单的问题,可以完美的完成任务。但是我让它写一篇完整的文章,看看它能否代替我进行写作地的时候,我确定它不能完全取代人类。

时间序列的重采样和pandas的resample方法介绍

2023-09-19
阅读 6 分钟
653
重采样是时间序列分析中处理时序数据的一项基本技术。它是关于将时间序列数据从一个频率转换到另一个频率,它可以更改数据的时间间隔,通过上采样增加粒度,或通过下采样减少粒度。在本文中,我们将深入研究Pandas中重新采样的关键问题。

Stability AI发布基于稳定扩散的音频生成模型Stable Audio

2023-09-18
阅读 1 分钟
413
近日Stability AI推出了一款名为Stable Audio的尖端生成模型,该模型可以根据用户提供的文本提示来创建音乐。在NVIDIA A100 GPU上Stable Audio可以在一秒钟内以44.1 kHz的采样率产生95秒的立体声音频,与原始录音相比,该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。

Python中进行特征重要性分析的9个常用方法

2023-09-16
阅读 6 分钟
685
特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征,它是机器学习中经常使用的一种方法。

Recognize Anything:一个强大的图像标记模型

2023-09-15
阅读 3 分钟
382
Recognize Anything是一种新的图像标记基础模型,与传统模型不同,它不依赖于手动注释进行训练;相反,它利用大规模的图像-文本对。RAM的开发过程包括四个关键阶段:

向量数据库简介和5个常用的开源项目介绍

2023-09-14
阅读 4 分钟
525
在人工智能领域,有大量的数据需要有效的处理。随着我们对人工智能应用,如图像识别、语音搜索或推荐引擎的深入研究,数据的性质变得更加复杂。这就是向量数据库发挥作用的地方。与存储标量值的传统数据库不同,向量数据库专门设计用于处理多维数据点(通常称为向量)。这些向量表示多个维度的数据,可以被认为是指向空间...

Llama-2 推理和微调的硬件要求总结:RTX 3080 就可以微调最小模型

2023-09-13
阅读 2 分钟
915
大语言模型微调是指对已经预训练的大型语言模型(例如Llama-2,Falcon等)进行额外的训练,以使其适应特定任务或领域的需求。微调通常需要大量的计算资源,但是通过量化和Lora等方法,我们也可以在消费级的GPU上来微调测试,但是消费级GPU也无法承载比较大的模型,经过我的测试,7B的模型可以在3080(8G)上跑起来,这对...
封面图

Falcon 180B 目前最强大的开源模型

2023-09-12
阅读 8 分钟
441
Technology Innovation Institute最近发布了Falcon 180B大型语言模型(LLM),它击败了Llama-2 70b,与谷歌Bard的基础模型PaLM-2 Large不相上下。

Langchain的一些问题和替代选择

2023-09-10
阅读 2 分钟
795
但是Langchain乍一看似乎是一个方便的工具,但是它有时候否更像是一个语言迷宫,而不是一个直截了当的解决方案。在本文中,我们将探讨与Langchain相关的一些问题,并考虑一些替代框架。

SplitMask:大规模数据集是自我监督预训练的必要条件吗?

2023-09-09
阅读 2 分钟
673
自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。

Nougat:一种用于科学文档OCR的Transformer 模型

2023-09-08
阅读 2 分钟
511
随着人工智能领域的不断进步,其子领域,包括自然语言处理,自然语言生成,计算机视觉等,由于其广泛的用例而迅速获得了大量的普及。光学字符识别(OCR)是计算机视觉中一个成熟且被广泛研究的领域。它有许多用途,如文档数字化、手写识别和场景文本识别。数学表达式的识别是OCR在学术研究中受到广泛关注的一个领域。

CMT:卷积与Transformers的高效结合

2023-09-07
阅读 4 分钟
516
论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕获远程依赖关系,利用cnn提取局部信息。构建了一系列模型cmt,它在准确性和效率方面有更好的权衡。

使用GPT-4生成训练数据微调GPT-3.5 RAG管道

2023-09-06
阅读 7 分钟
596
OpenAI在2023年8月22日宣布,现在可以对GPT-3.5 Turbo进行微调了。也就是说,我们可以自定义自己的模型了。然后LlamaIndex就发布了0.8.7版本,集成了微调OpenAI gpt-3.5 turbo的功能

Pandas DataFrame 数据存储格式比较

2023-09-05
阅读 3 分钟
648
Pandas 支持多种存储格式,在本文中将对不同类型存储格式下的Pandas Dataframe的读取速度、写入速度和大小的进行测试对比。创建测试Dataframe首先创建一个包含不同类型数据的测试Pandas Dataframe。 {代码...} 以不同的格式存储接下来创建测试函数,以不同的格式进行读写。 {代码...} 然后运行该函数并将结果存储在另一...

量化自定义PyTorch模型入门教程

2023-09-04
阅读 8 分钟
534
在以前Pytorch只有一种量化的方法,叫做“eager mode qunatization”,在量化我们自定定义模型时经常会产生奇怪的错误,并且很难解决。但是最近,PyTorch发布了一种称为“fx-graph-mode-qunatization”的方方法。在本文中我们将研究这个fx-graph-mode-qunatization”看看它能不能让我们的量化操作更容易,更稳定。

15个基本且常用Pandas代码片段

2023-09-03
阅读 4 分钟
1k
Pandas提供了强大的数据操作和分析功能,是数据科学的日常基本工具。在本文中,我们将介绍最常用的15个Pandas代码片段。这些片段将帮助简化数据分析任务,从数据集中提取有价值的见解。

20用于深度学习训练和研究的数据集

2023-09-02
阅读 4 分钟
759
数据集在计算机科学和数据科学中发挥着至关重要的作用。它们用于训练和评估机器学习模型,研究和开发新算法,改进数据质量,解决实际问题,推动科学研究,支持数据可视化,以及决策制定。数据集提供了丰富的信息,用于理解和应用数据,从而支持各种应用领域,包括医疗、金融、交通、社交媒体等。正确选择和处理数据集是...

Pandas 2.1发布了

2023-09-01
阅读 2 分钟
663
PyArrow是在Panda 2.0中新加入的后端,对于大数据来说提供了优于NumPy的性能。Pandas 2.1增强了对PyArrow的支持。官方在这次更新中使用最大的高亮字体宣布 PyArrow 将是 Pandas 3.0的基础依赖,这说明Panda 是认定了PyArrow了。
封面图

是否在业务中使用大语言模型?

2023-08-31
阅读 3 分钟
648
在这篇文章中我们将讨论上面这个问题并尝试解答为什么LLM对企业来说是一项伟大的投资,或者不是。是大炮打蚊子 还是 物尽其用?这就要看何时以及如何有效和高效地使用这个大模型了。

使用卷积操作实现因子分解机

2023-08-30
阅读 7 分钟
493
本文将介绍如何使用卷积操作实现因子分解机器。卷积网络因其局部性和权值共享的归纳偏差而在计算机视觉领域获得了广泛的成功和应用。卷积网络可以用来捕获形状的堆叠分类特征(B, num_cat, embedding_size)和形状的堆叠特征(B, num_features, embedding_size)之间的特征交互。

Fooocus:一个简单且功能强大的Stable Diffusion webUI

2023-08-29
阅读 3 分钟
963
Fooocus的创始人Lvmin Zhang(也是 ControlNet论文的作者)将这个项目描述为对“Stable Diffusion”和“ Midjourney”设计的重新设计。Fooocus就像是Midjourney的免费离线版本,但是它使用SDXL模型。或者说它将Stable Diffusion的出图过程做了非常好的优化,没有那么多繁琐的配置。

Dynamic ReLU:根据输入动态确定的ReLU

2023-08-28
阅读 2 分钟
549
这是我最近才看到的一篇论文,它提出了动态ReLU (Dynamic ReLU, DY-ReLU),可以将全局上下文编码为超函数,并相应地调整分段线性激活函数。与传统的ReLU相比,DY-ReLU的额外计算成本可以忽略不计,但表示能力明显增强,并且实现简单,所以可以非常简单的对我们现有的模型进行修改。