使用PyTorch实现混合专家(MoE)模型

1 月 10 日
阅读 9 分钟
212
Mixtral 8x7B 的推出在开放 AI 领域引发了广泛关注,特别是混合专家(Mixture-of-Experts:MoEs)这一概念被大家所认知。混合专家(MoE)概念是协作智能的象征,体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势,以提供更好的预测。它是围绕一个门控网络和一组专家网络构建的,每个专家网络都擅长特定任...

挑战Transformer的新架构Mamba解析以及Pytorch复现

1 月 9 日
阅读 17 分钟
605
今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”Mamba一直在人工智能界掀起波澜,被吹捧为Transformer的潜在竞争对手。到底是什么让Mamba在拥挤的序列建中脱颖而出?在介绍之前先简要回顾一下现有的模型Transformer:以其注意力机制而闻名,其中序列的任何部分都可以动态地与任何其他部分相互作...

使用知识图谱提高RAG的能力,减少大模型幻觉

1 月 8 日
阅读 6 分钟
223
在使用大型语言模型(llm)时,幻觉是一个常见的问题。LLM生成流畅连贯的文本,但往往生成不准确或不一致的信息。防止LLM产生幻觉的方法之一是使用提供事实信息的外部知识来源,如数据库或知识图谱。

使用PyTorch实现去噪扩散模型

1 月 7 日
阅读 17 分钟
124
VAE 采用了编码器、概率潜在空间和解码器。在训练过程中,编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进行采样,并将其传递到解码器中,其中输入的图像预计与输出的图像相似。这个过程包括使用KL Divergence来计算损失。VAEs的一个显著优势在于它们能够生成各种各样的图像。在采样阶段简单地从高斯分布中...

Python 中的==操作符 和 is关键字

1 月 6 日
阅读 2 分钟
169
Python是一种功能强大的通用编程语言,提供了各种比较值和对象的方法。其中包括==操作符和is关键字,它们的用途不同,但由于它们有时可以达到相同的目的,所以经常会被混淆。在本文中,我们将深入研究==和is之间的区别,探索它们如何工作以及何时适当地使用它们。

4种SVM主要核函数及相关参数的比较

1 月 5 日
阅读 7 分钟
310
支持向量机除了提供简单的线性分离之外,还可以通过应用不同的核方法进行非线性分类。参数设置也是SVM更好地工作的另一个重要因素。通过适当的选择,我们可以使用支持向量机来处理高维数据。

使用pytorch构建图卷积网络预测化学分子性质

1 月 4 日
阅读 16 分钟
276
在本文中,我们将通过化学的视角探索图卷积网络,我们将尝试将网络的特征与自然科学中的传统模型进行比较,并思考为什么它的工作效果要比传统的方法好。

如何避免LLM的“幻觉”(Hallucination)

1 月 3 日
阅读 9 分钟
214
生成式大语言模型(LLM)可以针对各种用户的 prompt 生成高度流畅的回复。然而,大模型倾向于产生幻觉或做出非事实陈述,这可能会损害用户的信任。

加速Python循环的12种方法,最高可以提速900倍

1 月 2 日
阅读 9 分钟
234
对于每种方法,我们通过运行测试来建立基线,该测试包括在10次测试运行中运行被测函数100K次(循环),然后计算每个循环的平均时间(以纳秒为单位,ns)。

Jupyter Notebook的10个常用扩展介绍

1 月 1 日
阅读 4 分钟
190
Jupyter Notebook(前身为IPython Notebook)是一种开源的交互式计算和数据可视化的工具,广泛用于数据科学、机器学习、科学研究和教育等领域。它提供了一个基于Web的界面,允许用户创建和共享文档,这些文档包含实时代码、方程、可视化和文本。

神经网络中的分位数回归和分位数损失

2023-12-31
阅读 4 分钟
5.5k
在使用机器学习构建预测模型时,我们不只是想知道“预测值(点预测)”,而是想知道“预测值落在某个范围内的可能性有多大(区间预测)”。例如当需要进行需求预测时,如果只储备最可能的需求预测量,那么缺货的概率非常的大。但是如果库存处于预测的第95个百分位数(需求有95%的可能性小于或等于该值),那么缺货数量会减少到大约...

使用LOTR合并检索提高RAG性能

2023-12-30
阅读 7 分钟
324
RAG结合了两个关键元素:检索和生成。它首先使用语义搜索等高级技术来浏览大量数据,包括文本、图像、音频和视频。RAG的本质在于它能够检索相关信息,然后作为下一阶段的基础。生成组件利用大型语言模型的能力,解释这些数据块,制作连贯的、类似人类的响应。与传统的生成模型相比,这个过程确保RAG系统可以提供更细致和...

基于CNN和双向gru的心跳分类系统

2023-12-29
阅读 2 分钟
212
CNN and Bidirectional GRU-Based Heartbeat Sound Classification Architecture for Elderly People是发布在2023 MDPI Mathematics上的论文,提出了基于卷积神经网络和双向门控循环单元(CNN + BiGRU)注意力的心跳声分类,论文不仅显示了模型还构建了完整的系统。

人工智能生成文本检测在实践中使用有效性探讨

2023-12-28
阅读 9 分钟
119
人工智能辅助撰写文章的技术现在无处不在!ChatGPT已经解锁了许多基于语言的人工智能应用程序,人工智能在任何类型的内容生成中的使用都已经达到了以前前所未有的高度。

一文读懂分类模型评估指标

2023-12-27
阅读 3 分钟
152
混淆矩阵是在分类问题中用于评估模型性能的表格,它展示了模型对样本的分类情况。混淆矩阵的行表示实际类别,列表示预测类别。对于二分类问题,混淆矩阵的结构如下:

处理不平衡数据的过采样技术对比总结

2023-12-26
阅读 6 分钟
199
在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类,忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。

2023年小型计算机视觉总结

2023-12-24
阅读 4 分钟
223
在过去的十年中,出现了许多涉及计算机视觉(CV)的项目,无论是小型的概念验证项目还是更大规模的生产应用。应用计算机视觉的方法是相当标准化的:

论文推荐:大型语言模型能自我解释吗?

2023-12-23
阅读 9 分钟
148
这篇论文的研究主要贡献是对LLM生成解释的优缺点进行了调查。详细介绍了两种方法,一种是做出预测,然后解释它,另一种是产生解释,然后用它来做出预测。

神经网络可视化新工具:TorchExplorer

2023-12-22
阅读 2 分钟
237
TorchExplorer是一款创新的人工智能工具,专为使用非常规神经网络架构的研究人员设计。可以在本地或者wandb中生成交互式Vega自定义图表,提供网络结构的模块级可视化。在左边的面板可以模块级方式展现神经网络架构,帮助研究人员导航网络结构。在右边的图中节点表示输入/输出占位符或在转发过程中调用的特定子模块,可以...

MLX vs MPS vs CUDA:苹果新机器学习框架的基准测试

2023-12-21
阅读 4 分钟
254
如果你是一个Mac用户和一个深度学习爱好者,你可能希望在某些时候Mac可以处理一些重型模型。苹果刚刚发布了MLX,一个在苹果芯片上高效运行机器学习模型的框架。

高维向量压缩方法IVFPQ :通过创建索引加速矢量搜索

2023-12-20
阅读 4 分钟
104
向量相似性搜索是从特定嵌入空间中的给定向量列表中找到相似的向量。它能有效地从大型数据集中检索相关信息,在各个领域和应用中发挥着至关重要的作用。

从头开始实现LoRA以及一些实用技巧

2023-12-19
阅读 14 分钟
406
LoRA是Low-Rank Adaptation或Low-Rank Adaptors的缩写,它提供了一种用于对预先存在的语言模型进行微调的高效且轻量级的方法。

2023年12月 论文推荐

2023-12-18
阅读 2 分钟
244
该研究介绍了Mamba,一种硬件感知并行算法,克服了Transformers 在语言处理任务中长序列的低效率。通过实现选择性状态空间,Mamba实现了快速推理、线性可伸缩性以及与大型transformer模型相比具有竞争力的性能。

使用LM Studio在本地运行LLM完整教程

2023-12-17
阅读 3 分钟
642
GPT-4被普遍认为是最好的生成式AI聊天机器人,但开源模型一直在变得越来越好,并且通过微调在某些特定领域是可以超过GPT4的。在开源类别中出于以下的原因,你可能会考虑过在本地计算机上本地运行LLM :

使用subplot_mosaic创建复杂的子图布局

2023-12-16
阅读 2 分钟
6.3k
在本文中,我将介绍matplotlib一个非常有价值的用于管理子图的函数——subplot_mosaic()。如果你想处理多个图的,那么subplot_mosaic()将成为最佳解决方案。我们将用四个不同的图实现不同的布局。

一种用于心音分类的轻量级1D-CNN+DWT网络

2023-12-15
阅读 2 分钟
205
这是由National Institute of Technology Rourkela, Central University of Rajasthan发布在2022 ICETCI的论文,利用离散小波变换(DWT)得到的多分辨率域特征对1D-CNN模型进行心音分类训练。

使用GAN进行异常检测

2023-12-14
阅读 7 分钟
168
自从基于Stable Diffusion的生成模型大火以后,基于GAN的研究越来越少了,但是这并不能说明他就没有用了。异常检测是多个研究领域面临的重要问题,包括金融、医疗保健和网络安全。检测和正确分类未见的异常是一个具有挑战性的问题,多年来已经以许多不同的方式解决了这个问题。而今天我们要介绍一种基于GAN的异常检测方...

AutoGen多代理对话项目示例和工作流程分析

2023-12-13
阅读 16 分钟
166
在这篇文章中,我将介绍AutoGen的多个代理的运行。这些代理将能够相互对话,协作评估股票价格,并使用AmCharts生成图表。我们创建对话的目的是要求代理分析特定公司的股票价格,并制作股票价格图表。为了实现这一目标,我们创建一下代理并协同工作:金融分析师:分析师的任务是获取股票价格数据,进行分析,然后将数据传...

CLIP的升级版Alpha-CLIP:区域感知创新与精细控制

2023-12-12
阅读 1 分钟
233
为了增强CLIP在图像理解和编辑方面的能力,上海交通大学、复旦大学、香港中文大学、上海人工智能实验室、澳门大学以及MThreads Inc.等知名机构共同合作推出了Alpha-CLIP。这一创新性的突破旨在克服CLIP的局限性,通过赋予其识别特定区域(由点、笔画或掩码定义)的能力。Alpha-CLIP不仅保留了CLIP的视觉识别能力,而且实...

使用PyTorch II的新特性加快LLM推理速度

2023-12-11
阅读 2 分钟
178
Pytorch团队提出了一种纯粹通过PyTorch新特性在的自下而上的优化LLM方法,包括:Torch.compile: PyTorch模型的编译器GPU量化:通过降低精度操作来加速模型推测解码:使用一个小的“草稿”模型来加速llm来预测一个大的“目标”模型的输出张量并行:通过在多个设备上运行模型来加速模型。我们来看看这些方法的性能比较:作为对比,...