视频生成领域的发展概述:从多级扩散到LLM

2 月 20 日
阅读 8 分钟
1.9k
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。

4张图片就可以微调扩散模型

2 月 19 日
阅读 9 分钟
1.1k
稳定扩散模型因其从文本描述生成高质量、多样化图像的能力而获得了极大的关注。但是这些预训练模型在生成高度定制或个性化主题的图像时可能会有所不足。

自然语言生成任务中的5种采样方法介绍和Pytorch代码实现

2 月 18 日
阅读 6 分钟
1.1k
Greedy Decoding在每个时间步选择当前条件概率最高的词语作为输出,直到生成结束。在贪婪解码中,生成模型根据输入序列,逐个时间步地预测输出序列中的每个词语。在每个时间步,模型根据当前的隐藏状态和已生成的部分序列计算每个词语的条件概率分布,模型选择具有最高条件概率的词语作为当前时间步的输出。这个词语成为...

机器学习中7种常用的线性降维技术总结

2 月 17 日
阅读 5 分钟
1.1k
Principal Component Analysis (PCA) 是一种常用的降维技术,用于将高维数据集转换为低维表示,同时保留数据集的主要特征。PCA 的目标是通过找到数据中最大方差的方向(主成分),将数据投影到这些方向上,从而实现降维。

机器学习中的10种非线性降维技术对比总结

2 月 16 日
阅读 8 分钟
966
非线性方法提供了一种执行非线性降维(NLDR)的方法。我们经常使用NLDR来发现原始数据的非线性结构。当原始数据不可线性分离时,NLDR很有用。在某些情况下,非线性降维也被称为流形学习。

Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试

2 月 15 日
阅读 6 分钟
913
2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。

使用MICE进行缺失值的填充处理

2 月 14 日
阅读 3 分钟
2.1k
在我们进行机器学习时,处理缺失数据是非常重要的,因为缺失数据可能会导致分析结果不准确,严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤,有助于确保分析结果的可信度和可解释性。

使用LORA微调RoBERTa

2 月 13 日
阅读 6 分钟
1k
模型微调是指在一个已经训练好的模型的基础上,针对特定任务或者特定数据集进行再次训练以提高性能的过程。微调可以在使其适应特定任务时产生显着的结果。

使用PyOD进行异常值检测

2 月 12 日
阅读 4 分钟
1.2k
异常值检测各个领域的关键任务之一。PyOD是Python Outlier Detection的缩写,可以简化多变量数据集中识别异常值的过程。在本文中,我们将介绍PyOD包,并通过实际给出详细的代码示例

使用UMAP降维可视化RAG嵌入

2 月 11 日
阅读 6 分钟
619
大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论的方式。

2024年应该关注的十大人工智能创新

2 月 10 日
阅读 2 分钟
510
人工智能(AI)不再只是一个流行词,它已成为我们日常生活的重要组成部分。人工智能在去年深入地融入我们社会的各个方面,改变我们的生活方式、工作方式以及与技术互动的方式。

从模型到前端,你应该知道的LLM生态系统指南

2 月 9 日
阅读 2 分钟
658
大型语言模型(llm)是人工智能应用程序背后的原材料。这些模型最初被预先训练来预测句子中的下一个单词。这种“不那么明显”的特性是,人们可以进行微调来让下游的程序以遵循指示,下游的任务可能是是回答问题、进行对话和推理。

Python进行AI声音克隆的端到端指南

2 月 8 日
阅读 8 分钟
1k
人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

2 月 7 日
阅读 5 分钟
722
视觉和语言模型的交叉导致了人工智能的变革性进步,使应用程序能够以类似于人类感知的方式理解和解释世界。大型视觉语言模型(LVLMs)在图像识别、视觉问题回答和多模态交互方面提供了无与伦比的能力。

NLP中的嵌入和距离度量

2 月 6 日
阅读 5 分钟
586
本文将深入研究嵌入、矢量数据库和各种距离度量的概念,并提供示例和演示代码。NLP中的嵌入嵌入是连续向量空间中对象、单词或实体的数值表示。在NLP中,词嵌入捕获词之间的语义关系,使算法能够更好地理解文本的上下文和含义。让我们试着用一个例子和一些可视化的方法来理解它:假设有6个句子,想要创建嵌入 {代码...} ...

PyTorch的10个基本张量操作

2 月 5 日
阅读 4 分钟
526
PyTorch是一个基于python的科学计算包。它的灵活性允许轻松集成新的数据类型和算法,并且框架也是高效和可扩展的,下面我们将介绍一些Pytorch的基本张量操作。

12个RAG常见痛点及解决方案

2 月 3 日
阅读 14 分钟
2k
Barnett等人的论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》介绍了RAG的七个痛点,我们将其延申扩展再补充开发RAG流程中常遇到的另外五个常见问题。并且将深入研究这些RAG痛点的解决方案,这样我们能够更好地在日常的RAG开发中避免和解决这些痛点。

10个Pandas的高级技巧

2 月 2 日
阅读 7 分钟
639
Pandas是我们最常用的数据处理Python库之一。尽管您可能已经与它共事多年,但可能还有许多您尚未探索的实用方法。我将向您展示一些可能未曾听说但在数据整理方面非常实用的方法。
封面图

UniMS-RAG:用于个性化对话的统一多源RAG框架

2 月 1 日
阅读 2 分钟
539
大型语言模型(llm)在自然语言任务中表现出色,但在对话系统中的个性化和上下文方面面临挑战。这个研究提出了一个统一的多源检索-增强生成系统(UniMS-RAG),通过将任务分解为知识来源选择、知识检索和响应生成来解决个性化问题。

Langchain中改进RAG能力的3种常用的扩展查询方法

1 月 31 日
阅读 9 分钟
433
Take A Step Back: Evoking Reasoning Via Abstraction In Large Language Models

论文推荐:大语言模型在金融领域的应用调查

1 月 30 日
阅读 2 分钟
472
这篇论文总结了现有LLM在金融领域的应用现状,推荐和金融相关或者有兴趣的朋友都看看论文分为2大部分:1、作者概述了使用llm的现有方法包括使用零样本或少样本的预训练模型,对特定于领域的数据进行微调,还有从头开始训练定制llm,并给出了关键模型的总结与评价。2、根据给定的用例、数据约束、计算和性能需求,提出决...

使用核模型高斯过程(KMGPs)进行数据建模

1 月 29 日
阅读 3 分钟
634
核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。

2024年1月的论文推荐

1 月 28 日
阅读 3 分钟
561
一种用于快速预训练的双向编码器。MosaicBERT是针对快速预训练优化的自定义BERT架构。主要架构修改:FlashAttention, ALiBi,门控线性单元和低精度的LayerNorm。

使用Transformer 模型进行时间序列预测的Pytorch代码示例

1 月 27 日
阅读 11 分钟
3k
时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。

使用mergekit 合并大型语言模型

1 月 26 日
阅读 4 分钟
744
假设我们有几个模型:一个擅长解决数学问题,另一个擅长编写代码。在两种模型之间切换是一个很麻烦的问题,但是我们可以将它们组合起来,利用两者的优点。而且这种组合的方法可以不需要GPU来完成。

Mistral AI vs. Meta:顶级开源LLM比较

1 月 25 日
阅读 10 分钟
677
为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。

通过4个任务比较LangChain和LlamaIndex

1 月 24 日
阅读 10 分钟
2k
我们在本地使用大模型的时候,尤其是构建RAG应用的时候,一般会有2个成熟的框架可以使用LangChain:用开发LLM的通用框架。LlamaIndex:专门用于构建RAG系统的框架。选择一个框架是对于项目的后续开发是非常重要的,因为如果后续更换框架是一个非常困难的事情,所以我们这里对这两个框架做一个简单的对比,这样对于选择会...

Vision Mamba:将Mamba应用于计算机视觉任务的新模型

1 月 23 日
阅读 2 分钟
1k
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”

针对特定领域较小的语言模型是否与较大的模型同样有效?

1 月 22 日
阅读 2 分钟
247
经过2023年的发展,大语言模型展示出了非常大的潜力,训练越来越大的模型成为有效性评估的一个关键指标,论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中,作者全面分析了微调大语言模型(llm)及其在金融情绪分析中的零样本和少样本的能力。

2024年1月论文推荐

1 月 21 日
阅读 2 分钟
248
Mistral开发的Mixtral 8x7B模型集成了一个Sparse mix -of- experts (SMoE)架构,在每层中有8个专门的块,通过路由为每个标记令牌选择两个专家来进行专门处理。但它总共访问470亿个参数,但是令牌在每个时间步只与两个专家交互,所以在推理期间主动使用参数为130亿个。