deephub - SegmentFault 思否

文生图的基石CLIP模型的发展综述

3 月 22 日

阅读 4 分钟

812

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。

Moment:又一个开源的时间序列基础模型

deephub

3 月 21 日

阅读 2 分钟

422

但是由于缺乏大型且整合的公开时间序列数据，所以在时间序列数据上预训练大型模型具有挑战性。为了应对这些挑战，MOMENT团队整理了一个庞大而多样的公共时间序列集合，作者将其称为Time-series Pile。代码地址我们会在文章的最后贴出来。

多项式朴素贝叶斯分类器

deephub

3 月 20 日

阅读 14 分钟

583

与假设高斯分布的高斯朴素贝叶斯分类器相反，多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类的多项概率来“拟合”多项式分类器-使用平滑技巧来处理空特征。Multinomial Naive Bayes（多项式朴素贝叶斯）是一种常用的文本分类算法，特别适用于处理多类别分类问题，例如文档分类、垃圾邮件检测等。它是朴素贝叶...

在16G的GPU上微调Mixtral-8x7B

deephub

3 月 19 日

阅读 4 分钟

278

Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。

2024年3月的计算机视觉论文推荐

deephub

3 月 18 日

阅读 5 分钟

590

从去年开始，针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究，包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。

时间序列预测的零样本学习是未来还是炒作：TimeGPT和TiDE的综合比较

deephub

3 月 17 日

阅读 7 分钟

437

最近时间序列预测预测领域的最新进展受到了各个领域（包括文本、图像和语音）成功开发基础模型的影响，例如文本（如ChatGPT）、文本到图像（如Midjourney）和文本到语音（如Eleven Labs）。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现，这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。

微调大型语言模型进行命名实体识别

deephub

3 月 17 日

阅读 20 分钟

832

大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练，能够对输入的文本进行分析，并生成符合语法和语境的回复。这种模型可以用于各种任务，包括问答系统、对话机器人、文本生成、翻译等。

LoRA及其变体概述：LoRA, DoRA, AdaLoRA, Delta-LoRA

deephub

3 月 15 日

阅读 6 分钟

864

LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中，我们将解释LoRA本身的基本概念，然后介绍一些以不同的方式改进LoRA的功能的变体，包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。

MADQN：多代理合作强化学习

deephub

3 月 14 日

阅读 16 分钟

603

处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置...

2024年3月最新的深度学习论文推荐

deephub

3 月 13 日

阅读 3 分钟

896

学习速率为什么会迁移？本研究试图从理论上解释MuP超参数传递的成功之处。根据其创作者的说法，训练损失的Hessian矩阵的最大特征值不受网络深度或广度的影响。

傅里叶变换算法和Python代码实现

deephub

3 月 12 日

阅读 6 分钟

437

傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为 f̂，是由以下复值函数给出：同样地，对于一个复值函数...

从16-bit 到 1.58-bit ：大模型内存效率和准确性之间的最佳权衡

deephub

3 月 11 日

阅读 6 分钟

1.5k

通过量化可以减少大型语言模型的大小，但是量化是不准确的，因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度，而较小的llm则很难精确量化。

Nomic Embed：能够复现的SOTA开源嵌入模型

deephub

3 月 10 日

阅读 3 分钟

762

Nomic-embed-text是2月份刚发布的，并且是一个完全开源的英文文本嵌入模型，上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型，如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。

使用Tokeniser估算GPT和LLM服务的查询成本

deephub

3 月 9 日

阅读 2 分钟

343

将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本，而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢？Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。

StarCoder 2：GitHub Copilot本地开源LLM替代方案

deephub

3 月 8 日

阅读 5 分钟

947

GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力，而且正在永久性地改变数字原住民开发软件的方式，我也是它的付费用户之一。

RNN又行了！DeepMind新发布的Griffin可以与同级别的LLM性能相当

deephub

3 月 6 日

阅读 4 分钟

606

Hawk和Griffin是DeepMind推出的新型循环神经网络（RNNs），2月刚刚发布在arxiv上。Hawk通过使用门控线性递归（gated linear recurrences）超越了Mamba的性能，而Griffin则是一种混合型模型，结合了门控线性递归和局部注意力（local attention），与Llama-2的性能相当，但使用的训练数据明显较少。Griffin在处理比训练时...

使用纹理对比度检测检测AI生成的图像

deephub

3 月 5 日

阅读 3 分钟

461

大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法，或者取决于图像的性质/语义，其中模型只能检测人工智能生成的人、脸、汽车等特定对象。

Vision Transformers的注意力层概念解释和代码实现

deephub

3 月 4 日

阅读 10 分钟

718

2017年推出《Attention is All You Need》以来，transformers 已经成为自然语言处理(NLP)的最新技术。2021年，《An Image is Worth 16x16 Words》，成功地将transformers 用于计算机视觉任务。从那时起，许多基于transformers的计算机视觉体系结构被提出。

使用TensorRT-LLM进行生产环境的部署指南

deephub

3 月 3 日

阅读 12 分钟

589

TensorRT-LLM是一个由Nvidia设计的开源框架，用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图，并借鉴了许多 FastTransformer 中高效的 Kernels 实现，并且可以利用 NCCL 完成设备之间的通讯。

Pytorch中张量的高级选择操作

deephub

3 月 2 日

阅读 4 分钟

520

在某些情况下，我们需要用Pytorch做一些高级的索引/选择，所以在这篇文章中，我们将介绍这类任务的三种最常见的方法：torch.index_select, torch.gather and torch.take

可视化FAISS矢量空间并调整RAG参数提高结果精度

deephub

3 月 1 日

阅读 9 分钟

562

随着开源大型语言模型的性能不断提高，编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时，LLM通常会在未训练数据的相关的问题上有所欠缺，很多内部文件都保存在公司内部，以确保合规性、商业秘密或隐私。当查询这些文件时，会使得LLM产生幻觉，产生不相关、捏造或不一致的内容。

谷歌Gemma介绍、微调、量化和推理

deephub

2 月 29 日

阅读 7 分钟

842

谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸，2B和7B，并且提供了聊天的基本版和指令版。

2024年2月深度学习的论文推荐

deephub

2 月 28 日

阅读 3 分钟

1.4k

Searchformer是一个基于Transformer架构的人工智能模型，经过训练可以模拟A星寻路算法，在复杂的规划任务中实现更高的效率。它在Sokoban谜题中的表现优于A星，解决问题的准确率为93.7%，所需步骤减少26.8%。

PyTimeTK: 一个简单有效的时间序列分析库

deephub

2 月 27 日

阅读 2 分钟

1.1k

时间序列分析是数据科学的重要组成部分，特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点，以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法，我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ，它可以帮我们简化时间序列分析的很多...

选择最适合数据的嵌入模型：OpenAI 和开源多语言嵌入的对比测试

deephub

2 月 26 日

阅读 10 分钟

991

OpenAI最近发布了他们的新一代嵌入模型embedding v3，他们将其描述为性能最好的嵌入模型，具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small，较大且功能更强大的称为text- embeddings -3-large。

PHATGOOSE：使用LoRA Experts创建低成本混合专家模型实现零样本泛化

deephub

2 月 25 日

阅读 1 分钟

523

这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE)，这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法

20个改善编码的Python异常处理技巧，让你的代码更高效

deephub

2 月 24 日

阅读 5 分钟

826

异常处理是写好代码的一个重要的方面，虽然许多开发人员都熟悉基本的try-except块，但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧，这些技巧可以让你熟练的掌握Python的异常处理。

Mamba详细介绍和RNN、Transformer的架构可视化对比

deephub

2 月 23 日

阅读 11 分钟

Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm，人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba（一种状态空间模型）。

LiRank: LinkedIn在2月新发布的大规模在线排名模型

deephub

2 月 22 日

阅读 4 分钟

439

LiRank是LinkedIn在2月份刚刚发布的论文，它结合了最先进的建模架构和优化技术，包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法，并使用基于深度学习的探索/利用策略来优化模型，并且通过压缩技术，如量化和词表压缩，实现了高效部署。

深度学习在时间序列预测的总结和未来方向分析

deephub

2 月 21 日

阅读 5 分钟

2023年是大语言模型和稳定扩散的一年，时间序列领域虽然没有那么大的成就，但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer)的改进，还出现了将数值时间序列数据与文本和图像合成的新体系结构(CrossVIVIT)，也出现了直接...