deephub - SegmentFault 思否

今年大语言模型的快速发展导致像BERT这样的模型都可以称作“小”模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta，这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中，大语言模型并不一定就是最优的解决方案，“小”模型也有一定的用武之地，所以今天我们来介绍PubMedBERT，它使用特定领域语料...

使用skforecast进行时间序列预测

deephub

2023-11-26

阅读 5 分钟

633

时间序列预测是数据科学和商业分析中基于历史数据预测未来价值的一项重要技术。它有着广泛的应用，从需求规划、销售预测到计量经济分析。由于Python的多功能性和专业库的可用性，它已经成为一种流行的预测编程语言。其中一个为时间序列预测任务量身定制的库是skforecast。

LLMLingua:集成LlamaIndex，对提示进行压缩，提供大语言模型的高效推理

deephub

2023-11-25

阅读 6 分钟

951

大型语言模型(llm)的出现刺激了多个领域的创新。但是在思维链(CoT)提示和情境学习(ICL)等策略的驱动下，提示的复杂性不断增加，这给计算带来了挑战。这些冗长的提示需要大量的资源来进行推理，因此需要高效的解决方案，本文将介绍LLMLingua与专有的LlamaIndex的进行集成执行高效推理。

6个常用的聚类评价指标

deephub

2023-11-24

阅读 14 分钟

2.4k

评估聚类结果的有效性，即聚类评估或验证，对于聚类应用程序的成功至关重要。它可以确保聚类算法在数据中识别出有意义的聚类，还可以用来确定哪种聚类算法最适合特定的数据集和任务，并调优这些算法的超参数(例如k-means中的聚类数量，或DBSCAN中的密度参数)。

斯坦福大学引入FlashFFTConv来优化机器学习中长序列的FFT卷积

deephub

2023-11-23

阅读 2 分钟

500

斯坦福大学的FlashFFTConv优化了扩展序列的快速傅里叶变换(FFT)卷积。该方法引入Monarch分解，在FLOP和I/O成本之间取得平衡，提高模型质量和效率。并且优于PyTorch和FlashAttention-v2。它可以处理更长的序列，并在人工智能应用程序中打开新的可能性。

使用ExLlamaV2量化并运行EXL2模型

deephub

2023-11-22

阅读 3 分钟

712

量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中，GPTQ在gpu上提供了惊人的性能。与非量化模型相比，该方法使用的VRAM几乎减少了3倍，同时提供了相似的精度水平和更快的生成速度。

对OpenAI CEO奥特曼突然被解雇事件的一些分析

deephub

2023-11-21

阅读 3 分钟

1.7k

今天也来凑个热闹，说说OpenAI的事。本来不想写的，但是看到自媒体又开始胡说八道，所以根据我自己得到的消息和理解说一说我的看法，这篇文章要是有个小姐姐解说录成视频，那肯定火了，但是我现在没资源，人也懒，所以就直接码字吧。

Chain-Of-Note：解决噪声数据、不相关文档和域外场景来改进RAG的表现

deephub

2023-11-20

阅读 2 分钟

624

CoN要点CoN框架由三种不同的类型组成，研究称之为阅读笔记。上面的图像，类型(A)显示了检索到的数据或文档回答查询的位置。LLM仅使用NLG从提供的数据中格式化答案。类型(B)中，检索到的文档不直接回答查询，但是上下文洞察足以使LLM将检索到的文档与它自己的知识结合起来，从而推断出答案。类型(C)是指检索到的文档是不...

使用FP8加速PyTorch训练

deephub

2023-11-17

阅读 6 分钟

898

现代的人工智能硬件架构(例如，Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中，FP8张量内核能够显著提高每秒浮点运算(FLOPS)，以及为人工智能训练和推理工作负载提供内存优化和节能的机会。

大语言模型量化方法对比：GPTQ、GGUF、AWQ

deephub

2023-11-16

阅读 6 分钟

3.3k

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

sMLP:稀疏全mlp进行高效语言建模

deephub

2023-11-15

阅读 2 分钟

672

具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明，所有mlp都可以在语言建模方面与transformer相匹配，但在下游任务方面仍然落后。所以论文提出了sMLP，通过设计确定性路由和部分预测来解决下游任务方面的问题。

神经网络中的量化与蒸馏

deephub

2023-11-14

阅读 3 分钟

763

深度学习模型，特别是那些具有大量参数的模型，在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术，量化和蒸馏，它们都是可以使模型更加轻量级，而不会对性能造成太大影响。但是它们需要什么，它们又如何比较呢?

无监督学习的集成方法：相似性矩阵的聚类

deephub

2023-11-13

阅读 7 分钟

597

这种类型的方法已经在监督学习领域得到了广泛的研究和应用，特别是在分类问题上，像RandomForest这样非常成功的算法。通常应用一些投票/加权系统，将每个单独模型的输出组合成最终的、更健壮的和一致的输出。

XoT：一种新的大语言模型的提示技术

deephub

2023-11-12

阅读 3 分钟

612

这是微软在11月最新发布的一篇论文，题为“Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation”，介绍了一种名为XOT的提示技术，它增强了像GPT-3和GPT-4这样的大型语言模型(llm)解决复杂问题的潜力。

LoRAShear:微软在LLM修剪和知识恢复方面的最新研究

deephub

2023-11-11

阅读 2 分钟

646

LHSPG技术（ Lora Half-Space Projected Gradient）支持渐进式结构化剪枝和动态知识恢复。可以通过依赖图分析和稀疏度优化应用于各种llm。

线性回归，核技巧和线性核

deephub

2023-11-10

阅读 6 分钟

768

在这篇文章中，我想展示一个有趣的结果：线性回归与无正则化的线性核ridge回归是等价的。这里实际上涉及到很多概念和技术，所以我们将逐一介绍，最后用它们来解释这个说法。首先我们回顾经典的线性回归。然后我将解释什么是核函数和线性核函数，最后我们将给出上面表述的数学证明。线性回归经典的-普通最小二乘或OLS-线...

使用递归图 recurrence plot 表征时间序列

deephub

2023-11-09

阅读 6 分钟

在本文中，我将展示如何使用递归图 Recurrence Plots 来描述不同类型的时间序列。我们将查看具有500个数据点的各种模拟时间序列。我们可以通过可视化时间序列的递归图并将其与其他已知的不同时间序列的递归图进行比较，从而直观地表征时间序列。

使用Streamlit创建AutoGen用户界面

deephub

2023-11-08

阅读 5 分钟

812

AutoGen作为一个最大化LLM(如GPT-4)能力的框架而脱颖而出。由微软研究院开发的AutoGen通过提供一种自动化、优化和编排工作流的方法，简化了复杂的、基于多代理llm的应用程序的创建。我们在以前的文章中也有过介绍，你可以与许多GPT交谈，并且GPT和GPT之间也可以互相交谈。每个GPT都是它自己的“代理”，并在总体业务流程中...

使用Python从零实现多分类SVM

deephub

2023-11-07

阅读 10 分钟

1.2k

本文将首先简要概述支持向量机及其训练和推理方程，然后将其转换为代码以开发支持向量机模型。之后然后将其扩展成多分类的场景，并通过使用Sci-kit Learn测试我们的模型来结束。

使用蒙特卡罗模拟的投资组合优化

deephub

2023-11-06

阅读 6 分钟

1.2k

在金融市场中，优化投资组合对于实现风险与回报之间的预期平衡至关重要。蒙特卡罗模拟提供了一个强大的工具来评估不同的资产配置策略及其在不确定市场条件下的潜在结果。

Spectron: 谷歌的新模型将语音识别与语言模型结合进行端到端的训练

deephub

2023-11-05

阅读 1 分钟

595

Spectron是谷歌Research和Verily AI开发的新的模型。与传统的语言模型不同，Spectron直接处理频谱图作为输入和输出。该模型消除归纳偏差，增强表征保真度，提高音频生成质量。

使用LIME解释各种机器学习模型代码示例

deephub

2023-11-04

阅读 5 分钟

2.8k

机器学习模型变得越来越复杂和准确，但它们的不透明性仍然是一个重大挑战。理解为什么一个模型会做出特定的预测，对于建立信任和确保它按照预期行事至关重要。在本文中，我们将介绍LIME，并使用它来解释各种常见的模型。

10月发布的5篇人工智能论文推荐

deephub

2023-11-03

阅读 3 分钟

518

由于现有基准和指标的限制，在开放式环境中评估大型语言模型(llm)是一项具有挑战性的任务。为了克服这一挑战，本文引入了微调llm作为可扩展“法官”的概念，称为JudgeLM，这样可以在开放式基准场景中有效地评估llm。该方法结合了大量高质量的法官模型数据集，包括不同的种子任务、LLM生成的响应和GPT-4的详细判断，从而为L...

数据抽样技术全面概述

deephub

2023-11-02

阅读 3 分钟

598

抽样是研究和数据收集中不可或缺的方法，能够从更大数据中获得有意义的见解并做出明智的决定的子集。不同的研究领域采用了不同的抽样技术，每种技术都有其独特的优点和局限性。本文将深入探讨了最常见的抽样技术，包括随机抽样、分层抽样、系统抽样、聚类抽样和便利抽样，并重点介绍了它们的应用和注意事项。

AutoGen完整教程和加载本地LLM示例

deephub

2023-11-01

阅读 4 分钟

2.9k

Autogen是一个卓越的人工智能系统，它可以创建多个人工智能代理，这些代理能够协作完成任务，包括自动生成代码，并有效地执行任务。在本文中，我们将深入探讨Autogen，并介绍如何让AutoGen使用本地的LLMAutoGenAutogen能够设置多个人工智能代理，它们协同工作以实现特定目标。以下截图来自微软官方博客使用conda创建环境...