SF
deephub
deephub
注册登录
关注博客
注册登录
主页
关于
RSS
知识图谱入门:使用Python创建知识图,分析并训练嵌入模型
deephub
2023-08-20
阅读 8 分钟
2k
接下来,创建一个NetworkX图(G)来表示KG。DataFrame (df)中的每一行都对应于KG中的三元组(头、关系、尾)。add_edge函数在头部和尾部实体之间添加边,关系作为标签。
Google开源了可视化编程框架Visual Blocks for ML
deephub
2023-08-19
阅读 3 分钟
1.5k
Visual Blocks for ML是一个由Google开发的开源可视化编程框架。它使你能够在易于使用的无代码图形编辑器中创建ML管道。
马修斯相关系数MCC简介
deephub
2023-08-18
阅读 2 分钟
1.2k
在这种情况下,数据集代表了一种罕见疾病的医学测试,只有少量正例。混淆矩阵表明该模型具有高的真反例(TN)率,但具有低的真正例(TP)率。以下是精确度、召回率和F1分数的计算结果:
Prompt、RAG、微调还是重新训练?如何选择正确的生成式AI的使用方法
deephub
2023-08-16
阅读 3 分钟
1.9k
生成式人工智能正在快速发展,许多人正在尝试使用这项技术来解决他们的业务问题。一般情况下有4种常见的使用方法:Prompt EngineeringRetrieval Augmented Generation (RAG 检索增强生成)微调从头开始训练基础模型(FM)本文将试图根据一些常见的可量化指标,为选择正确的生成式人工智能方法提供建议。本文不包括“使用原模...
使用Pandas进行数据清理的入门示例
deephub
2023-08-15
阅读 6 分钟
1.3k
数据清理是数据分析过程中的关键步骤,它涉及识别缺失值、重复行、异常值和不正确的数据类型。获得干净可靠的数据对于准确的分析和建模非常重要。本文将介绍以下6个经常使用的数据清理操作:检查缺失值、检查重复行、处理离群值、检查所有列的数据类型、删除不必要的列、数据不一致处理第一步,让我们导入库和数据集。 {...
时间序列去趋势化和傅里叶变换
deephub
2023-08-14
阅读 5 分钟
1.9k
在计算傅里叶变换之前对信号去趋势是一种常见的做法,特别是在处理时间序列时。在这篇文章中,我将从数学和视觉上展示信号去趋势是如何影响傅里叶变换的。
使用LSH 进行特征提取
deephub
2023-08-13
阅读 3 分钟
750
局部敏感哈希(LSH)通常用于近似最近邻算法(ANN) 操作(向量搜索)。LSH的特性也可以在以矢量为输入的神经网络模型中得到利用(例如,各种的音频、视频和文本嵌入等内容信号)。
基于时态差分法的强化学习:Sarsa和Q-learning
deephub
2023-08-12
阅读 3 分钟
809
时态差分法(Temporal Difference, TD)是一类在强化学习中广泛应用的算法,用于学习价值函数或策略。Sarsa和Q-learning都是基于时态差分法的重要算法,用于解决马尔可夫决策过程(Markov Decision Process, MDP)中的强化学习问题。
Streamlit 入门教程:构建一个Dashboard
deephub
2023-08-11
阅读 8 分钟
3.8k
Streamlit 是一个用于创建数据科学和机器学习应用程序的开源 Python 库。它的主要目标是使开发人员能够以简单的方式快速构建交互式的数据应用,而无需过多的前端开发经验。Streamlit 提供了一种简单的方法来转换数据脚本或分析代码为具有可视化界面的应用程序,这些应用程序可以通过网络浏览器访问。
用于3D MRI和CT扫描的深度学习模型总结
deephub
2023-08-10
阅读 2 分钟
724
医学成像数据与其他我们日常图像的最大区别之一是它们很多都是3D的,比如在处理DICOM系列数据时尤其如此。DICOM图像由很多的2D切片组成了一个扫描或身体的特定部分。
使用Automatic1111在本地PC上运行SDXL 1.0
deephub
2023-08-09
阅读 2 分钟
1.3k
这是我们部署Stable Diffusion的第三篇文章了,前两篇文章都详细介绍了Automatic1111的stable-diffusion-webui的安装,这次主要介绍如何使用SDXL 1.0模型。
使用Python中从头开始构建决策树算法
deephub
2023-08-08
阅读 4 分钟
1.1k
决策树(Decision Tree)是一种常见的机器学习算法,被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型,所以本文将介绍理解其数学概念,并在Python中动手实现,这可以作为了解这类算法的基础知识。
4个将Pandas换为交互式表格Python包
deephub
2023-08-07
阅读 2 分钟
740
Pandas是我们日常处理表格数据最常用的包,但是对于数据分析来说,Pandas的DataFrame还不够直观,所以今天我们将介绍4个Python包,可以将Pandas的DataFrame转换交互式表格,让我们可以直接在上面进行数据分析的操作。
Pandas 的Merge函数详解
deephub
2023-08-06
阅读 10 分钟
2k
在日常工作中,我们可能会从多个数据集中获取数据,并且希望合并两个或多个不同的数据集。这时就可以使用Pandas包中的Merge函数。在本文中,我们将介绍用于合并数据的三个函数
在消费级GPU调试LLM的三种方法:梯度检查点,LoRA和量化
deephub
2023-08-05
阅读 8 分钟
1k
LLM的问题就是权重参数太大,无法在我们本地消费级GPU上进行调试,所以我们将介绍3种在训练过程中减少内存消耗,节省大量时间的方法:梯度检查点,LoRA和量化。
使用 CausalPy 进行因果推理
deephub
2023-08-04
阅读 3 分钟
1.1k
这篇文章通过一个实际的例子简要介绍了因果推理,这个例子来自于《The Brave and True》一书,我们使用 CausalPy 来实现。
TabR:检索增强能否让深度学习在表格数据上超过梯度增强模型?
deephub
2023-08-03
阅读 4 分钟
609
这是一篇7月新发布的论文,他提出了使用自然语言处理的检索增强Retrieval Augmented技术,目的是让深度学习在表格数据上超过梯度增强模型。
10个简单但很有用的Python装饰器
deephub
2023-08-02
阅读 5 分钟
508
装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用于在不修改原始代码的情况下添加额外的功能或功能。
SDXL 1.0 介绍和优缺点总结
deephub
2023-07-31
阅读 3 分钟
1.7k
sdxml -base-1.0:生成1024 x 1024图像的基本文本到图像模型。基本模型使用OpenCLIP-ViT/G和CLIP-ViT/L进行文本编码。
因子分解机介绍和PyTorch代码实现
deephub
2023-07-30
阅读 12 分钟
938
因子分解机(Factorization Machines,简称FM)是一种用于解决推荐系统、回归和分类等机器学习任务的模型。它由Steffen Rendle于2010年提出,是一种基于线性模型的扩展方法,能够有效地处理高维稀疏数据,并且在处理特征组合时表现出色。它是推荐系统的经典模型之一,并且模型简单、可解释性强,所以搜索广告与推荐算法...
Meta-Transformer 多模态学习的统一框架
deephub
2023-07-29
阅读 3 分钟
1.1k
Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据,虽然各种数据之间存在固有的差距,但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征,不需要配对的多模态训练数据。该框架由统一的数据标记...
图注意力网络论文详解和PyTorch实现
deephub
2023-07-28
阅读 11 分钟
7.3k
图神经网络(gnn)是一类功能强大的神经网络,它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。
DeepSpeed-MoE:训练更大及更复杂的混合专家网络
deephub
2023-07-27
阅读 4 分钟
1.2k
这是微软发布在2022 ICML的论文,MoE可以降低训练成本,但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE:它包括新颖的MoE架构设计和模型压缩技术,可将MoE模型大小减少3.7倍;通过高度优化的推理系统,减少了7.3倍的延迟和成本;与同等质量的密集模型相比...
2023年发布的25个开源大型语言模型总结
deephub
2023-07-26
阅读 4 分钟
1.5k
大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。
Python 3.11的10个使代码更加高效的新特性
deephub
2023-07-25
阅读 4 分钟
1.1k
性能有巨大的提升是Python 3.11的一个重要的改进,除此以外Python 3.11还有增加了许多新的特性。在本文中我们将介绍Python 3.11新特性,通过代码示例演示这些技巧如何提高生产力并优化代码。
LLM-Blender:大语言模型也可以进行集成学习
deephub
2023-07-24
阅读 2 分钟
715
我们都知道集成学习是一种机器学习方法,旨在提高预测模型的性能和鲁棒性。它通过将多个不同的学习器(如决策树、神经网络等)结合成一个整体,来取得比单个学习器更好的预测效果。比如最常见的Kaggle比赛中就广泛的使用了这种方法。
Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%
deephub
2023-07-23
阅读 3 分钟
1.8k
但是它计算过程复杂,使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本文中我们将对这些加速方法进行了一系列对比测试。
使用QLoRa微调Llama 2
deephub
2023-07-22
阅读 4 分钟
1k
上篇文章我们介绍了Llama 2的量化和部署,本篇文章将介绍使用PEFT库和QLoRa方法对Llama 27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。只有可以对数据进行微调我们才可以将这种大模型进行符合我们数据集的定制化。
使用Cleanlab、PCA和Procrustes可视化ViT微调
deephub
2023-07-21
阅读 3 分钟
596
与传统的卷积神经网络不同,vit使用最初设计用于自然语言处理任务的Transformers 架构来处理图像。微调这些模型以获得最佳性能可能是一个复杂的过程。
使用GGML和LangChain在CPU上运行量化的llama2
deephub
2023-07-20
阅读 7 分钟
1.4k
Meta AI 在本周二发布了最新一代开源大模型 Llama 2。对比于今年 2 月发布的 Llama 1,训练所用的 token 翻了一倍,已经达到了 2 万亿,对于使用大模型最重要的上下文长度限制,Llama 2 也翻了一倍。
上一页
1
…
More
19
20
21
(current)
22
23
…
More
下一页
上一页
21
(current)
下一页