5道面试中的常见的统计学问题

2022-10-01
阅读 1 分钟
826
5道面试中的常见的统计学问题1、伯努利试验与二项分布的区别伯努利试验仅指单个试验,而二项分布指多个伯努利试验。伯努利有两种可能的结果:成功和失败。2、你需要采取那些步骤进行抽样才能正确推断总体样本是随机选择的,需要无偏差地反映所有可满足的状态。如果有偏差则偏差也需要是最小的。3、为什么我们必须使用推...
封面图

贝叶斯回归:使用 PyMC3 实现贝叶斯回归

2022-09-30
阅读 5 分钟
2.5k
PyMC3采用马尔可夫链蒙特卡罗(MCMC)方法计算后验分布。这个方法相当复杂,原理方面我们这里不做详细描述,这里只说明一些简单的概念,为什么使用MCMC呢?
封面图

transformers的近期工作成果综述

2022-09-29
阅读 13 分钟
1.5k
基于 transformer 的双向编码器表示(BERT)和微软的图灵自然语言生成(T-NLG)等模型已经在机器学习世界中广泛的用于自然语言处理(NLP)任务,如机器翻译、文本摘要、问题回答、蛋白质折叠预测,甚至图像处理任务。

Pytorch创建多任务学习模型

2022-09-28
阅读 5 分钟
1.2k
在机器学习中,我们通常致力于针对单个任务,也就是优化单个指标。但是多任务学习(MTL)在机器学习的许多应用中都取得了成功,从自然语言处理和语音识别到计算机视觉和药物发现。

常用的20个计算机视觉开源数据集总结

2022-09-27
阅读 4 分钟
1.4k
计算机视觉是人工智能的一个领域,它训练计算机解释和理解视觉世界。利用来自相机和视频的字图像以及深度学习模型,机器可以准确地识别和分类物体,然后对它们“看到的”做出反应。
封面图

单变量时间序列平滑方法介绍

2022-09-26
阅读 8 分钟
807
时间序列是由按时间排序的观察单位组成的数据。可能是天气数据、股市数据。,也就是说它是由按时间排序的观察值组成的数据。在本文中将介绍和解释时间序列的平滑方法,时间序列统计方法在另一篇文章中进行了解释。本文将解释以下 4 个结构概念:1、稳态(Stationary)稳态是指系统的状态不再随时间发生改变的一种状态。...
封面图

10种常见的回归算法总结和介绍

2022-09-25
阅读 17 分钟
2.7k
线性回归是机器学习中最简单的算法,它可以通过不同的方式进行训练。 在本文中,我们将介绍以下回归算法:线性回归、Robust 回归、Ridge 回归、LASSO 回归、Elastic Net、多项式回归、多层感知机、随机森林回归和支持向量机。除此以外,本文还将介绍用于评估回归模型的最常用指标,包括均方误差 (MSE)、均方根误差 (RMSE...
封面图

广义加性模型(GAMs)

2022-09-23
阅读 2 分钟
1.4k
线性模型简单、直观、便于理解,但是,在现实生活中,变量的作用通常不是线性的,线性假设很可能不能满足实际需求,甚至直接违背实际情况。1985 年 Stone 提出加性模型 (additive models) ,模型中每一个加性项使用单个光滑函数来估计,在每一加性项中可以解释因变量如何随自变量变化而变化,解决了模型中自变量数目较多...
封面图

使用可视化工具和统计方法检测异常值

2022-09-22
阅读 5 分钟
1.6k
异常值(离群值)是指距离其他数据值太远的数据值。数据异常值可能是自然产生的,也可能是由于测量不准确、或系统故障造成的。与缺失值类似,异常值会破坏数据科学项目并返回错误的结果或预测。异常值也可能出现在倾斜数据中,这些类型的异常值被认为是自然异常值。
封面图

目标检测YOLO系列算法的进化史

2022-09-21
阅读 6 分钟
1.9k
本文中将简单总结YOLO的发展历史,YOLO是计算机视觉领域中著名的模型之一,与其他的分类方法,例如R-CNN不同,R-CNN将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)不同,YOLO将任务统一为一个回归问题。也就是相对于R-CNN系列的"看两眼"(候选框提取与分类),YOLO只需要 You Only L...
封面图

使用Keras Tuner进行自动超参数调优的实用教程

2022-09-20
阅读 10 分钟
1.8k
在本文中将介绍如何使用 KerasTuner,并且还会介绍其他教程中没有的一些技巧,例如单独调整每一层中的参数或与优化器一起调整学习率等。Keras-Tuner 是一个可帮助您优化神经网络并找到接近最优的超参数集的工具,它利用了高级搜索和优化方法,例如 HyperBand 搜索和贝叶斯优化。所以只需要定义搜索空间,Keras-Tuner 将...

使用 Temporal Fusion Transformer 进行时间序列预测

2022-09-18
阅读 12 分钟
1.8k
专为单个时间序列(无论是多变量还是单变量)创建模型的情况现在已经很少见了。现在的时间序列研究方向都是多元的,并且具有各种分布,其中包含更多探索性因素包括:缺失数据、趋势、季节性、波动性、漂移和罕见事件等等。
封面图

美化Matplotlib的3个小技巧

2022-09-17
阅读 3 分钟
1.8k
Matplotlib是Python的数据可视化库的基础。它是其他可视化工具(如Seaborn)的基础。Matplotlib提供了很大的灵活性,因此您可以自定义或调整几乎所有的图表。但是想要完全控制可视化就需要编写更多的代码。在本文中,我们将介绍3个可以用于定制Matplotlib图表的技巧:减少x轴或y轴上的刻度数添加一个辅助y轴共享x轴的子图坐...
封面图

使用阈值调优改进分类模型性能

2022-09-16
阅读 5 分钟
1.3k
阈值调优是数据科学中一个重要且必要的步骤。它与应用程序领域密切相关,并且需要一些领域内的知识作为参考。在本文中将演示如何通过阈值调优来提高模型的性能。
封面图

最基本的25道深度学习面试问题和答案

2022-09-15
阅读 4 分钟
1.2k
近年来,对深度学习的需求不断增长,其应用程序被应用于各个商业部门。各公司现在都在寻找能够利用深度学习和机器学习技术的专业人士。在本文中,将整理深度学习面试中最常被问到的25个问题和答案。如果你最近正在参加深度学习相关的面试工作,那么这些问题会对你有所帮助。
封面图

Python 3.14 将比 C++ 更快🤭

2022-09-14
阅读 6 分钟
1.6k
Python 是数据科学 (DS) 和机器学习 (ML) 中最常用的脚本语言之一。根据“PopularitY of Programming Languages”,Python 是 Google 上搜索次数最多的语言。除了作为将各种 DS/ML 解决方案连接在一起的出色胶水语言之外,它还有许多库可以对数据进行方便处理。

扩散模型的极简介绍

2022-09-13
阅读 3 分钟
1.6k
在计算机视觉中,生成模型是一类能够生成合成图像的模型。例如,一个被训练来生成人脸的模型,每次都会生成一张从未被该模型或任何人看到过的人脸。生成模型最著名的例子是GAN(生成对抗网络)。它有生成器和鉴别器,它们相互对抗,然后生成图像。由于模型本身具有对抗性,因此很难进行训练。这使得很难达到一个最优的平衡...

论文推荐:当自监督遇到主动学习

2022-09-12
阅读 2 分钟
1.2k
Reducing Label Effort: Self-Supervised meets Active Learning这篇论文将主动学习和自监督训练结合,减少了标签的依赖并取得了很好的效果。

7个有用的Jupyter扩展

2022-09-11
阅读 2 分钟
889
这个扩展将将Jupyter笔记本变成独立的网络应用程序。与通常的html转换的笔记本不同,每个连接到Voilà 应用程序的用户都会启动一个Jupyter内核,所以通过这个web应用我们可以对Jupyter代码进行修改和回调,他的web是通过tornado来开发的,这个扩展在GitHub上有超过4k star。
封面图

带掩码的自编码器MAE在各领域中的应用总结

2022-09-09
阅读 3 分钟
1.4k
机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务。通常训练泛化模型需要大量带注释的数据。这个是非常费时费力的,并且一般情况下都很难进行。

使用机器学习创建自己的Emojis 表情

2022-09-08
阅读 5 分钟
1.1k
对于图像生成方向目前通常使用的方法是生成对抗网络或扩散模型。尽管这两种方法有的不同的特点,但是他们的一个共同点是模型训练对机器资源的要求很高,如果我们要以一种全新的风格创建一个图像,模型将需要从头开始训练,这可能需要更多的时间和资源,例如比较熟悉的StyleGan[3]是在拥有8个Tesla V100 gpu的NVIDIA DGX-...
封面图

GANs的优化函数与完整损失函数计算

2022-09-07
阅读 5 分钟
2.1k
生成对抗网络(GANs)近年来在人工智能领域,尤其是计算机视觉领域非常受欢迎。随着论文“Generative Adversarial Nets” [1]的引入,这种强大生成策略出现了,许多研究和研究项目从那时起兴起并发展成了新的应用,我们现在看到的最新的DALL-E 2[2]或GLIDE3
封面图

有关遗传算法最新发展的4篇论文推荐

2022-09-06
阅读 3 分钟
1.6k
这篇论文使用遗传算法来构建Hadamard矩阵。 生成随机矩阵的初始群体是除第一列全部是+1以外,每列中都是平衡数量的+1和-1项。 通过实现了多个适应度函数并进行筛选,找到了最有效的适应度函数。交叉过程是通过交换父矩阵种群的列来生成子代矩阵种群。突变过程为在随机列中翻转+1和-1条目对。为了加快计算速度,使用CuPy...
封面图

时间序列中的特征选择:在保持性能的同时加快预测速度

2022-09-05
阅读 3 分钟
1.3k
当我们对数据建模时,首先应该建立一个标准基线方案,然后再通过优化对该方案进行修改。在项目的第一部分中,我们必须要投入时间来理解业务需求并进行充分的探索性分析。建立一个原始模型。可以有助于理解数据,采用适当的验证策略,或为引入奇特的想法提供数据的支持。

使用扩散模型从文本生成图像

2022-09-04
阅读 3 分钟
1.4k
1代的DALLE使用VQ-VAE 的改进版,2代的DALLE2 通过使用扩散模型将图片的生成提升到了一个新的高度,但是由于其计算量很大而且没有开源,我们普通用户并没有办法使用,但是Stable Diffusion 的出现改变现状,可以让我们普通用户也可以直接使用,并且以前相对于 Disco Diffusion, Stable Diffusion 生成的图片更加实用;相...
封面图

最大似然估计(MLE)入门教程

2022-09-03
阅读 3 分钟
3.1k
最大似然估计(Maximum Likelihood Estimation)是一种可以生成拟合数据的任何分布的参数的最可能估计的技术。它是一种解决建模和统计中常见问题的方法——将概率分布拟合到数据集。
封面图

使用Torchmetrics快速进行验证指标的计算

2022-09-02
阅读 3 分钟
1.5k
TorchMetrics可以为我们提供一种简单、干净、高效的方式来处理验证指标。TorchMetrics提供了许多现成的指标实现,如Accuracy, Dice, F1 Score, Recall, MAE等等,几乎最常见的指标都可以在里面找到。torchmetrics目前已经包好了80+任务评价指标。
封面图

使用时间序列数据预测《Apex英雄》的玩家活跃数据

2022-09-01
阅读 4 分钟
590
在处理单变量时间序列数据时,我们预测的一个最主要的方面是所有之前的数据都对未来的值有一定的影响。这使得常规的机器学习方法(如训练/分割数据和交叉验证)变得棘手。

学习偏态分布的相关知识和原理的4篇论文推荐

2022-08-31
阅读 2 分钟
991
偏态分布(skewness distribution)指频数分布的高峰位于一侧,尾部向另一侧延伸的分布。偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。
封面图

如何估算transformer模型的显存大小

2022-08-30
阅读 3 分钟
1.2k
在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。
封面图