精度是远远不够的:如何最好地评估一个分类器?

2020-04-01
阅读 4 分钟
4.1k
分类模型(分类器)是一种有监督的机器学习模型,其中目标变量是离散的(即类别)。评估一个机器学习模型和建立模型一样重要。我们建立模型的目的是对全新的未见过的数据进行处理,因此,要建立一个鲁棒的模型,就需要对模型进行全面而又深入的评估。当涉及到分类模型时,评估过程变得有些棘手。

文本挖掘实战:看看国外人们在病毒隔离期间都在家里做什么?

2020-03-30
阅读 6 分钟
1.9k
随着越来越多的国家宣布在全国范围内关闭,大多数人被要求留在家里隔离。 我们来看看国外的人们在此“关闭”期间如何度过时间以及感觉如何,所以我分析了本文中的一些推文,看看国外友人到底都干什么。

翻车现场:我用pytorch和GAN做了一个生成神奇宝贝的失败模型

2020-03-29
阅读 3 分钟
1.7k
神奇宝贝已经是一个家喻户晓的动画了,我们今天来确认是否可以使用深度学习为他自动创建新的Pokemon。 我最终成功地使用了生成对抗网络(GAN)生成了类似Pokemon的图像,但是这个图像看起来并不像神奇宝贝。 虽然这个尝试失败了,但是我认为其他人可能会喜欢这个过程,现在把他分享出来。

PU Learning简介:对无标签数据进行半监督分类

2020-03-28
阅读 5 分钟
2.7k
假设您有一个交易业务数据集。有些交易被标记为欺诈,其余交易被标记为真实交易,因此您需要设计一个模型来区分欺诈交易和真实交易。 假设您有足够的数据和良好的特征,这似乎是一项简单的分类任务。 但是,假设数据集中只有15%的数据被标记,并且标记的样本仅属于一类,即训练集15%的样本标记为真实交易,而其余样本...

从零开始构建:使用CNN和TensorFlow进行人脸特征检测

2020-03-27
阅读 5 分钟
2.4k
​ 人脸特征检测模型形成了我们在社交媒体应用程序中看到的各种功能。 您在Instagram上找到的面部过滤器是一个常见的用例。该算法将掩膜(mask)在图像上对齐,并以脸部特征作为模型的基点。

超参数调整实战:scikit-learn配合XGBoost的竞赛top20策略

2020-03-26
阅读 4 分钟
1.2k
在过去的几年中,XGBoost被广泛用于表格数据推断,并且赢得了数百个挑战。但是,仅仅通过XGBoost并不能完成完成整的解决方案,同样的模型为什么有些人能获得更好的准确性呢?除了经验方面的差异,还有一个事实,那就是他们优化了超参数! 因此,我们今天将告诉您如何获取特定数据集的最佳超参数。 我们将在Hacker Earth...

手写批量线性回归算法:在Python3中梯度下降方法实现模型训练

2020-03-25
阅读 10 分钟
1.3k
作者:Tarun Gupta deephub翻译组:孟翔杰 ​ 在这篇文章中,我们将看一个使用NumPy作为数据处理库的Python3编写的程序,来了解如何实现使用梯度下降法的(批量)线性回归。 ​ 我将逐步解释代码的工作原理和代码的每个部分的工作原理。 ​ 我们将使用此公式计算梯度。 ​ 在此,x(i)向量是一个点,其中N是数据集的大小。 ...

不平衡数据集分类实战:成人收入数据集分类模型训练和评估

2020-03-24
阅读 15 分钟
2.3k
一个常用的例子是成人收入数据集,它涉及到社交关系、教育水平等个人数据,以此来预测成人的收入水平,判断其是否拥有5万美元/年的个人收入。数据集中个人收入低于5万美元的数据比高于5万美元的数据要明显多一些,存在着一定程度的分布不平衡。 针对这一数据集,可以使用很多不平衡分类的相关算法完成分类任务。

生物学中的机器学习:使用K-Means和PCA进行基因组序列分析 COVID-19接下来如何突变?

2020-03-23
阅读 4 分钟
1.7k
作者:Andre Ye deephub翻译组:孟翔杰 许多人没有想到,病毒就像地球上为生存而挣扎的其他生物一样,它们会进化或变异。 只要看一看人类病毒来源的蝙蝠携带的病毒RNA序列片段即可。 AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT …以及人类COVID-19病毒的RNA序列的摘录… AAAATTAAGGCTTGCATTGATGAGGTTACCACAAC...

深度学习基础:为什么神经网络的感知机中的神经元需要偏置项?

2020-03-22
阅读 3 分钟
2.1k
神经元中不添加偏置项可以吗?答案是,不可以 每个人都知道神经网络中的偏置(bias)是什么,而且从人类实现第一个感知器开始,每个人都知道神经元需要添加偏置项。但你是否考虑过我们为什么要使用偏置项呢?就我而言,直到不久前我才弄清楚这个问题。当时我和一个本科生讨论了一些神经网络模型,但不知何故她把“偏置输入...

更快的计算,更高的内存效率:PyTorch混合精度模型AMP介绍

2020-03-21
阅读 4 分钟
2.8k
​ 同样的,卷积网络由Yann le cun于1998年首次提出,并进行了数字分类,他使用了单个卷积层。 直到2012年下半年,Alexnet才通过使用多个卷积层在imagenet上实现最先进的技术来推广卷积网络。

深度学习实战:tensorflow训练循环神经网络让AI创作出模仿莎士比亚风格的作品

2020-03-20
阅读 11 分钟
1.8k
FLORIZEL: Should she kneel be? In shall not weep received; unleased me And unrespective greeting than dwell in, thee, look’d on me, son in heavenly properly.

一文带你解读:卷积神经网络自动判读胸部CT图像的机器学习原理

2020-03-19
阅读 8 分钟
2.5k
本文介绍了利用机器学习实现胸部CT扫描图像自动判读的任务,这对我来说是一个有趣的课题,因为它是我博士论文研究的重点。这篇文章的主要参考资料是我最近的预印本 “Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale Chest Computed Tomography Volumes.”

你不会成为数据科学家的9个原因:你需要改变你的思维方式

2020-03-18
阅读 3 分钟
829
作者:Rhea Moutafis deephub翻译组 数据科学是一个艰难的领域。做好准备。 免责声明:这个故事并不是要劝阻您。 相反,它是一面可以长时间检视自己的镜子。 所以你对数据科学很有热情,你已经读了几十篇博客文章,完成了一些在线课程。现在你梦想着把它作为你的事业。毕竟,据《哈佛商业评论》称,这是21世纪最性感的工...

深度学习中的激活函数完全指南:在数据科学的诸多曲线上进行现代之旅

2020-03-18
阅读 5 分钟
2.7k
自2012年以来,神经网络研逐渐成为了人工智能研究的主流,深度模型迅速取代了之前的各种benchmarks。在这些创新中,激活函数对神经网络的性能和稳定性起着至关重要的作用。这篇文章将尽可能简要地概述激活函数研究的最新进展,介绍它们的起源以及何时应该被使用。

数据采集实战:通过Python获取和分析Google趋势中Covid-19的关注程度

2020-03-17
阅读 3 分钟
2.6k
在传染病研究领域,社交媒体数据已被证明可作为预测感冒和流感季节的发作和进展的指标。在本文中,我们将使用Google Trends API来衡量与冠状病毒的状态。我们将使用python谷歌趋势API pytrends在州一级分析google搜索“冠状病毒”。

机器学习岗位面试总结:简历应该关注的5个重点

2020-03-16
阅读 3 分钟
6.3k
如今的公司很难找到优秀的机器学习人才。当然,任何特定技能的要求都取决于机器学习项目的用途和要求,但是您的机器学习履历中必须具备的某些技能在各种项目要求中是一致的。 通常,公司希望面试者具备丰富的机器学习技能,理论和编码能力,以便在需要时能够跨部门参与机器学习项目。 该领域的专家不仅需要具有扎实的机...

反向传播算法详解

2020-03-14
阅读 5 分钟
3.8k
1. 神经网络 2. 什么是反向传播? 3. 反向传播是如何工作的? 4. 损失函数 5. 为什么我们需要反向传播? 6. 前馈网络 7. 反向传播的类型 8. 案例研究