大数据分析·人工智能·机器学习·深度学习 - SegmentFault 思否

帝都房价回调？带你用Python了解北京二手房市场现状

CDA数据分析师

2020-08-10

阅读 8 分钟

182

CDA数据分析师出品作者：Mika数据：真达后期：泽龙【导读】今天让我们来聊一聊北京的二手房市场现状。Show me data，用数据说话今天我们聊一聊北京二手房数据对于许多在一线城市打拼的人群而言，能够在大城市安家，扎根下来都是为止奋斗的梦想。但一线城市的突破天际房价也让很多人望而却步。转眼间2020年已经过半，...

新型大脑启发式学习方法来了，可帮助人工神经网络节省内存和能量

CDA数据分析师

2020-08-06

阅读 3 分钟

222

如今，人工智能的发展如火如荼，广泛应用到了图像、自然语言、人机对话等各个领域，对各个产业进行了变革。而在移动应用中，人工智能广泛使用的最大障碍之一是人工神经网络的学习活动需要消耗大量能量，而解决这一问题的一种方法可以从大脑中获得灵感。这是因为大脑具有超级计算能力，而且大脑神经元之间可以通过短的电...

数据分析成果落地难？你需要注意这五个问题

CDA数据分析师

2020-07-14

阅读 3 分钟

193

数据分析的最终目的是驱动企业业务增长，今天小编就带大家来看一下数据分析成果落地难的那些问题。文章来源：微信公众号接地气学堂作者：接地气的陈老师落地、见效!是很多做数据分析的同学最怕的四个字。平时自己敲代码加减乘除很嗨，可一提落地就两眼一抹黑。到底要怎么落?落到哪里?完全不知道。每次报告结尾都写上...

调整超参数：决定模型是“金子”还是“垃圾”！

CDA数据分析师

2020-06-17

阅读 6 分钟

211

数据清洗以后，你也许会困惑应该从哪里开始建模。一般情况下它的下一步应该是特征选择，但特征工程和模型训练是相互影响的。好的特征选择可以使模型得到好的效果，而不同的模型又对数据有不同的要求。

嵌套交叉验证（Nested cross-validation）

CDA数据分析师

2020-06-17

阅读 5 分钟

193

1. 传统交叉验证和嵌套交叉验证的区别在开始分享嵌套交叉验证前，首先以K-Fold为例，区分K-Fold交叉验证和嵌套K-Fold交叉验证的区别，这是我刚开示始学习时的困惑点：（1）K-Fold交叉验证：只有一个loop（循环），即内层循环 (a) 将数据集切分为k-折叠； (b) 对于任意$i \\in \[1; k\]$，在第i个折叠上测试模型，并且...

机器学习数据降维方法：PCA主成分分析

CDA数据分析师

2020-06-16

阅读 3 分钟

213

PCA在机器学习中很常用，是一种无参数的数据降维方法。PCA步骤：将原始数据按列组成n行m列矩阵X 将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值求出协方差矩阵求出协方差矩阵的特征值及对应的特征向量将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P Y=PX即为降维到k维后的...

ML基础：协方差矩阵！

CDA数据分析师

2020-06-15

阅读 2 分钟

227

在翻译sklearn文档 2.无监督学习部分过程中，发现协方差矩阵几乎贯穿整个章节，但sklearn指导手册把协方差部分放在了这一章节偏后的部分，作为机器学习一个基础概念，在这篇文章中，想把协方差矩阵的相关知识以及主要应用。

机器学习经典算法之k-means聚类

CDA数据分析师

2020-06-10

阅读 3 分钟

233

聚类就是将某个数据集中的样本按照之间的某些区别划分为若干个不相交的子集，我们把每个子集称为一个“簇”。划分完成后，每个簇都可能对应着某一个类别；需说明的是，这些概念对聚类算法而言事先是未知的，聚类过程仅能自动形成簇结构，簇对应的概念语义由使用者来把握和命名。

交叉验证：评估模型表现

CDA数据分析师

2020-06-10

阅读 5 分钟

211

在实际情况中，如果一个模型要上线，数据分析员需要反复调试模型，以防止模型仅在已知数据集的表现较好，在未知数据集上的表现较差。即要确保模型的泛化能力，它指机器学习对新鲜样本的适应能力。只有保证模型的泛化能力，模型的构建才有意义。因此，交叉验证在整个建模流程中显得尤为重要。

朴素贝叶斯（Naive Bayes）和校正曲线（Calibration Curve）

CDA数据分析师

2020-06-10

阅读 4 分钟

392

贝叶斯分类算法属于有监督机器学习（Supervised Learning）。贝叶斯分类器是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。其中朴素贝叶斯分分类是贝叶斯分类中最简单的，也是最常见的一种分类方法。

ML基础：高斯混合模型是什么？

CDA数据分析师

2020-06-09

阅读 2 分钟

235

实际上，可以将混合模型视为对 k-means聚类算法的扩展，它包含了数据的协方差结构以及隐高斯模型中心的信息。该方法使用了高斯分布作为参数模型，并使用了期望最大（Expectation Maximization，简称EM）算法进行训练。

Linux浏览文件命令：cat、less、more详解！

CDA数据分析师

2020-06-09

阅读 4 分钟

230

cat命令: 一次性在终端中显示文件的所有内容 cat Facebook首席运营官桑德伯格《Lean\ In》.txt cat命令显示出多少行呢？参数：n 由 1 开始对所有输出的行数进行编号 cat -n Facebook首席运营官桑德伯格《Lean\ In》.txt cat命令还可以连接多个文本的内容一起输出 cat -n hello.txt word.txt less命令: 分页显示文件内容...

自我监督学习：提高深度学习数据效率的计划

CDA数据分析师

2020-06-05

阅读 4 分钟

1k

尽管深度学习在人工智能领域做出了巨大贡献，但它还是有一个不太好的地方：它需要大量数据。这是深度学习的先驱者和批评家都同意的一件事。实际上，由于有用数据的有限可用性有限以及处理该数据的计算能力不足，深度学习直到几年前才成为领先的AI技术。

二分类任务的一种简单且可解释的性能指标！

CDA数据分析师

2020-06-05

阅读 2 分钟

187

理论物理学家和研究科学家Mehmet Suzen曾表示，二分类任务是机器学习的基础。但是，其性能的标准统计信息是一种数学工具，ROC-AUC很难解释。在这里，引入了一种性能度量，该度量仅考虑进行正确的二进制分类的可能性。

零售中的机器视觉–当前实例和应用

CDA数据分析师

2020-06-02

阅读 2 分钟

230

零售业每天收集大量数据，这使其关键流程变得成熟，可以通过机器学习实现自动化。与制造业一起，零售业可能会在未来几年中受益于一种特定的AI技术：机器视觉，也称为计算机视觉。

人工智能：睡眠研究帮助创建更好的AI模型！

CDA数据分析师

2020-06-02

阅读 4 分钟

748

我们为什么要睡觉？一个明显的原因是恢复我们身体和四肢的力量。但是睡眠的另一个非常重要的作用是巩固记忆并组织清醒时大脑摄入的所有信息。缺乏适当睡眠的人会认知能力下降，记忆力下降。

大数据工具：Zookeeper的安装宝典！

CDA数据分析师

2020-05-29

阅读 2 分钟

172

之前介绍了Hbase本地单节点模式的安装，该模式资源占用少适合学习使用。但是在生产环境中为了保证数据的安全，普遍采用集群模式来运用Hbase。在集群模式下Hbase的数据存储在HDFS文件系统而非本地文件系统，还需配以zookeeper集群来提供协调一致性服务。我们先来安装zookeeper然后再配置Hbase使其可以以集群模式运行。

hadoop：集群网络介绍，及相关文件配置指南！

CDA数据分析师

2020-05-29

阅读 3 分钟

169

上篇文章中我们已经将之前配置好的伪分布集群虚拟机复制出来做为master节点的虚拟机，接下来我们还需对该虚拟机做进一步的配置来达到我们的要求。对master虚拟机的配置将从网络、hostname、更改Hadoop相关配置等几方面展开。

大数据时代：SSH如何免密码登录？

CDA数据分析师

2020-05-28

阅读 2 分钟

198

Hadoop集群是由许多的节点服务器组成的，当我们启动hadoop集群时，hadoop的Namenode需要连接并且管理这些节点服务器（主要是DataNode）。

hadoop：分布式集群，初次启动！

CDA数据分析师

2020-05-28

阅读 4 分钟

159

一般搭建hadoop分布式集群时需要配置集群中各个节点间的ssh免密登录，然后才可以启动hadoop分布式集群。我们在master虚拟机终端中输入命令ssh slave1 ，此时出现如下提示，然后输入yes

hadoop：分布式集群参数master节点的配置！

CDA数据分析师

2020-05-27

阅读 4 分钟

220

之前的文章中我们已经将master节点的网络IP、hostname文件、hosts文件配置完成，接下来还有hadoop相关配置文件需要修改。今天我们来讲master节点hadoop的配置。

hadoop：伪分布模式启动步骤分解！

CDA数据分析师

2020-05-27

阅读 2 分钟

239

1、格式化HDFS 在运行伪分布式前，需先对NameNode进行格式化，在命令行中输入 hdfs namenode -format # 格式化hdfs 若出现successfully formatted字样，则说明格式化成功 2、启动hadoop 然后启动hadoop集群 start-all.sh # 一次性启动所有服务或使用以下命令单独启动各项服务 start-dfs.sh #启动hdfs sta...

Hbase：安装及模式配置指南！

CDA数据分析师

2020-05-27

阅读 3 分钟

208

通过之前介绍的Hbase的集群架构，我们可以知道Hbase数据需要存储在HDFS上，因此在选择Hbase版本时要兼顾之前安装的Hadoop版本。Hbase各个版本与Hadoop各个版本之间的兼容性可以从Hbase官网上得到，如下图所示：

大数据：hadoop多节点集群搭建指南！

CDA数据分析师

2020-05-26

阅读 2 分钟

187

master节点上主要运行namenode、Resourcemanager 进程；slave节点上运行datanode、nodemanager进程。

Spark：安装及环境配置指南！

CDA数据分析师

2020-05-26

阅读 5 分钟

167

前篇文章介绍了scala的安装与配置、接下来介绍一下spark的安装及环境配置。 1、Apache spark下载在浏览器输入网址[链接]，如下图所示：下载时需要注意的是在第1步选择完spark版本之后的第2步“choose a package type ”时，spark与hadoop版本必须配合使用。因为spark会读取hdfs文件内容而且spark程序还会运行在Hadoo...

Python告诉你：从《入海》到《消愁》毛不易的歌里都在唱些什么？

CDA数据分析师

2020-05-26

阅读 9 分钟

814

Show me data，用数据说话！今天我们聊一聊毛不易的《入海》，没错，还是那个B站，在520这个既浪漫且有营销价值的一天又「搞事情」了。

口红？剃须刀？Python告诉你，刚过去的520，大家都在送什么礼物

CDA数据分析师

2020-05-26

阅读 8 分钟

466

Show me data，用数据说话！今天我们聊一聊 520的礼物，一年一度的520刚刚过去，由于受疫情影响错过了今年的2月14日情人节，2020年5月20日，这个谐音为“爱你爱你我爱你”的 “世纪520”，对情侣们来说显得格外有吸引力。

Spark集群：环境搭建之Scala安装指南！

CDA数据分析师

2020-05-25

阅读 3 分钟

253

前篇文章介绍了Spark计算框架相较于MapReduce框架的种种优势，接下来我们一起安装、配置Spark集群环境，方便后期继续学习研究。Spark项目是由Scala语言编写的，因此需提前配置Scala环境才能运行Spark程序。

大数据分析：学习工具JDK，在线安装指南！

CDA数据分析师

2020-05-25

阅读 4 分钟

200

hadoop是使用Java语言开发的并且Hadoop运行需要有Java环境的支持，因此在安装hadoop之前需要安装Java开发环境即JDK(Java Development Kit)。安装前首先向大家介绍以一下本文会用到的几个词：

大数据分析：学习工具Hadoop，基本安装指导！

CDA数据分析师

2020-05-25

阅读 3 分钟

419

Hadoop版本主要分为原生Apache Hadoop版和Hadoop商业发行版两种，而其中商业发行版Hadoop多为原生Apache Hadoop的集群模式下的优化版，除少数社区版外，商业发行版大多需要付费使用，且对于初学者而言使用难度较大，因此本教程主要采用Apache Hadoop进行安装与使用方面教学。同时，兼顾一线企业实际使用差别和教学PC机器...

1

1