BigDataShare - SegmentFault 思否

spark 运行原理

数据咖

2018-05-23

阅读 6 分钟

6.6k

spark的运行原理对于spark的学习尤为重要，如果不了解其运行原理，也就不会从根本上将spark的程序写好。这将是写的最后一篇关于spark理论的文章。接下来将从实践方面来分享spark

默默无闻的Yarn

数据咖

2018-05-18

阅读 4 分钟

2.4k

为什么突然想起来写一篇关于yarn的文章呢，是因为今天同事想我讨教spark提交任务的方式有哪几种，我回答到local、yarn cluster、yarn client等。我刚想向他解释这几种提交方式的区别，没想到他却问我，什么是yarn？说实话，我有点措不及防，因为yarn现在确实很少被人注意和讨论，当初还是在学习Hadoop2的时候，来对yarn...

机器学习之线性回归

数据咖

2017-12-12

阅读 3 分钟

2.5k

（1）确定性场景（2）不确定性场景现在大多数的公司中主要是应用机器学习技术来解决不确定场景的问题。例如，我们小组现在用机器学习对公司各个产品的用户进行优质客户分群，对每个产品的用户群做用户流失分析。那么，机器学习会给这种不确定性场景带来什么作用呢？主要是对这种不确定场景提供判断和预测，拿回实际场...

bash命令实用小片段

数据咖

2017-12-08

阅读 1 分钟

1.5k

在平常做数据ETL和数据计算的时候，生成结果数据要落地，并且以我们指定好的文件名保存到我们指定的目录中。但是当日后进行数据回溯时，同样的程序会生成同样的文件在相同的目录中对原有的文件进行覆盖。虽然平时用Python脚本可以用自带的api进行filePath进行判断，但是对于小量数据的计算，并不用去打开编辑器写Python...

Hadoop 3.0 尝鲜

数据咖

2017-11-24

阅读 5 分钟

第一次接触Hadoop的时候是15年，在实习公司进入大数据业务组（技术总监，项目经理，我），那时候天天捧着《Hadoop权威指南》云里雾里的看，一遍学习Linux，一遍看着书里的架构原理。后来直接用一台Ubuntu就开始安装Hadoop"集群"了+_+，最后在安装到HBase的时候，彻底崩溃，因为是伪分布式，到了Zookeeper的配置，真的真...