Day2_Simple_Linear_Regression

2018-08-21
阅读 1 分钟
1.4k
Simple Linear Regression Step 1: Data Preprocessing {代码...} Step 2: Fitting Simple Linear Regression Model to the training set {代码...} # Step 3: Predecting the Result {代码...} # Step 4: Visualization ## Visualising the Training results {代码...} ## Visualizing the test results {代码...}

Day 1_Data PreProcessing

2018-08-20
阅读 2 分钟
1.6k
As shown in the infograph we will break down data preprocessing in 6 essential steps.Get the dataset from here that is used in this example

最小二乘法小结

2017-12-13
阅读 4 分钟
2.2k
最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影,这里就对我对最小二乘法的认知做一个小结。

梯度下降小结

2017-12-13
阅读 6 分钟
2.7k
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。

2、动手实操Apache ZooKeeper

2017-10-31
阅读 8 分钟
2.4k
在本节中,我们将讲解如何下载并安装Apache ZooKeeper,以便我们可以直接开始使用ZooKeeper。本部分旨在通过提供详细的安装和使用说明,使用ZooKeeper了解其分布式应用程序的需求。我们将从单节点ZooKeeper安装开始,熟悉基本配置,然后学习ZooKeeper shell。最后,学习如何设置一个多节点ZooKeeper集群。

1、Apache ZooKeeper快速课程入门

2017-10-31
阅读 3 分钟
1.8k
在过去的几十年里,互联网改变了我们生活的方式。Internet上提供的服务通常由复杂的软件系统支持,这些系统跨越了大量的服务器,而且常常位于不同的地理位置上。这种系统被称为计算机科学术语中的分布式系统。为了正确和有效地运行这些大型系统,这些系统内部的过程应该彼此之间达成某种协议;本协议也称为分布式协调。...

Hive报错日志记录

2017-09-21
阅读 7 分钟
8.1k
报错日志:Zero length BigInteger 日志内容: {代码...} 问题分析:可能两个子查询UNION ALL合并,存在合并字段的数据类型不一致导致解决方案:检查各个字段数据类型并转换为同一数据类型 报错日志:java.lang.ArrayIndexOutOfBoundsException: 2 日志内容: {代码...} 问题分析:可能两个子查询UNION ALL合并,存在合...

Hive内置数据类型

2017-09-21
阅读 2 分钟
2.4k
Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。其中,基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。下面的表格列出这些基础类型所占的字节以及从什么版本开始支持这些类型。

ASCII码对照表

2017-09-18
阅读 3 分钟
3.2k
ASCII(American Standard Code for Information Interchange,美国信息互换标准代码,ASCⅡ)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。 ASCII第一次以规范标准的型态发表是在1967年,最后一次更新则是在1986年,至今为...

Hive报错整理之Malformed ORC file 、Invalid postscript.

2017-09-14
阅读 3 分钟
6.8k
解决办法: 要么将数据源表改为以ORC格式存储的表,要么新建一个以textfile格式的临时表先将源文件数据加载到该表,然后在从textfile表中insert数据到ORC目标表中。

Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

2017-09-13
阅读 6 分钟
4.5k
{代码...} 数据准备: {代码...} --GROUPING SETS {代码...} --CUBE {代码...} --ROLLUP {代码...}

Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE

2017-09-13
阅读 9 分钟
4.7k
{代码...} 数据准备: {代码...} --LAG {代码...} --LEAD {代码...} --FIRST_VALUE {代码...} --LAST_VALUE {代码...} 特别注意: {代码...}

Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

2017-09-13
阅读 2 分钟
3.2k
{代码...} 数据准备: {代码...} --CUME_DIST {代码...} --PERCENT_RANK {代码...}

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

2017-09-13
阅读 5 分钟
2.8k
{代码...} 数据准备: {代码...} --NTILE {代码...} --ROW_NUMBER {代码...} --RANK 和 DENSE_RANK {代码...}

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

2017-09-13
阅读 6 分钟
3.1k
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1