Centos 7.1 install Common software

2016-04-19
阅读 1 分钟
2.1k
Centos install common soft 1. install ifconfig {代码...} 2. install vim {代码...} 3. install wget {代码...} 4. install git {代码...} default,git havn't color, you can use under cmd give git add color {代码...} 5. install netcat {代码...}

CentOS and RedHat Linux

2016-04-19
阅读 2 分钟
2k
CentOS 是 Community ENTerprise Operating System 的简称,我们有很多人叫它社区企业操作系统,不管你怎么叫它,它都是 Linux操作系统的一个发行版本。CentOS 与 RHEL 有什么区别呢。

Scala Learn 5 模式匹配和样例类 (待补充)

2016-04-12
阅读 3 分钟
1.9k
Chap 14 模式匹配和样例类 focus on match 表达式 是一个更好的 switch 没有模式匹配, 会抛出 MatchError。 可以用 case _模式来避免 模式可以包含随意定义的条件,称做 守卫 你可以对表达式的类型进行匹配; 优先选择模式匹配而不是 isInstanceOf / asInstanceOf 你可以匹配数组、元组 和 样例类 的模式,然后将匹配到的...

Scala Learn 4 Collection

2016-04-07
阅读 5 分钟
1.6k
Chap 13 集合 Collections focus on 所有的 Collection 都扩展自 Iterable 特质(trait) Collection 分三大类, 分别为 Seq、Set、Map Collection Class,Scala 都提供 mutable 和 imutable 的版本 Scala 列表要么是Empty, 要么 拥有 a head a tail, 其中 tail 本身又是一个 列表 集 是无 先后次序 的集合 用 LinkedHash...

[转] Apache Kylin在百度地图的实践

2016-03-25
阅读 2 分钟
3.5k
百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。

Spark Learn 2 计算模型

2016-03-24
阅读 7 分钟
2.4k
Chap 3 Spark计算模型 Spark 的编程范型在处理大数据时显得简单有效,<key, value> 的数据处理与传输模式也大获全胜。 Spark 依靠 Scala 的 函数式编程 Actor 通信模式 闭包 容器 泛型 借助统一资源分配调度框架 Mesos, 融合 MapReduce 和 Dryad 而产生 产生高效的大数据分布式处理框架 spark 尤其适合 迭代型 和 ...

SBT build HelloWorld

2016-03-16
阅读 4 分钟
3.6k
SBT build HelloWorld focus on : 什么是 SBT ? SBT 项目工程目录 SBT 编译打包 Scala HelloWorld 1-1 SBT, What? SBT 是 Simple Build Tool 的简称. SBT 可以认为是 Scala 世界的 maven。 SBT的着迷特性,比如: DSL build构建, 并可混合构建 Java 和 Scala 项目; 通过触发执行 (trigger execution) 特性支持持续的编...

大数据平台CDH集群在线安装

2016-03-14
阅读 11 分钟
8.6k
标签: Cloudera-Manager CDH Hadoop 部署 集群 摘要:管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文详细记录了以在线方式部署CDH集群>的步骤。 以Apache Hadoop为主导的大数据技术的出现,使得中小型公司对于大数据的存储与处理也拥有了武器。 目前Hadoop比较流行的主要有2个版本,Apache和Clouder...

CentOS7 install spark+ipython-nodebook

2016-03-11
阅读 4 分钟
4.1k
在浏览器的界面中使用单元(Cell)保存各种信息。Cell 有多种类型,经常使用的有表示格式化文本的 Markdown单元,和表示代码的 Code单元。

HBase Learn Part02 数据模型与表结构

2016-03-09
阅读 3 分钟
3.9k
Chap 4 HBase 数据模型 focus on: HBase 的列必属于某 (Column Family), 行列的交叉点为 Cell. HBase 没有数据类型, 任何列值被转换成 字节数组 进行存储 HBase 表中的行是通过 (RowKey) 进行区分的, Table 中按 RowKey 排序的。 HBase 是一种面向列的分布式数据库。 4-1 两类数据模型 Table 是 HBase 表达数据的逻辑...

BI开发之——多维立方体(Cube)

2016-03-08
阅读 1 分钟
6.4k
在 Bi 领域,Cube 是一个非常重要的概念,是多维立方体的简称,主要是用于支持联机分析应用(OLAP)(On-Line Analytical Processing), 为企业决策提供支持。Cube 就像一个坐标系,每一个 Dimension 代表一个坐标轴,要想得到一个一个点,就必须在每一个坐标轴上取得一个值,而这个点就是 Cube 中的 Cell。

BI Dev--ETL Introduce

2016-03-07
阅读 1 分钟
3.2k
Chap 1 认识 ETL focus on : Know What's ETL? Know ETL 在 BI 开发中注意的细节 1-1 ETL 简介 ETL 是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。 ETL 是构建 DW 的重要一环,用户从数据源抽取出数据,经 数据清洗,按照预定义好的 DW模型,将数据加载到 DW 中去。 ETL 是将业务系...

IntelliJ IDEA Learn Use (待持续补充)

2016-03-04
阅读 1 分钟
2.6k
IntelliJ IDEA IntelliJ IDEA WEB项目的部署配置 :[链接]

R3 Query Learn

2016-03-03
阅读 1 分钟
2.5k
Chap 1 R3 Query R3 Query v5.0是一个集成的企业级BI交付平台,本次发布增加了一键安装包和演示环境。用户下载完成之后,解压缩即可运行系统。 最新的 安装包 包已经在代码库中可下载到:[链接] {代码...} R3 Query v5.0发布一键安装包和演示系统 1-1 R3 Query 企业级报表系统 R3 Query 的详细介绍R3 Query 的下载地址 R...

Apache Kylin™ Learn

2016-03-02
阅读 3 分钟
3.5k
Apache Kylin 是来自 eBay 的中国人韩卿 @lukehq 领导的团队开发的一个 OLAP 分析引擎,这是 ebay 历史上第一次开源并贡献给 apache 基金会的项目。该项目于 2015年成为 Apache 顶级项目。Kylin 的性能奇高,是 Hive 的 N 倍!

Linux cmd(待补充)

2016-02-23
阅读 1 分钟
2.4k
Linux Learn 第一部分 Chap 1 基础知识 本章重点 : Linux 命令 1-1 Linux Preface Linux 参考 : 每天一个Linux命令 Linux常用命令 1. 设置静态ip Linux设置静态IP 2. 查看本机网关与DNS 查看本机网关与DNS mac常用命令 open open /dir 用 Finder 打开某目录

HBase Learn Part01

2016-02-22
阅读 6 分钟
2.9k
Chap 1 认识 HBase 本章重点 : 了解 HBase 概念、发展历史 了解 HBase 基本特性 了解 HBase 在 Hadoop Ecosystem 1-1 HBase 简介 HBase 是 Hadoop Database 高性能、面向列、可伸缩的分布式存储系统 HBase 是 一种 NoSql (Not only SQL) 存储系统, 专门用来快速随机读写大规模数据 HBase 弥补了 Hadoop 只能离线批处理的...

Sqoop Learn Use

2016-02-16
阅读 3 分钟
2.8k
sqoop 即 SQL to Hadoop ,是一款方便的在传统关系数据库与 Hadoop 之间进行数据迁移的工具,充分利用 MapReduce 并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,sqoop1和sqoop2。

Hive Learn Part01

2016-02-15
阅读 4 分钟
2.7k
Hive Learn 第一部分 Chap 1 基础知识 本章重点 : 初步了解 Hadoop 生态圈 初步了解 Hive 架构图 1-1 Hive Preface Hadoop 简介 Hadoop 生态系统 是 处理大数据集而产生的解决方案。 Hadoop 实现计算模型 MapReduce, 可将计算任务分割成多个处理单元,这个计算模型下面是一个 HDFS。 Hive 简介 Hive 提供了一个 Hive查询...

我的bash与vim配置文件

2016-02-15
阅读 13 分钟
2.2k
.zshrc {代码...} .vimrc {代码...}

Spark Learn Part01 introduce and install

2016-02-01
阅读 5 分钟
2.3k
Chap 0 前言 从历史说起 : Spark 发源于 美国加州大学伯克利分校 AMPLap 大数据分析平台 Spark 立足于内存计算、从多迭代批量处理出发 Spark 兼顾数据仓库、流处理、图计算 等多种计算范式,大数据系统领域全栈计算平台 Chap 1 Spark简介 本章重点 : Spark 框架、架构、计算模型、数据管理策略 Spark BDAS 项目及其子项...

Scala Learn 03 File/Match/Trait

2016-02-01
阅读 8 分钟
2k
Chap 9 文件/正则表达式 focus on Source.fromFile(..).getLines.toArray 输出文件的所有行 Source.fromFile(..).mkString 以字符串形式输出文件内容 将字符串转换为数字, 可以用 toInt 或 toDouble 方法 使用 Java 的 PrintWriter 来写入文本文件 "正则".r 是一个 Regex 对象 正则表达式 包含 或者 “ , 使用 """...""" ...

Scala Learn 02 Class/Object

2016-02-01
阅读 7 分钟
1.7k
Chapter 5 Class focus on: var foo: Scala自动合成 getter 和 setter val foo: Scala 自动合成 getter 由你定义 foo and foo_= 方法 由你定义 foo 方法 5.1 简单类 {代码...} 5.2 带 getter 和 setter 属性 {代码...} {代码...} 5.3 只带 getter 属性 {代码...} 5.4 对象私有字段 {代码...} 5.5 主/辅 构造器 {代码...}...

python_send_mail_implement_example

2016-01-27
阅读 3 分钟
2.2k
python_send_mail_example python 中 email模块、smtplib模块 使得处理邮件变得比较简单. 我这里参考网上小五义的一些代码,实现了一个简单的发送邮件例子,具体代码如下 : 常量脚本 constant_mail.py {代码...} 主脚本 send_mail.py {代码...} 参考 : 小五义

Pentaho-kettle

2016-01-22
阅读 3 分钟
4.4k
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程, 我们经常会遇到各种数据的处理,转换,迁移,所以掌握一种 ETL 工具的使用必不可少。

转-朝花夕拾之–大数据平台CDH集群离线搭建 (old article)

2016-01-19
阅读 8 分钟
4.9k
摘要:管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文先是简要对比了当前的类似工具,而后详细记录了以离线方式部署CDH集群>的步骤。

Scala Learn 1 Basic

2016-01-11
阅读 20 分钟
2.4k
Chap 0 前言 focus on: Scala 的语法十分简洁 Scala 运行在虚拟机之上, 可以使用 java 的海量类库和工具 Scala 拥抱函数式编程的同时,并没有废弃面向对象 Scala 既有动态语言那样的灵活简洁,同时有保留了静态类型检查的安全与执行效率 Scala 既能处理脚本化的临时任务,又能处理高并发场景下的分布式互联网大数据应用...

logback 那是我夕阳小的奔跑

2015-12-27
阅读 2 分钟
2k
Logback 一个开源日志组件。Logback 当前分成三个模块:logback-core, logback- classic 和 logback-access。