Spark Machine Learning 05 Spark构建分类模型

2016-05-04
阅读 2 分钟
3.8k
Spark 构建分类模型 在分类模型中,我们期望根据一组特征来判断类别,这些特征代表了物体、事件或上下文相关的属性(变量)。 二分类 多分类 分类是监督学习的一种形式 我们用带有 类标记 or 类输出 的训练样本训练模型(也就是通过输出结果监督被训练的模型)。 分类模型适用于很多情形,一些常见的例子如下: 预测互联...

Spark Machine Learning 04 构建基于Spark的推荐引擎 (待完善)

2016-04-29
阅读 6 分钟
6.6k
推荐引擎背后的想法是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程。与搜索引擎不同,推荐引擎试图向人们呈现的相关内容并不一定就是人们所搜索的.

Spark Machine Learning 03 Spark上数据的获取、处理与准备

2016-04-27
阅读 11 分钟
4k
这些数据涉及电影和相关内容(比如标题、分类、图片、演员和导演)、用户信息(比如用户属性、位置和其他信息)以及用户活动数据(比如浏览数、预览的标题和次数、评级、评论,以及如赞、分享之类的社交数据,还有包括像Facebook和Twitter之类的社交网络属性)。

Spark Machine Learning 02 design machine learning system

2016-04-27
阅读 3 分钟
2.6k
Chap 02 Machine Learning Sys 如何对现有的基于网页的业务进行重新设计? focus on : 业务场景 现有架构 探寻用机器学习系统来增强或是替代某些业务功能的可能途径 提出新架构 支持高效完成所需类型的计算,即机器学习和迭代式分析应用。 2.1 MovieStream 介绍 2.2 机器学习系统商业用例 让机器学习来负担那些耗时且机器...

Spark Machine Learning 01 Spark Use @Scala、Python

2016-04-25
阅读 8 分钟
2.8k
简化了海量数据的存储(HDFS) 和 计算 (MR--在集群多个节点进行并行计算的框架) 流程, MapReduce 缺点, 如 : 启动任务时的高开销、对中间数据 和 计算结果 写入磁盘的依赖。这使得 Hadoop 不适合 迭代式 或 低延迟 的任务。

Spark Learn 3 BDAS Brief Introduction

2016-04-20
阅读 2 分钟
1.8k
AMPLab Spark Team created a big data company Databricks, 提供 Spark 的产品化支持.

Spark Learn 2 计算模型

2016-03-24
阅读 7 分钟
2.4k
Chap 3 Spark计算模型 Spark 的编程范型在处理大数据时显得简单有效,<key, value> 的数据处理与传输模式也大获全胜。 Spark 依靠 Scala 的 函数式编程 Actor 通信模式 闭包 容器 泛型 借助统一资源分配调度框架 Mesos, 融合 MapReduce 和 Dryad 而产生 产生高效的大数据分布式处理框架 spark 尤其适合 迭代型 和 ...

SBT build HelloWorld

2016-03-16
阅读 4 分钟
3.6k
SBT build HelloWorld focus on : 什么是 SBT ? SBT 项目工程目录 SBT 编译打包 Scala HelloWorld 1-1 SBT, What? SBT 是 Simple Build Tool 的简称. SBT 可以认为是 Scala 世界的 maven。 SBT的着迷特性,比如: DSL build构建, 并可混合构建 Java 和 Scala 项目; 通过触发执行 (trigger execution) 特性支持持续的编...

CentOS7 install spark+ipython-nodebook

2016-03-11
阅读 4 分钟
4.1k
在浏览器的界面中使用单元(Cell)保存各种信息。Cell 有多种类型,经常使用的有表示格式化文本的 Markdown单元,和表示代码的 Code单元。

Spark Learn Part01 introduce and install

2016-02-01
阅读 5 分钟
2.3k
Chap 0 前言 从历史说起 : Spark 发源于 美国加州大学伯克利分校 AMPLap 大数据分析平台 Spark 立足于内存计算、从多迭代批量处理出发 Spark 兼顾数据仓库、流处理、图计算 等多种计算范式,大数据系统领域全栈计算平台 Chap 1 Spark简介 本章重点 : Spark 框架、架构、计算模型、数据管理策略 Spark BDAS 项目及其子项...