全栈数据之门
前言 自强不息,厚德载物
0x1 Linux,自由之光
0x10 Linux,你是我的眼
0x11 Linux 基础,从零开始
01 Linux 之门
02 文件操作
03 权限管理
04 软件安装
05 实战经验
0x12 Sed 与Grep,文本处理
01 文本工具
02 grep 的使用
03 grep 家族
04 sed 的使用
05 综合案例
0x13 数据工程,必备Shell
01 Shell 分析
02 文件探索
03 内容探索
04 交差并补
05 其他常用的命令
06 批量操作
07 结语
0x14 Shell 快捷键,Emacs 之门
01 提高效率
02 光标移动
03 文本编辑
04 命令搜索
05 Emacs 入门
06 Emacs 思维
0x15 缘起Linux,一入Mac 误终身
01 开源生万物
02 有钱就换Mac
03 程序员需求
04 非程序员需求
05 一入Mac 误终身
0x16 大成就者,集群安装
01 离线安装
02 Host 与SSH 配置
03 sudo 与JDK 环境
04 准备Hadoop 包
05 开启HTTP 与配置源
06 安装ambari-server
07 后续服务安装
08 结语
0x2 Python,道法自然
0x20 Python,灵犀一指
0x21 Python 基础,兴趣为王
01 第一语言
02 数据结构
03 文件读写
04 使用模块
05 函数式编程
06 一道面试题
07 兴趣驱动
0x22 喜新厌旧,2 迁移3
01 新旧交替
02 基础变化
03 编码问题
04 其他变化
05 2to3 脚本
06 PySpark 配置
07 喜新厌旧
0x23 Anaconda,IPython
01 Anaconda
02 安装与配置
03 pip 与源
04 IPython 与Jupyter
05 结语
0x24 美不胜收,Python 工具
01 缘起
02 调试与开发
03 排版与格式化
04 辅助工具
05 实用推荐
0x25 numpy 基础,线性代数
01 numpy 的使用
02 索引与切片
03 变形与统计
04 矩阵运算
05 实用方法
06 结语
0x26 numpy 实战,PCA 降维
01 PCA 介绍
02 数据均值化
03 协方差矩阵
04 特征值与向量
05 数据映射降维
06 sklearn 实现
0x3 大数据,其大无外
0x30 太大数据,极生两仪
0x31 神象住世,Hadoop
01 Hadoop
02 HDFS
03 角色与管理
04 文件操作
05 结语
0x32 分治之美,MapReduce
01 map 与reduce 函数
02 分而治之
03 Hello,World
04 Streaming 接口
0x33 Hive 基础,蜂巢与仓库
01 引言
02 Hive 接口
03 分区建表
04 分区机制
05 数据导入
06 Hive-QL
07 结语
0x34 Hive 深入,实战经验
01 排序与分布式
02 多表插入与mapjoin
03 加载map-reduce 脚本
04 使用第三方UDF
05 实战经验
06 生成唯一ID
0x35 HBase 库,实时业务
01 理论基础
02 Shell 操作
03 关联Hive 表
04 数据导入
05 实用经验
0x36 SQL 与NoSQL,Sqoop 为媒
01 SQL 与NOSQL
02 从MySQL 导入HDFS
03 增量导入
04 映射到Hive
05 导入Hive 表
06 从HDFS 导出到MySQL
07 从Hive 导出到MySQL
0x4 数据分析,见微知著
0x40 大数据分析,鲁班为祖师
0x41 SQL 技能,必备MySQL
01 SQL 工具
02 基础操作
03 查询套路
04 join 查询
05 union 与exists
06 实战经验
0x42 快刀awk,斩乱数据
01 快刀
02 一二三要点
03 一个示例
04 应用与统计
05 斩乱麻
0x43 Pandas,数据之框
01 数据为框
02 加载数据
03 行列索引
04 行列操作
05 合并聚合
06 迭代数据
07 结语
0x44 Zeppelin,一统江湖
01 心潮澎湃
02 基本使用
03 SQL 与可视化
04 安装Zeppelin
05 配置Zeppelin
06 数据安全
07 使用心得
0x45 数据分组,聚合窗口
01 MySQL 聚合
02 Spark 聚合
03 非聚合字段
04 Hive 实现
05 group_concat
06 Hive 窗口函数
07 DataFrame 窗口
08 结语
0x46 全栈分析,六层内功
01 引言
02 MySQL 版本
03 awk 版本
04 Python 版本
05 Hive 版本
06 map-reduce 版本
07 Spark 版本
08 结语
0x5 机器学习,人类失控
0x50 机器学习,琅琊论断
0x51 酸酸甜甜,Orange
01 可视化学习
02 数据探索
03 模型与评估
04 组件介绍
05 与Python 进行整合
06 结语
0x52 sklearn,机器学习
01 sklearn 介绍
02 数据预处理
03 建模与预测
04 模型评估
05 模型持久化
06 三个层次
0x53 特征转换,量纲伸缩
01 特征工程
02 独热编码
03 sklearn 示例
04 标准化与归一化
05 sklearn 与Spark 实现
06 结语
0x54 描述统计,基础指标
01 描述性统计
02 Pandas 实现
03 方差与协方差
04 Spark-RDD 实现
05 DataFrame 实现
06 Spark-SQL 实现
07 结语
0x55 模型评估,交叉验证
01 测试与训练
02 评价指标
03 交叉验证
04 验证数据
05 OOB 数据
0x56 文本特征,词袋模型
01 自然语言
02 中文分词
03 词袋模型
04 词频统计
05 TF-IDF
06 结语
0x6 算法预测,占天卜地
0x60 命由己做,福自己求
0x61 近朱者赤,相亲kNN
01 朴素的思想
02 算法介绍
03 分类与回归
04 k 与半径
05 优化计算
06 实例应用
0x62 物以类聚,Kmeans
01 算法描述
02 建立模型
03 理解模型
04 距离与相似性
05 降维与可视化
06 无监督学习
0x63 很傻很天真,朴素贝叶斯
01 朴素思想
02 概率公式
03 三种实现
04 sklearn 示例
05 朴素却不傻
0x64 菩提之树,决策姻缘
01 缘起
02 Orange 演示
03 scikit-learn 模拟
04 熵与基尼指数
05 决策过程分析
06 Spark 模拟
07 结语
0x65 随机之美,随机森林
01 树与森林
02 处处随机
03 sklearn 示例
04 MLlib 示例
05 特点与应用
0x66 自编码器,深度之门
01 深度学习
02 特征学习
03 自动编码器
04 Keras 代码
05 抗噪编码器
0x7 Spark,唯快不破
0x70 人生苦短,快用Spark
0x71 PySpark 之门,强者联盟
01 全栈框架
02 环境搭建
03 分布式部署
04 示例分析
05 两类算子
06 map 与reduce
07 AMPLab 的野心
0x72 RDD 算子,计算之魂
01 算子之道
02 获取数据
03 过滤与排序
04 聚合数据
05 join 连接
06 union 与zip
07 读写文件
08 结语
0x73 分布式SQL,蝶恋飞舞
01 SQL 工具
02 命令行CLI
03 读Hive 数据
04 将结果写入Hive
05 读写MySQL 数据
06 读写三种文件
0x74 DataFrame,三角之恋
01 DataFrame
02 生成数据框
03 合并与join
04 select 操作
05 SQL 操作
06 自定义UDF
07 三角之恋
0x75 神器之父,Scala 入世
01 Spark 与Scala
02 Scala REPL
03 编译Scala
04 sbt 编译
05 示例分析
06 编译提交
0x76 机器之心,ML 套路
01 城市套路深
02 算法与特征工程
03 管道工作流
04 OneHotEncoder 示例
05 ML 回归实战
06 特征处理与算法
07 拟合与评估
0x8 数据科学,全栈智慧
0x80 才高八斗,共分天下
0x81 自学数据,神蟒领舞
01 机器学习
02 语言领域
03 Python 数据生态
04 相关资料
05 书籍推荐
06 性感的职业
0x82 数据科学,七大技能
01 七大技能
02 SQL 与NoSQL 技能
03 Linux 工具集
04 Python 或者R 语言生态
05 Hadoop 与Spark 生态
06 概率、统计与线性代数
07 机器学习与深度学习
08 业务及杂项
09 结语
0x83 大无所大,生态框架
01 计算生态
02 离线计算
03 交互分析
04 实时处理
05 算法挖掘
06 发行版本
07 其他工具
0x84 集体智慧,失控哲学
01 数据是宝
02 一分为二
03 回归统一
04 聚少成多
05 你中有我
06 从小看大
07 大事化小
08 少即是多
0x85 一技之长,一生之用
01 一技之长
02 数据分析相关
03 Python 相关
04 Hadoop 相关
05 Spark 相关
06 模型相关
07 算法相关
08 一生之用
0x86 知识作谱,数据为栈
01 知识作谱
02 理论基础
03 Python
04 分析与可视化
05 大数据
06 ETL 与特征工程
07 机器学习与深度学习
08 工具与库
09 全栈为用
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。