数据科学 第 5 章 主成分分析(降维)、相关性

2018-11-30
阅读 2 分钟
4.6k
这两天用学了主成分分析,用的是PCA。主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。所以你想看具体哪个特征对结果的影响大,通过PCA是看不到的。但PCA能把原来的10+数据特征转变为几个,实现过程如下:

数据科学 第 5 章 建模过程 与 决策树模型

2018-11-25
阅读 4 分钟
2.3k
一周没写文了,之前干什么去了呢?本周前半部分卡在画图了,然后1/3的时间在处理数据,处理数据是我目前在画图和机器学习上一个重大的障碍,python处理各种报错各种不适合,等我学会了kettle和spark你再来堵我呀?哼!!!!前天开始去省图看书了,除了要花10块坐地铁,1个多小时的时间,没有缺点。有暖气这点就很好了,...

数据科学 第 4 章 1-3 画图的简单设置

2018-11-16
阅读 2 分钟
3.4k
第一节:保存就是教你怎么保存画的图,然后再打开它。保存:fig.savefig('myfigure.png')打开:Image('myfigure.png') 执行打开的时候要先加载一个包: from IPython.display import Image

数据科学 第 3 章 12 处理时间序列,小时、分

2018-11-13
阅读 2 分钟
7.4k
原以为本章是讲怎么用python处理时间格式,比如提取年月之类的。 但本节写的是时间格式已经工整后的事,暂时不是我想学的,所以跳过,就没有写公式了。

数据科学 第 3 章 11 字符串处理

2018-11-13
阅读 1 分钟
1.2k
本节是通过函数,查看值包含了哪些字符串,有点像搜索关键词主要的函数是:str.*()str.len() 长度str.contains() 包含**字符

数据科学 第 3 章 10 数据透视表

2018-11-12
阅读 3 分钟
2.9k
引用激励数据,连接数据库jili表,jili这几个太难打了,下文用df代表激励数据(代码省略)之前在excel中用烂了的透视表,终于用python来实现了,其实主要是讲pivot_table里面的参数怎么使用,但书中讲的不是详细,还是要自己找一些文档或者视频辅助学习。

数据科学 第 3 章: 9 累计与分组 groupby

2018-11-12
阅读 2 分钟
1.3k
groupby的过程:分割:把dataframe按指定的键分为若干组应用:对每个组应用函数,通常为累计、转换或过滤组合:将每组1的结果合并成一个输出数组。

数据科学 第 3 章: 7-8 合并、连接数据集

2018-11-12
阅读 2 分钟
1.5k
主要是讲merge函数的参数:pd.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None) pd.merge 官方文档

数据科学 第 3 章 5:缺失值处理、转换字符类型

2018-11-11
阅读 3 分钟
2.6k
<class 'pandas.core.frame.DataFrame'>RangeIndex: 42 entries, 0 to 41Data columns (total 10 columns):dep 42 non-null object #总共有42行group 42 non-null object name 42 non-null objectoldpro 26 non-null float64 #以下每列均有缺失值newpro 33 non-null float64oldrate 27 non-null float64newrate 27...

数据科学 第 3 章 4:连接mysql、改类型、索引应用

2018-11-10
阅读 2 分钟
1.4k
查看每列的格式:<class 'pandas.core.frame.DataFrame'>RangeIndex: 2324 entries, 0 to 2323Data columns (total 6 columns):date 2324 non-null objectid 2324 non-null objectword 2324 non-null objectrank1 2324 non-null objectnumber1 2324 non-null objecturl 2324 non-null objectdtypes: object(6)memo...

机器学习--决策树--dot转存pdf

2018-11-04
阅读 2 分钟
7.3k
又到周六了,时间可真是快啊,本周主要学习了机器学习的决策树算法。刚开始看视频的时候是看的cd*的level2python视频,讲的真差,太模糊了,不适合我。讲的第一个算法是决策树,对于代码和原理一点没听明白,然后找了视频看,在B站上看到排名比较前的是北风网的视频(深度剖析人工智能之决策树实战开发),听完一遍原理...