如何优化基于Jupyter的分析/挖掘测试项目

2018-11-04
阅读 5 分钟
3.5k
对于一个有软件工程项目基础的程序员而言,我们这群来源「可疑」的Data Scientist最被人诟病的就是期代码质量堪忧到让人崩溃的程度。本篇文章将介绍自己在以python/Jupyter Notebook为基础的分析/挖掘项目时是如何优化代码使其具有更大的可读性(执行效率不是本文的主要目的)。

用进度条助您特征工程一臂之力

2018-08-18
阅读 3 分钟
9.6k
在具体的分析或者特征工程之中,经常会遇到处理时间很久的问题,当然必要的优化是必须的。但是显然,数据量上升,计算量过大后,处理时间是必须的此。时,如果有个可以帮助您查看任务进度的进度条,必定可以提高你抓住处理时间去做(磨)别(洋)事(工)。当然逐行打印是不错的选择,但在Jupyter notebook/JupyterLab中...

用户行为与生存分析

2018-08-06
阅读 7 分钟
8.1k
生存分析(Survival Analysis)来源于基础医学领域,最早用来研究各种治疗方案对病人寿命的影响。而寿命则用一个end event(死亡)的方式衡量。基本定义如下:

数据指标/表现度量系统(Performance Measurement System)综述

2017-02-14
阅读 4 分钟
9.3k
传统的定量管理学中,一直是采用单个混合指标或者财务指标(financial index,大多数称为财务度量,financial measurement)做决策,但主要的缺点就是滞后性以及无法管理细节被人诟病1。

从原理推导逻辑斯蒂回归——Logit变换和潜在因子误差

2017-01-08
阅读 3 分钟
8.5k
逻辑斯蒂回归(Logistic Regression,以下简称LR)的应用还有工程学的思路一般介绍地都很清楚,大多数方法都从Sigmoid函数开始。本博文试图通过其他视角来重新理解LR是如何推导的。

与相关系数相关的二三事

2016-12-24
阅读 4 分钟
12.1k
Let me think... 我们什么时候学过相关系数(Correlation)一个词语。对了,就是验证模型好坏的R方里面的R。在R语言里调用也很简单:

完整数据团队Tips(关于BI系统、数据仓库、数据挖掘和数据实验的27条建议)

2016-12-22
阅读 2 分钟
4k
有没有明确的用户行为定义,还是说只有PV? 查看PV是了解用户在做什么的最快方法,但是还有其他更重要的事。如果以后考虑到要升级网站或者APP,那么最好的方法是将PV转化成定义好的并且清晰的事件,例如注册、购买等等。

Python来做假设检验

2016-11-28
阅读 2 分钟
21k
对于任何一个频率派的数据科学家而言,日常做数据分析难免还是会用到一些假设检验方法做一个数据探索和相关性、差异性分析,并且这也是做后续统计模型(机器学习类预测模型可以略过)预测的第一步。

Python 和 R 数据分析/挖掘工具互查

2016-05-01
阅读 5 分钟
14.7k
在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种。当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中。

一起来复习Data Science:那些让人抓狂的回归分析

2016-02-15
阅读 3 分钟
9.1k
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在此,我讲会从机器学习和统计学两个方面分别描述回归在两个领域中的区别。

一起来复习Data Science:统计学中那些让人容易遗忘的知识点

2016-02-03
阅读 3 分钟
7.8k
1 描述性统计和预测性统计 描述性统计(Descriptive Statistics) 描述性统计是用来描述数据现状的统计量,描述性统计包括以下值: 均值(Mean) 中值(Median) 范围(range,包括最大值和最小值) 方差(SD) 标准差(Var) 预测性统计(Predictive Statistics) 预测性统计是使用历史数据加上数据挖掘、机器学习等方法...