SF
小沙文的技术专栏
小沙文的技术专栏
注册登录
关注博客
注册登录
主页
关于
RSS
线性模型和非线性模型的区别
小沙文
2017-05-30
阅读 1 分钟
14.4k
在机器学习的回归问题中,线性模型和非线性模型都可以去对曲线进行建模,那么线性模型和非线性模型有什么区别呢? 其实,线性模型和非线性模型的区别并不在于能不能去拟合曲线。下面我们来详细介绍一下它们两个的区别。 线性回归的等式 线性回归需要一个线性的模型。这到底意味着什么呢? 一个模型如果是线性的,就意味...
天池大数据比赛总结
小沙文
2017-05-30
阅读 4 分钟
6.8k
这次比赛的题目是给定 2015 年 7 ~ 11 月份的用户在不同地点口碑购买记录,以及 2015 年 7 ~ 11 月淘宝上用户的购物行为数据,来预测 12 月这一整月用户来到一个地点之后会光顾哪些口碑商铺。这个比赛有一个很有意思的地方,就是它关注的是一个用户来到一个他之前没有去过的新地点之后,他会去哪些店铺消费,有一点像推...
Spark RDD学习: aggregate函数
小沙文
2016-11-26
阅读 2 分钟
9k
aggregate函数首先对每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个操作返回的类型不需要和RDD中元素类型一致,所以在使用 aggregate()时,需要提供我们期待的返回类型的初始值,然后通过一个函数把RDD中的元素累加起来??放入累加器?。考虑到每个节点是在本...
Kaggle 比赛: 德国信用卡违约数据分析
小沙文
2016-11-26
阅读 3 分钟
7.3k
下面展示一下数据处理流程,主要是处理了一下缺失值,然后根据特征按连续型和离散型进行分别处理,使用了 sklearn 里面的 LogisticRegression 包,下面的代码都有很详细的注释。
Flask中向前端传递或者接收Json文件的方法
小沙文
2016-11-25
阅读 2 分钟
21.4k
最近在学习Python的flask微框架,用到最多的就是和前端针对REST API进行交互,那么自然而然传递Json就成为了家常便饭,特意总结了一下和前端交互几种方法。
Linux常用命令: find 和 ping
小沙文
2016-11-25
阅读 1 分钟
2.4k
locate 其实相当于 "find -name",但是要比后者快得多,原因在于它不搜索具体目录,而是搜索一个数据库(/var/lib/locatedb),这个数据库中含有本地所有文件信息。Linux系统自动创建这个数据库,并且每天自动更新一次,所以使用locate命令查不到最新变动过的文件。
Elasticsearch 学习: Java API (一)
小沙文
2016-11-25
阅读 6 分钟
6k
最近在学习 Elasticsearch,这是一个分布式的大数据搜索引擎,其实也可以看作是一个分布式的数据库。我使用的 Elasticsearch 的版本是 2.4.1,鉴于网上相关的中文资料较少,所以自己看官方文档学习一下。