SF
DS数说
DS数说
注册登录
关注博客
注册登录
主页
关于
RSS
时间序列分析—8大挑战
没有蜡笔的小晞
2022-11-28
阅读 2 分钟
1.1k
时间序列是一系列按时间排序的值。预测这些数据集的关键是观察时序之间的时间依赖性,以及过去发生的事情是如何影响未来的。但以下8个原因可能是影响时序预测可靠性(预测性能)的主要原因:
NewSQL、Lakehouse、HTAP及数据的未来
没有蜡笔的小晞
2022-08-29
阅读 5 分钟
1.3k
这是一篇关于数据库的现代数据栈的译文,来自前亚马逊、微软、Meta工程师Luhui Hu的文章《NewSQL, Lakehouse, HTAP, and the Future of Data[1]》,帮助我们了解当前主流的数据库产品及未来趋势。
几种常见采样方法及原理
没有蜡笔的小晞
2022-06-09
阅读 11 分钟
5.8k
原文地址 mp.weixin.qq.com不平衡数据集是指类别分布严重偏斜的数据集,例如少数类与多数类的样本比例为 1:100 或 1:1000。训练集中的这种偏差会影响许多机器学习算法,甚至导致完全忽略少数类,容易导致模型过拟合,泛化能力差。所以,针对类别分布不均衡的数据集,一般会采取采样的方式,使得类别分布相对均衡,提升模...
基于Streamlit_prophet玩转Prophet时序预测
没有蜡笔的小晞
2022-03-14
阅读 5 分钟
2.1k
本文首先介绍Prophet模型基本使用,再介绍一个开箱即用的开源项目--Streamlit_prophet,进一步降低Prophet使用门槛(甚至给运营、业务都会用~)
MindsDB—写SQL就能建模的数据库
没有蜡笔的小晞
2022-02-21
阅读 6 分钟
4.2k
去年就偶遇MindsDB,当时docker部署体验,bug太多,直接放弃。近期闲逛github趋势,MindsDB再次出现(上了周榜)。想必是Bug修复了,能稳定运行,决定再深度使用它,看看能不能在生产环境中发挥些作用(拭目以待~)。
机器学习 — Decision Tree
没有蜡笔的小晞
2022-01-10
阅读 4 分钟
1.4k
1个月未更新了,年底事情比较多(社畜都懂得~)。上月底报名了百度飞桨的一个常规赛-- MarTech Challenge 点击反欺诈预测 ,搞了一周(社畜只能下班熬夜搞!),运气比较好,水到了Top1。
2021科大讯飞-车辆贷款违约预测挑战赛Top1--方案学习
没有蜡笔的小晞
2021-12-10
阅读 16 分钟
3.3k
公众号:DS数说 作者:xihuishaw简介车贷违约预测问题,目的是建立风险识别模型来预测可能违约的借款人。预测结果为借款人是否可能违约,属于二分类问题。偏数据挖掘的比赛,关键点是如何基于对数据的理解抽象归纳出有用的特征。站在大佬的视角,尝试学习总结,站在巨人的肩膀上,也许看得会更远一些。直接进入主题,开...
Linux基础(三)
没有蜡笔的小晞
2021-11-30
阅读 4 分钟
1.3k
在Python中有一个内置库os,是一个系统接口库,operating system interfaces。在linux系统中处理数据、运行脚本的时候,经常会操作文件和目录,所以os库就是起这个作用,对于固定逻辑的文件、目录的操作,都可以写成脚本的形式。
Linux基础(二)
没有蜡笔的小晞
2021-11-27
阅读 2 分钟
956
使用vi或vim编辑文件在linux里的文本编辑,需要掌握一些快捷键操作。一般使用vim 、nanonanonano相对vim来说,更容易上手一些,没有vim那些神奇的操作(用的6的人,感觉ta在变魔术)新建、保存文件在底下有很多可选快捷键提醒(这就很友好了,一看就会~),倒三角就是Ctrl的意思 {代码...} 随便编辑,然后保存,会提醒你...
时间序列分析—从ARMA到ARIMA再到SARIMA
没有蜡笔的小晞
2021-11-23
阅读 14 分钟
8.4k
公众号:DS数说 作者:xihuishawARMAAR(p),MA(q)二者相结合,即为ARMA(p,q),自回归移动平均。公式如下:公式表示:当前时间步长的值是一个常数加上自回归滞后及其乘数之和,加上移动平均滞后及其乘数之和,再加上一些白噪声。兼具捕捉滞后项及残差的影响,更具普遍性。确定p,q的阶,根据最小二乘或极大似然估计等非参...
时间序列分析—移动平均(MA)及阶数的判定
没有蜡笔的小晞
2021-11-19
阅读 3 分钟
4.2k
公众号:DS数说 作者:xihuishaw一、移动平均模型(MA)1.1 MA定义定义:当前值是由过去误差的线性组合组成的,误差是服从正态分布并且相互独立的。q阶公式:1.2 对MA的理解自回归与移动平均建模的差异:移动平均(Moving average,MA)是以过去的残差项,也就是白噪声来做线性组合;AR模型是以过去的观察值来做线性组合;MA...
linux基础(一)
没有蜡笔的小晞
2021-11-16
阅读 5 分钟
1.1k
也许你会问,数分还需要掌握这些么?对,不需要,和数据分析没什么关系,但牵扯到工程问题,你绕不开这些,最近也在研究一些国外的开源数据产品,感受到了国外数分or数据科学岗位对于技术的要求明显是高于国内的(没办法,人家领先了我们很多在数据技术这块,得承认)。
5个Pandas组合函数的异同
没有蜡笔的小晞
2021-10-19
阅读 4 分钟
2.3k
在日常处理数据的时候,经常会遇到不同dataframe的连接、组合等操作,刚开始用的时候,会有点蒙,毕竟下面几个函数的作用类似,容易产生混淆。
机器学习 - Ensemble Model
没有蜡笔的小晞
2021-09-23
阅读 3 分钟
1.7k
公众号:DS数说 作者:xihuishaw机器学习 - Ensemble Model这里有 M1到 Mn 的n个单模,给出这n个模型预测结果分别为 pred1~ predn。我们把所有模型结果结合起来,形成单一的模型。现在的问题是,如何组合这些单模预测结果,来提升最终集成模型的准确性、减少泛化误差。这就是Ensemble的艺术。在现实的生产环境的数据集上...
客户流失-生存分析
没有蜡笔的小晞
2021-09-18
阅读 4 分钟
2.7k
公众号:DS数说 作者:xihuishaw客户流失-生存分析客户流失不同行业、处于不同的客户生命周期,对客户流失的定义均有差异。但总的来说,客户流失指的就是在一定时期内不再使用公司产品和服务的客户。针对客户流失的预测,有许多机器学习模型可以预测客户是否会流失。预测客户流失有几个好处:提前对有流失可能性的客户进...
Keras 初探
没有蜡笔的小晞
2018-06-07
阅读 5 分钟
5.6k
最近在接触些深度学习的东西,也对一些深度学习的框架进行了大致的了解。Python的科学计算包主要是Theano和TensorFlow,特点就是很强大,但对于初学者不太友好、有点难用。但Keras可以基于这两种包之一方便地建立神经网络。