余弦相似度算法进行客户流失分类预测
余弦相似性是一种用于计算两个向量之间相似度的方法,常被用于文本分类和信息检索领域。具体来说,假设有两个向量A和B,它们的余弦相似度可以通过以下公式计算:
2023-05-03
Pandas库基础分析——数据规整化处理
在数据分析和建模之前需要审查数据是否满足数据处理应用的要求,以及对数据进行清洗,转化,合并,重塑等一系列规整化处理。pandas标准库提供了高级灵活的方法,能够轻松地将数据规整化为正确的形式,本文通过例程介绍使用pandas库从获取数据到最终数据重塑的方法。
并行计算框架Polars、Dask的数据处理性能对比
在Pandas 2.0发布以后,我们发布过一些评测的文章,这次我们看看,除了Pandas以外,常用的两个都是为了大数据处理的并行数据框架的对比测试。
2023-07-08
百闻不如一练:可视化调试模型超参数 !
如果选用随机森林作为最终的模型,那么找出它的最佳参数可能有1000多种组合的可能,你可以使用使用穷尽的网格搜索(Exhaustive Grid Seaarch)方法,但时间成本将会很高(运行很久...),或者使用随机搜索(Randomized Search)方法,仅分析超参数集合中的子集合。
2020-06-09
Bootstrap的直白说明
bootstrap不是twitter的那个前端,而是统计学中的概念,下边随实验进行说明假设有个事件,共发生了10000000次,发生的概率呈泊松分布。当然,假设我们是不知道他是泊松分布的
2016-08-31
Theano - 条件
IfElse vs Switch IfElse接收布尔型条件和两个变量作为输入。 Switch接收一个张量(Tensor)以及两个变量作为输入。 Switch进行元素级运算,因此比IfElse更常用。 IfElse比较懒惰,只计算满足条件的相应输出变量, 而Switch计算所有的输出变量。 即: ifelse(condition, output1, output2): 如果condition:1(0),那么ifel...
2017-06-28
代码性能-php(一)
新博客地址:[链接] 写了几天python.tornado,换下口味,看看教程,回顾下PHP。 本文关于php路由 && php性能。 php性能测试 0X01.Apache Benchmark ab [options] [full url] ab -n 100 -c 100 [链接] {代码...} 其中,-n 请求次数, -c 并发次数。 0<c<=250 & a<50000 主要用于测试相应速度,并发...
InfluxDB -- influxQL的group和fill
group是influxQL中常见的聚合函数,常用于按时间聚合(一段时间内的最大/最小/平均);若在聚合时没有足够的数据点,可指定fill填充特定的值。
2021-09-18
R语言分析
title: "Assignment 2"author: "YOUR NAME"date: "October 10, 2021 (due Oct 17, 2021)"
2021-10-19
MindSpore报错 Select GPU kernel op * fail! Incompatible data type
1 报错描述1.1 系统环境Hardware Environment(Ascend/GPU/CPU): GPUSoftware Environment:– MindSpore version (source or binary): 1.5.2– Python version (e.g., Python 3.7.5): 3.7.6– OS platform and distribution (e.g., Linux Ubuntu 16.04): Ubuntu 4.15.0-74-generic– GCC/Compiler version (if compiled from ...
2022-07-17
Pandas使用DataFrame进行数据分析比赛进阶之路(一)
这篇文章中使用的数据集是一个足球球员各项技能及其身价的csv表,包含了60多个字段。数据集下载链接:数据集 1、DataFrame.info() 这个函数可以输出读入表格的一些具体信息。这对于加快数据预处理非常有帮助。 {代码...} {代码...} 2、DataFrame.query() {代码...} 3、DataFrame.value_counts() 这个函数可以统计某一列...
Laravel Octane 安装 RoadRunner
在上一篇我们实现了 Swoole 在 Laravel 中的安装和使用,这一篇将讲解 RoadRunner 的安装和使用。安装 RoadRunner 和安装 Swoole 类似,唯一了区别是 RoadRunner 无需安装 php 的扩展。环境要求PHP 8.0+Larave 8.35+Swoole 和 RoadRunner 必须在 unix 系统下安装(macOS, linux, window(WSL2))RoadRunner:请先确保 cur...
2021-09-13
高斯混合模型:GMM和期望最大化算法的理论和代码实现
在本文中,将首先探讨混合模型,重点是高斯混合模型及其基本原理。然后将研究如何使用一种称为期望最大化(EM)的强大技术来估计这些模型的参数,并提供在Python中从头开始实现它。最后将演示如何使用Scikit-Learn库使用GMM执行聚类。
2023-12-02
STAT 440统计分析
STAT 440 - Spring 2019 - Midterm ProjectRecall that you may use your notes, books, or even the internet to help answer these questions, but all of thework should be your own and you should not ask anyone for help or about any details related to the classand project during this 60 hour period (thi...
2021-10-08
拓端tecdat|R语言动态图可视化:如何、创建具有精美动画的图
## # A tibble: 6 x 6 ## country continent year lifeExp pop gdpPercap ## ## 1 Afghanistan Asia 1952 28.8 8425333 779. ## 2 Afghanistan Asia 1957 30.3 9240934 821. ## 3 Afghanistan Asia 1962 32.0 10267083 853. ## 4 Afghanistan Asia 1967 34.0 11537966 836. ## 5 Afghanistan Asia 1972 36.1 13079460 74...
2020-03-19
拓端tecdat|r语言ggplot2误差棒图快速指南
原文链接:[链接]给直方图和线图添加误差棒准备数据这里使用ToothGrowth 数据集。 {代码...} 在下面的例子中,我们将绘制每组中牙齿长度的均值。标准差用来绘制图形中的误差棒。首先,下面的帮助函数会用来计算每组中兴趣变量的均值和标准差: {代码...} 统计数据 {代码...} 函数 geom_errorbar()可以用来生成误差棒: ...
2021-09-01
机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特征优化模型融合等
工业蒸汽量预测(最新版本下篇)5.模型验证5.1模型评估的概念与正则化5.1.1 过拟合与欠拟合 {代码...} 使用线性回归拟合数据 {代码...} {代码...} 准确率为 0.495,比较低,直线拟合数据的程度较低。 {代码...} {代码...} {代码...} 5.1.2 回归模型的评估指标和调用方法 {代码...} 使用 Pipeline 拟合数据:degree = 2 {...
2023-03-31