拓端数据(tecdat):R语言基于线性回归的资本资产定价模型(CAPM)

2021-02-10
阅读 4 分钟
2.5k
资本资产定价模型(CAPM) 是用于确定是否在一个特定资产的投资是值得的。本质上,问题是:“该资产的回报是否值得投资?” 在本教程中,我们将应用CAPM模型,使用多元回归模型查看特定股票是否值得投资。

拓端数据(tecdat):R语言ISLR工资数据进行多项式回归和样条回归分析

2020-08-21
阅读 10 分钟
3k
执行多项式回归使用age预测wage。使用交叉验证为多项式选择最佳次数。选择了什么程度,这与使用进行假设检验的结果相比如何ANOVA?对所得多项式拟合数据进行绘图。

拓端数据(tecdat):R语言GAM(广义相加模型)对物业耗电量进行预测

2020-08-14
阅读 2 分钟
1.3k
人们对于电力的需求与依赖随着生活水平的提高而不断加深,用电负荷预测工作开始变得越来越重要,如果可以发现用电负荷的规律性,我们就可以合理安排用电负荷。我们使用某商业物业两个星期的电耗数据进行分析。

拓端数据(tecdat):R语言多元CopulaGARCH模型时间序列预测

2020-08-10
阅读 2 分钟
1.8k
和宏观经济数据不同,金融市场上多为高频数据,比如股票收益率序列。直观的来说:后者要比前者“抖动”多了。有漂移且随机波动的序列,在一元或多元的情况下,构建Copula模型和GARCH模型是最好的选择。

拓端数据(tecdat):R语言如何使用rjags R2jags来建立贝叶斯模型

2020-08-10
阅读 4 分钟
1.7k
原文链接:[链接]本文是通过对area,perimeter,campactness几个变量的贝叶斯建模,来查看他们对groovelength这个变量的影响.并且对比rjagsR2jags和内置贝叶斯预测函数的结果。读取数据 {代码...} 建立回归模型 {代码...} 从回归模型的结果来看,三的自变量对因变量都有显著的意义。其中,area有正向的意义。而其他两个变量...

拓端数据(tecdat):R语言如何找到患者数据中具有差异的指标?(PLS—DA分析)

2020-08-06
阅读 2 分钟
1.8k
从海量数据中发现潜在标志指标, 需要借助多变量模式识别方法. 无监督的模式识别方法包括主成分分析(PCA、聚类分析(HCE)等,根据模式识别模型抽提出对分类有重要贡献的指标后, 如果还需要进一步验证这些指标的差异性,那么可以在r语言中使用PLSDA模型进行分析。

拓端数据(tecdat):R语言混合正态分布EM最大期望估计

2020-08-06
阅读 3 分钟
1.6k
因为近期在分析数据时用到了EM最大期望估计法这个算法,在参数估计中也用到的比较多。然而,发现国内在R软件上实现高斯混合分布的EM的实例并不多,大多数是关于1到2个高斯混合分布的实现,不易于推广,因此这里分享一下自己编写的k个高斯混合分布的EM算法实现请大神们多多指教。并结合EMCluster包对结果进行验算。

拓端数据(tecdat):r语言618电商大数据分析可视化报告

2020-08-05
阅读 2 分钟
1.6k
618购物狂欢节前后,网民较常搜索的关键词在微博、微信、新闻三大渠道的互联网数据表现,同时通过分析平台采集618相关媒体报道和消费者提及数据。

拓端数据(tecdat):r语言对twitter推特数据进行挖掘

2020-08-05
阅读 3 分钟
1.7k
Twitter is a popular social network, where a lot of data waiting for our analysis. Twitter R package is a good tool for text mining of twitter data. This article is about how to use Twitter R package to get twitter data and import it into R, and then make some interesting data analysis.

拓端tecdat|R语言电信公司churn数据客户流失 k近邻(knn)模型预测分析

2020-08-05
阅读 11 分钟
1.6k
A telephone company is interested in determining which customer characteristics are useful for predicting churn, customers who will leave their service. 

拓端tecdat|R语言犯罪率回归模型报告Regression model on crimerate report

2020-07-26
阅读 7 分钟
1.7k
原文链接:[链接]Objection:  {代码...} `Population Income Illiteracy Life Exp Murder HS Grad FrostAlabama 3615 3624 2.1 69.05 15.1 41.3 20Alaska 365 6315 1.5 69.31 11.3 66.7 152Arizona 2212 4530 1.8 70.55 7.8 58.1 15Arkansas 2110 3378 1.9 70.66 10.1 39.9 65California 21198 5114 1.1 71.71 10.3 62....

拓端数据(tecdat)|R语言旅行推销员问题TSP

2020-07-19
阅读 2 分钟
1.5k
常用术语中的旅行推销员问题(TSP)是最复杂的问题之一,归结为组合优化。旅行到n个城市(顶点)需要检查(n-1)!可能性。3,000个地点有4 * 10 ^ 9131个可能的解决方案。

拓端数据(tecdat)|R语言法国足球联赛球员因子分析、主成分分析(FA,PCA)

2020-07-19
阅读 3 分钟
1.5k
数据来自国际足联15岁的视频游戏 。游戏的特点是在游戏的各个方面评价每个玩家的能力。本来,等级是量化变量(介于0和100之间),但我们将它们转换为分类变量(我们将讨论为什么我们稍后选择这样做)。所有能力都被编码在4个位置:1.低/ 2.平均/ 3.高/ 4.非常高。

拓端数据(tecdat)|R语言生存分析数据分析可视化案例

2020-07-19
阅读 22 分钟
3.2k
本文的目的是对如何在R中进行生存分析进行简短而全面的评估。关于该主题的文献很广泛,仅涉及有限数量的(常见)问题/特征。 可用的R包数量反映了对该主题的研究范围。 

拓端数据(tecdat)|R语言深度学习不同模型对比分析案例

2020-07-18
阅读 9 分钟
1.5k
深度学习是机器学习最近的一个趋势,模拟高度非线性的数据表示。在过去的几年中,深度学习在各种应用中获得了巨大的发展势头(Wikipedia 2016a)。其中包括图像和语音识别,无人驾驶汽车,自然语言处理等等。 

拓端数据(tecdat)|R语言隐马尔可夫模型HMM识别不断变化的股票市场条件

2020-07-18
阅读 2 分钟
1.4k
某些策略在波动剧烈的市场中表现良好,而其他策略则需要强劲而平稳的趋势,否则将面临长时间的下跌风险。搞清楚什么时候开始或停止交易策略,调整风险和资金管理技巧,甚至设置进入和退出条件的参数都取决于市场“制度”或当前的情况。

拓端tecdat|R语言连续时间马尔科夫链模拟案例 Markov Chains

2020-07-18
阅读 1 分钟
1.6k
一个加油站有一个单一的泵,没有空间供车辆等待(如果车辆到达,泵不在,它就会离开)。车辆到达与以下的速率泊松过程加油站λ=3/20λ=3/20每分钟车辆,其中75%是汽车,25%是摩托车。加油时间可以用一个指数随机变量建模,平均汽车8分钟,摩托车3分钟,服务速率为μC= 1 / 8μC=1/8汽车和μ米= 1 / 3μ米=1/3 摩托车每分钟。

拓端tecdat|R语言实现LDA主题模型分析网购数据

2020-07-17
阅读 2 分钟
941
我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将模型生成的20个主题中的高频词取出。

拓端tecdat|R语言中实现马尔可夫链蒙特卡罗MCMC模型

2020-07-17
阅读 8 分钟
1.9k
这只是众多算法之一。这个术语代表“马尔可夫链蒙特卡洛”,因为它是一种使用“马尔可夫链”(我们将在后面讨论)的“蒙特卡罗”(即随机)方法。MCMC只是蒙特卡洛方法的一种,尽管可以将许多其他常用方法看作是MCMC的简单特例。

拓端tecdat|R语言Bass模型进行销售预测

2020-07-17
阅读 3 分钟
1.9k
原文:[链接]BASS扩散模型BASS扩散模型三个参数:#最终购买产品的总人数,m; 创新系数p; 和#系数的模仿, {代码...} #将M的起始值设置为记录的总销售额。 {代码...} {代码...} {代码...} {代码...}

拓端tecdat|R语言使用马尔可夫链对营销中的渠道归因建模

2020-07-17
阅读 4 分钟
1.2k
在这篇文章中,我们看看什么是渠道归因,以及它如何与马尔可夫链的概念联系起来。我们还将通过一个电子商务公司的案例研究来理解这个概念在理论上和实践上如何运作(使用R)。

拓端tecdat|R语言基于ARCH模型股价波动率建模分析

2020-06-22
阅读 3 分钟
1.3k
金融中一个重要度量是与资产相关的风险,而资产波动率是最常用的风险度量。然而,资产波动率的类型有多种。波动率是期权定价和资产分配中得一个关键颜色。波动率不能直接观测的性质在波动率研究和建模中有非常重要的含义

拓端tecdat|R语言离群值处理分析

2020-06-22
阅读 2 分钟
1.8k
在真实观察中处理或改变异常值/极端值不是标准操作程序。但是,了解它们对预测模型的影响至关重要。留待调查人员判断是否需要治疗异常值以及如何去做。

拓端tecdat|R语言基于ARMA-GARCH过程的VaR拟合和预测

2020-06-22
阅读 2 分钟
1.1k
原文链接 [链接]本文展示了如何基于基础ARMA-GARCH过程(当然这也涉及广义上的QRM)来拟合和预测风险价值(Value-at-Risk,VaR)。 {代码...} 模拟数据我们考虑具有t的ARMA(1,1)-GARCH(1,1)过程​​将ARMA-GARCH模型拟合到(模拟的)数据拟合一个ARMA-GARCH过程。​计算VaR时间序列计算风险价值估计值。请注意,我们也...

拓端tecdat|R语言用随机森林和文本挖掘提高航空公司客户满意度

2020-06-22
阅读 4 分钟
908
尽管北美航空业强劲,但为了保持持续增长以及作为跨地区行业领导者的持续地位,必须时刻保持警惕,以跟上客户需求。当然,在这方面的成功要求航空公司首先了解客户关心的是什么。发现航空公司客户喜欢和不喜欢他们的飞行体验是该项目的起点。

拓端tecdat|R语言中实现层次聚类模型

2020-06-22
阅读 1 分钟
876
原文链接:[链接]大家好!在这篇文章中,我将向你展示如何在R中进行层次聚类。 什么是分层聚类?分层聚类是一种可供选择的方法,它可以自下而上地构建层次结构,并且不需要我们事先指定聚类的数量。该算法的工作原理如下:将每个数据点放入其自己的群集中。确定最近的两个群集并将它们组合成一个群集。重复上述步骤,直...

拓端tecdat|R语言鸢尾花iris数据集的层次聚类分析

2020-06-22
阅读 2 分钟
1.7k
本文在数据集上展示了如何使用dendextend R软件包来增强Hierarchical Cluster Analysis(更好的可视化和灵敏度分析)。

拓端tecdat|R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

2020-06-22
阅读 2 分钟
1.2k
通过对用电负荷的消费者进行聚类,我们可以提取典型的负荷曲线,提高后续用电量预测的准确性,检测异常或监控整个智能电网(Laurinec等人(2016),Laurinec和Lucká( 2016))。第一个用例通过K-medoids聚类方法提取典型的电力负荷曲线。

拓端tecdat|R语言时间序列分析:GARCH(1,1),MA以及历史模拟法的VaR比较

2020-06-22
阅读 2 分钟
1.8k
解决这个问题的一个强有力的方法是将VaR与GARCH模型结合起来考虑条件波动性。为了说明这种方法,我们将一个正态分布的GARCH(1,1)应用于瑞士股票市场指数SMI。

拓端tecdat|R语言时间序列TAR阈值模型分析

2020-06-22
阅读 2 分钟
915
阈值模型用于几个不同的统计领域,而不仅仅是时间序列。总体思路是,当一个变量的值超过一定的阈值时,一个进程可能会有不同的表现。也就是说,当值大于阈值时,可能会应用不同的模型,而不是在阈值以下。