ALLUVIAL DIAGRAM(冲积图)详解和R语言实现实例

2022-11-30
阅读 2 分钟
1.5k
冲积图是最初开发用来表示随时间变化的网络结构的一种流程图。为了兼顾它们的视觉外观和对流动的重视,冲积图是以流水堆积的土壤自然形成的冲积扇命名的。变量分配给平行的垂直轴。值由每个轴上的块表示。块的高度表示簇的大小,并且流域的高度表示由流域连接的两个块中包含的组件的大小。

拓端tecdat|R语言有状态依赖强度的非线性、多变量跳跃扩散过程模型似然推断分析股票价格波动

2021-07-08
阅读 7 分钟
1.5k
跳跃扩散过程为连续演化过程中的偏差提供了一种建模手段。但是,跳跃扩散过程的微积分使其难以分析非线性模型。本文开发了一种方法,用于逼近具有依赖性或随机强度的多变量跳跃扩散的转移密度。通过推导支配过程时变的方程组,我们能够通过密度因子化来近似转移密度,将跳跃扩散的动态与无跳跃扩散的动态进行对比。在这...

拓端数据(tecdat):用R进行网站评论文本挖掘聚类

2020-08-06
阅读 1 分钟
1.3k
对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。 

拓端tecdat|R如何与Tableau集成分步指南

2020-07-17
阅读 6 分钟
1.5k
Tableau是当今数据科学和商业智能专业人员使用的最流行的数据可视化工具之一。它使您能够以交互式和多彩的方式创建具有洞察力和影响力的可视化效果。

拓端tecdat|基于R的FP树fp growth 关联数据挖掘技术在煤矿隐患管理

2020-03-26
阅读 10 分钟
1.2k
研究煤矿隐患数据的挖掘以实现海量隐患数据的有效利用,在分析矿山数据挖掘枝术和煤矿隐患数据特点的基础上,提出煤矿隐患数据挖掘是矿山数字化的重要组成部分,给出煤矿隐患数据挖掘的概念,设计了煤矿隐患数据挖掘模型,并进一步分析了适用于煤矿隐患数据的挖掘算法。以关联算法为例,对隐患数据进行多维关联规则挖掘...

拓端tecdat|R语言解决最优化问题-线性优化(LP)问题

2020-03-21
阅读 2 分钟
2.8k
 原文:[链接]​线性优化简介优化是一种为所有可能的解决方案找到给定问题的最佳解决方案的技术。优化使用严格的数学模型来找出给定问题的最有效解决方案。要从优化问题开始,首先确定目标非常重要。目标是绩效的量化衡量。例如:最大化利润,最小化时间,最小化成本,最大化销售。优化问题可分为两组线性规划(LP):它...

拓端tecdat|SAS,R和Python应对数据管理和分析挑战

2020-03-19
阅读 3 分钟
3.5k
去年,我与一家公司进行了短暂的咨询工作,该公司正在构建一个主要由基于Web的数据存储库驱动的分析应用程序。数据存储为SAS数据集的集合,“客户”可以通过上载SAS数据步骤和proc SQL脚本来将其作为子集。生成的数据随后可供下载。我的职责是指导团队使用SAS应对数据管理和分析挑战。

拓端tecdat|R和Python机器学习:广义线性回归glm,样条glm,梯度增强,随机森林和深度学习模型分析

2020-03-19
阅读 2 分钟
2.1k
使用R和Python进行分析的主要好处之一是,它们充满活力的开源生态系统中总是有新的和免费提供的服务。如今,越来越多的数据科学家能够同时在R,Python和其他平台上使用数据,这是因为供应商向R和Python引入了具有API的高性能产品,也许还有Java,Scala和Spark。

拓端tecdat|R、Python、OpenRefine采集pdf数据,清理数据和格式化数据

2020-03-19
阅读 3 分钟
2.6k
在本文中,我们将介绍一些技巧和窍门,这些技巧和窍门用于在线查找所需数据,将其存储到计算机上以及如何识别和清除“脏”数据。我们还将回顾一些常见的数据格式,以及如何从一种转换为另一种。

拓端数据|R语言聚类分析:k-means和层次聚类

2018-07-19
阅读 3 分钟
9.6k
尽管我个人非常不喜欢人们被划分圈子,因为这样就有了歧视、偏见、排挤和矛盾,但“物以类聚,人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。

拓端数据|R语言与Tableau集成之可视化应用

2018-07-11
阅读 3 分钟
3.1k
Tableau是一款非常棒的数据可视化商业软件,通过拖拉拽的方式迅速的实现数据可视化。而且该软件可以连接任何一种数据库,在处理大型数据时一点都不逊色。下面展示几幅Tableau绘制的图形:

拓端数据|自然语言理解-从规则到深度学习

2018-07-11
阅读 4 分钟
3.3k
摘要:自然语言理解是人工智能的核心难题之一,也是目前智能语音交互和人机对话的核心难题。之前写过一篇文章自然语言理解,介绍了当时NLU的系统方案,感兴趣的可以再翻一番,里面介绍过的一些内容不再赘述。本文详细讨论了自然语言理解的难点,并进一步针对自然语言理解的两个核心问题,详细介绍了规则方法和深度学习的...

拓端数据|R语言CRAN软件包Meta分析

2018-07-10
阅读 3 分钟
2.2k
我一直在寻找各种方法来查找有关R包的信息,但我最近才了解CRAN_package_db()了基本tools包中的函数。如果一位同事没有向我指出,我确信我永远不会自己找到它。

拓端数据|R语言:用R语言填补缺失的数据

2018-07-10
阅读 2 分钟
2.7k
如果缺失数据的量相对于数据集的大小非常小,那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略,但是留下可用的数据点会剥夺某些数据的特征。

拓端数据|R实现Polynomial regression

2018-07-06
阅读 2 分钟
3.4k
当我们在研究两个数值型变量的关系时,常常首先以其中一个变量为横坐标,另一个变量为纵坐标画一个散点图,这样可以快速直观地知道两个变量的大致关系。如果呈现较为明显的线性关系,则我们可以选择线性回归来拟合二者的关系;如果无明显直线关系,而是呈现未知的曲线关系,这时候,我们可选择使用polynomial regression...

拓端数据|r语言中对LASSO,Ridge和ElasticNet模型实现

2018-06-19
阅读 2 分钟
5.6k
Glmnet是一个通过惩罚最大似然来拟合广义线性模型的包。正则化路径是针对正则化参数λ的值网格处的套索或弹性网络罚值计算的。该算法速度极快,可以利用输入矩阵中的稀疏性x。它符合线性,逻辑和多项式,泊松和Cox回归模型。可以从拟合模型中做出各种预测。它也可以适合多响应线性回归。

拓端数据|R语言如何和何时使用glmnet岭回归

2018-06-19
阅读 2 分钟
4.7k
当回归模型的参数被学习时,岭回归使用L2正则化来加权/惩罚残差。在线性回归的背景下,它可以与普通最小二乘法(OLS)进行比较。OLS定义了计算参数估计值(截距和斜率)的函数。它涉及最小化平方残差的总和。L2正则化是OLS函数的一个小增加,以特定的方式对残差进行加权以使参数更加稳定。结果通常是一种适合训练数据的...

拓端数据tecdat:R语言中对文本数据进行主题模型topicmodeling分析

2018-06-19
阅读 10 分钟
5.1k
在文本挖掘中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成自然组,以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种方法,类似于对数字数据进行聚类,即使我们不确定要查找什么,也可以找到自然的项目组。

拓端数据tecdat:Tensorflow进行时间序列分析

2018-06-19
阅读 4 分钟
7.8k
摘要:2017年深度学习框架关注度排名tensorflow以绝对的优势占领榜首,本文通过使用tensorflow优化过去一个使用特征提取方法的框架,证实了深度学习的优秀性能。