拓端数据(tecdat):适用于NLP自然语言处理的Python:使用Facebook FastText库

2020-08-21
阅读 11 分钟
1.9k
在本文中,我们将简要探讨FastText库。本文分为两个部分。在第一部分中,我们将看到FastText库如何创建向量表示形式,该向量表示形式可用于查找单词之间的语义相似性。在第二部分中,我们将看到FastText库在文本分类中的应用。

拓端数据(tecdat):Python中用PyTorch机器学习分类预测银行客户流失模型

2020-08-21
阅读 8 分钟
1.3k
分类问题属于机器学习问题的类别,其中给定一组功能,任务是预测离散值。分类问题的一些常见示例是,预测肿瘤是否为癌症,或者学生是否可能通过考试。

拓端数据(tecdat):python在Keras中使用LSTM解决序列问题

2020-08-21
阅读 12 分钟
1.8k
原文链接:[链接]时间序列预测是指我们必须根据时间相关的输入来预测结果的问题类型。时间序列数据的典型示例是股市数据,其中股价随时间变化。 递归神经网络(RNN)已被证明可以有效解决序列问题。特别地,作为RNN的变体的长期短期记忆网络(LSTM)当前正在各种领域中用于解决序列问题。序列问题的类型序列问题可以大致...

拓端数据(tecdat)|python机器学习:推荐系统实现(以矩阵分解来协同过滤)

2020-07-19
阅读 5 分钟
1.6k
相同的计算可以表示为矩阵乘法问题。首先,我们把用户属性放在一个名为U的矩阵中,在这个例子中是5,-2,1,-5和5。然后,我们把电影属性放在一个名为M的矩阵中,我们使用矩阵乘法来找出用户的评分。

拓端tecdat|Python用PyMC3实现贝叶斯线性回归模型

2020-06-21
阅读 2 分钟
2.3k
原文链接:[链接]在本文中,我们将在贝叶斯框架中引入回归建模,并使用PyMC3 MCMC库进行推理。​我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。用PyMC3进行贝叶斯线性回归在本节中,我们将对统计实例进行一种历史悠久的方法,即模拟一些我们知道的属性的数据,然后拟合一个模...

拓端tecdat|python在Scikit-learn中用决策树和随机森林预测NBA获胜者

2020-06-21
阅读 2 分钟
1.5k
在本文中,我们将以Scikit-learn的决策树和随机森林预测NBA获胜者。美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上。它有30个团队(美国29个,加拿大1个)。

拓端tecdat|Python使用矩阵分解法找到类似的音乐

2020-06-21
阅读 3 分钟
1.3k
这里返回的矩阵有300,000名艺术家和360,000名用户,总共有大约1700万条目。每个条目都是用户播放艺术家的次数,其中的数据是从2008年的Last.fm API收集的。

拓端tecdat|Python用PyMC3实现贝叶斯线性回归模型

2020-05-17
阅读 2 分钟
1.5k
原文链接:[链接]在本文中,我们将在贝叶斯框架中引入回归建模,并使用PyMC3 MCMC库进行推理。​我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。用PyMC3进行贝叶斯线性回归在本节中,我们将对统计实例进行一种历史悠久的方法,即模拟一些我们知道的属性的数据,然后拟合一个模...

拓端tecdat|python在Scikit-learn中用决策树和随机森林预测NBA获胜者

2020-05-16
阅读 2 分钟
1.2k
在本文中,我们将以Scikit-learn的决策树和随机森林预测NBA获胜者。美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上。它有30个团队(美国29个,加拿大1个)。

拓端tecdat|Python使用矩阵分解法找到类似的音乐

2020-04-20
阅读 3 分钟
1.5k
这里返回的矩阵有300,000名艺术家和360,000名用户,总共有大约1700万条目。每个条目都是用户播放艺术家的次数,其中的数据是从2008年的Last.fm API收集的。

拓端tecdat|python缺失值处理案例分析:泰坦尼克数据

2020-04-14
阅读 4 分钟
1.3k
原文链接:[链接]缺失值处理真实数据往往某些变量会有缺失值。首先,我们用 info( ) 语句操作,看到整份数据的大概情况:​  titanic\_df.info()从这份数据我们可以发现,这里一共有 891 行数据,所以在中间那一列数据中看到的不是 891 个数据的,都是有缺失值的。比如年龄Age这一列,有714个非空数值,就有 891-714=17...

拓端tecdat|python用线性回归预测股票价格

2020-04-10
阅读 2 分钟
3.4k
线性回归在整个财务中广泛应用于众多应用程序中。在之前的教程中,我们使用普通最小二乘法(OLS)计算了公司的beta与相对索引的比较。现在,我们将使用线性回归来估计股票价格。

拓端tecdat|python使用LASSO回归预测股票收益

2020-04-10
阅读 3 分钟
1.3k
一个热门目标。只要有金融经济学家,金融经济学家一直在寻找能够预测股票回报的变量。对于最近的一些例子,想想Jegadeesh和Titman(1993),它表明股票的当前收益是由前几个月的股票收益预测的,侯(2007),这表明一个行业中最小股票的当前回报是通过行业中最大股票的滞后回报预测,以及Cohen和Frazzini(2008),这表...

拓端tecdat|Python小说文本挖掘正则表达式分析案例

2020-04-05
阅读 2 分钟
845
约瑟夫海勒捕捉22是我最喜欢的小说。我最近读完了 ,并喜欢整本书中语言的创造性使用和荒谬人物的互动。对于我的可视化类,选择文本作为我的最终项目“数据集”是一个简单的选择。该文有大约175,000个单词,分为42章。我在网上找到了这本书的原始文本版本并开始工作。

拓端tecdat|python主题LDA建模和t-SNE可视化

2020-04-05
阅读 6 分钟
1.8k
主题模型是一套算法/统计模型,可以揭示文档集中的隐藏主题。直观地看,因为一个文件是关于某个特定话题,人们所期望的某些词出现在文档中或多或少频繁:“算法”,“编译器”,和“阵”将在大约计算机科学文档更经常出现,“关于政治的文件中的民主','政治家'和'政策',''','a'和'是'两者都可能同样出现。此外,文档通常涉及...

拓端tecdat|Python数据可视化-seaborn Iris鸢尾花数据

2020-03-26
阅读 4 分钟
1.9k
首先介绍一下Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Se...

拓端tecdat|python使用LASSO回归预测股票收益

2020-03-26
阅读 3 分钟
1.6k
一个热门目标。只要有金融经济学家,金融经济学家一直在寻找能够预测股票回报的变量。对于最近的一些例子,想想Jegadeesh和Titman(1993),它表明股票的当前收益是由前几个月的股票收益预测的,侯(2007),这表明一个行业中最小股票的当前回报是通过行业中最大股票的滞后回报预测,以及Cohen和Frazzini(2008),这表...

拓端tecdat|Python时间序列选择波动率预测指数收益算法分析案例

2020-03-26
阅读 4 分钟
1.8k
在传统的金融理论中,理性和同质的投资者是核心假设之一,表明每个投资者都有相同的信息,从而做出同样的决定。然而,投资者显然是不均衡的,信息的不对称在股市中很普遍。当知情投资者优先考虑某种类型的资产时,该类资产可能包含更多隐含信息。

拓端tecdat|Python之LDA主题模型算法应用

2020-03-26
阅读 3 分钟
1.4k
在这篇文章中,我将介绍用于Latent Dirichlet Allocation(LDA)的lda Python包的安装和基本用法。我不会在这篇文章中介绍该方法的理论基础。然而,这个模型的主要参考,Blei etal 2003可以在线免费获得,我认为将语料库(文档集)中的文档分配给基于单词矢量的潜在(隐藏)主题的主要思想是相当容易理解的而这个例子(...

拓端tecdat|Python小说文本挖掘正则表达式分析案例

2020-03-25
阅读 2 分钟
1.2k
约瑟夫海勒捕捉22是我最喜欢的小说。我最近读完了 ,并喜欢整本书中语言的创造性使用和荒谬人物的互动。对于我的可视化类,选择文本作为我的最终项目“数据集”是一个简单的选择。该文有大约175,000个单词,分为42章。我在网上找到了这本书的原始文本版本并开始工作。

拓端tecdat|在PYTHON中进行主题模型LDA分析

2020-03-24
阅读 3 分钟
2.4k
主题建模是一种在大量文档中查找抽象主题的艺术方法。一种作为_监督无的_机器学习方法,主题模型不容易评估,因为没有标记的“基础事实”数据可供比较。然而,由于主题建模通常需要预先定义一些参数(首先是要发现的主题_ķ_的数量),因此模型评估对于找到给定数据的“最佳”参数集是至关重要的。

拓端tecdat|Python Monte Carlo K-Means聚类实战研究

2020-03-21
阅读 6 分钟
2k
在本文中,188个国家基于这19个社会经济指标聚集在一起,使用Python实现的蒙特卡罗K-Means聚类算法。通过将类似国家分组在一起并对其进行概括,聚类可以帮助减少识别有吸引力的投资机会所需的工作量。

拓端tecdat|python安娜卡列妮娜词云图制作

2020-03-21
阅读 2 分钟
1.2k
词频:某个词在该文档中出现的次数停用词:数据处理时过滤掉某些字或词,如:网站、的等语料库:也就是我们要分析的所有文档的集合中文分词:将汉字序列分成一个个单独的词

拓端tecdat|如何在python深度学习Keras中计算神经网络集成模型

2020-03-20
阅读 8 分钟
1.6k
原文链接:[链接]神经网络的训练过程是一个挑战性的优化过程,通常无法收敛。这可能意味着训练结束时的模型可能不是稳定的或表现最佳的权重集,无法用作最终模型。解决此问题的一种方法是使用在训练运行结束时看到的多个模型的权重平均值。  平均模型权重 学习深度神经网络模型的权重需要解决高维非凸优化问题。解决此优...

拓端tecdat|python隶属关系图模型:基于模型的网络中密集重叠社区检测方法

2020-03-20
阅读 2 分钟
2.2k
 原文链接:[链接]隶属关系图模型 是一种生成模型,可通过社区联系产生网络。下图描述了一个两方社区隶属关系图和一个网络的示例(图1)。图1.左:两方社区关系图(圆形节点表示三个社区,正方形节点代表网络的节点),右:AGM生成的网络,社区关系图在左侧 ​ 当我们使用适合于实际网络的 合成网络时,合成网络具有与真...

拓端tecdat|用R语言和python进行社交网络中的社区检测

2020-03-20
阅读 1 分钟
1.5k
原文链接:[链接]在这篇文章中,我用R语言和python检测社交网络中的社区。   建立自我网络Kaggle数据 在110个.egonet文件中(对应于110个匿名Facebook用户),每个文件都包含他的朋友的网络。 让我们关注文件0.egonet,其中包含有关用户0的网络的所有信息。文件的每一行都是该行中直接属于自我网络一部分的第一个用户的...

拓端tecdat|使用Python和SAS Viya分析社交网络

2020-03-20
阅读 4 分钟
1.2k
本示例分析了使用Python和SAS 在康涅狄格州哈特福德进行的HIV预防高危药物研究的结果。这个社交网络有194个节点和273个边缘,分别代表毒品使用者和这些使用者之间的联系。

拓端tecdat|python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析

2020-03-20
阅读 3 分钟
1.7k
我根据供应商同现关系在产品之间建立了一个图表,即每个节点对应于一种产品,其边权重由同时出售两种事件产品的供应商数量定义。因此,举例来说,如果有3个供应商同时出售甲斯卡林和4-AcO-DMT,那么我的图在甲斯卡林和4-AcO-DMT节点之间的权重为3。我使用 基于随机块模型的分层边缘 实现来生成以下Evolution产品网络的可...

拓端tecdat|python研究汽车传感器数据统计可视化分析

2020-03-20
阅读 2 分钟
1.1k
我一直在使用Open Torque Viewer结合Torque App和基本的OBDII蓝牙传感器来记录我过去一个半月的汽车传感器数据。 这是我学到的一些东西:

拓端tecdat|python图工具中基于随机块模型动态网络社团检测网络图

2020-03-20
阅读 3 分钟
1.1k
这是“政治博客圈和2004年美国大选”中的政治博客网络图,但是边缘束是使用随机块模型确定的(注:下图与图相同(即,布局和数据相同))。 Tiago论文中的5-我只是在上面放了一个黑色背景 。