SF
愚公爬山
愚公爬山
注册登录
关注博客
注册登录
主页
关于
RSS
PySpark五: Spark table
愚公爬山
4 月 23 日
阅读 5 分钟
172
在PySpark二:常见数据格式及如何读写中,我们提到了怎么输出到文件, spark还支持table.table分为两类,一类是Spark Managed table,table的Meta信息(比如schema定义什么的)和data都是由spark来负责维护, 如果要是删除Meta和data都会被删掉,老是有就是external table,它的Meta是由spark来负责维护,data则是有用户自...
PySpark四: 周五定投还是周一定投?是个问题
愚公爬山
4 月 10 日
阅读 3 分钟
369
在 [链接]中我们提供了一个简单的ETL例子, 这个例子会把多个csv文件加载后,做了一下格式的转换和添加了一些聚合字段,保存到parquet文件中。 这篇文章中尝试利用这些数据简单的演示一下如果来计算一下周一定投和周五定投的收益率,看看哪个时间定投更好。 由于数据比较少,只是用来演示,不具有指导意义。
PySpark三: ETL的概念和Etl实例
愚公爬山
4 月 8 日
阅读 4 分钟
343
提取、转换、加载(ETL)是一个三阶段的计算过程,其中数据从输入源提取、转换(包括清理、聚合、导出新值)并加载到输出数据容器中。 在大数据和AI流行的今天,ETL有了更多的用武之地。
PySpark二:常见数据格式及如何读写
愚公爬山
3 月 26 日
阅读 2 分钟
400
在日常工作中,常见的数据文件格式有csv, json和parquet. Comma-separated values (CSV)是一种直接以纯文本方式保存的文件, 通常第一行定义了列名, 后面是数据。没列之间用逗号分割。 因为这个格式是纯文本的, 几乎可以用文本编辑器都可以打开。
PySpark一:Windows10环境搭建
愚公爬山
3 月 17 日
阅读 2 分钟
503
1: 下载spark,解压后放到了sparks3.5.5目录中[链接]并添加环境变量2:访问[链接],下载hadoop-3.0.0/bin,把它解压放到了C:\d\winutils\目录中,并添加了HADOOP_HOME,设置的值是C:\d\winutils\hadoop-3.0.0,然后编辑环境变量Path,把两个bin目录放到Path环境变量的值中
Java-采集招生计划
愚公爬山
3 月 9 日
阅读 2 分钟
182
技术:htmlunit: 一个很好用的library, 被广泛的使用, 比如Selenium,利用它可以在后台访问网站,解析网页来获得需要的信息。commons-csv: 一个很好用的csv操作library.