SF
愚公爬山
愚公爬山
注册登录
关注博客
注册登录
主页
关于
RSS
PySpark二:常见数据格式及如何读写
愚公爬山
3 月 26 日
阅读 2 分钟
250
在日常工作中,常见的数据文件格式有csv, json和parquet. Comma-separated values (CSV)是一种直接以纯文本方式保存的文件, 通常第一行定义了列名, 后面是数据。没列之间用逗号分割。 因为这个格式是纯文本的, 几乎可以用文本编辑器都可以打开。
PySpark一:Windows10环境搭建
愚公爬山
3 月 17 日
阅读 2 分钟
417
1: 下载spark,解压后放到了sparks3.5.5目录中[链接]并添加环境变量2:访问[链接],下载hadoop-3.0.0/bin,把它解压放到了C:\d\winutils\目录中,并添加了HADOOP_HOME,设置的值是C:\d\winutils\hadoop-3.0.0,然后编辑环境变量Path,把两个bin目录放到Path环境变量的值中
Java-采集招生计划
愚公爬山
3 月 9 日
阅读 2 分钟
114
技术:htmlunit: 一个很好用的library, 被广泛的使用, 比如Selenium,利用它可以在后台访问网站,解析网页来获得需要的信息。commons-csv: 一个很好用的csv操作library.