活到老学到老 - SegmentFault 思否

windows下递归删除文件或者文件夹

2020-03-26

阅读 1 分钟

6.3k

删除前请务必确认是否要删除或者备份，还有当前执行删除命令时所处的路径位置，出现问题不要找我，我也不知道怎么恢复，慎用 1、删除当前目录下所有的指定文件 {代码...} 例如 {代码...} 删除目录下所有以.txt结尾的文件 {代码...} 2、删除当前目录下所有的指定文件夹 {代码...} 例如 {代码...} "*"等模糊匹配的方法没有...

puppeteer_node爬虫分布式进阶

Taste

2018-03-08

阅读 5 分钟

4.9k

因为使用的是node，所以尽可能的寻找node支持的分布式框架ZooKeeper 和 RabbitMQ 的思想百度上有好多说明，读者可以自行搜索作更详细的了解node版的zookeepernode版的RabbitMQ

puppeteer部署问题

Taste

2018-02-02

阅读 1 分钟

5.8k

本地玩的贼六，服务器上一推傻眼了来看看这都是些啥说是无法启动，但是给出了解决地址，真棒了在看看地址 [链接]说是得安装必要的依赖关系那就来吧我用的是centOS，这样来你以为这就完了，哈哈，再来同样是有提示的，设置这个 --no-sandbox 那就搞呗根据提示和文档设置参数到这就搞定了，小伙伴们要是还有其他的...

puppeteer进阶版_爬取小说站

Taste

2018-01-30

阅读 4 分钟

13.7k

使用puppeteer抓取接口拦截ajax数据这里有小伙伴就要说了我都知道接口了直接去请求不就完了吗，python，node，axios，原生的ajax那个不行啊哈哈，那要是接口参数中有随机数呢，有随机时间点呢，有随机时间戳和uuid再混起来呢分分钟怀疑人生

puppeteer的简单使用_爬取页面信息

Taste

2018-01-29

阅读 3 分钟

14.6k

它是Node的一个用来操纵浏览器的API的库，对的你没看错，就是操作浏览器的，细思极恐啊简单说就是浏览器有的它都有了(当然有些功能也正在开发中)可以注册，模拟登陆，设置cookie操作dom事件，执行js脚本Chrome团队对其维护，厉害了吧文档地址:[链接]

Python爬虫_爬取豆瓣阅读提供方列表并写入excel文件中

Taste

2018-01-12

阅读 2 分钟

4.1k

爬取豆瓣阅读提供方代码中会有详细的注释关于python也是在看教程和书以及视频学习，纯种小白(哈士奇的那种) 用到的库 urllib -> 爬虫库 re -> 正则模块 xlwt -> excel写模块 time -> 时间模块 urllib库伪装浏览器的固定写法(也可以再加) 加个代理ip，也可以不加直接使用自己...

python对文件或者文件夹的操作操作说明 os.getcwd() 得到当前工作目录，即当前Python脚本工作的目录路径 os.listdir() 返回指定目录下的所有文件和目录名 os.remove() 函数用来删除一个文件 os.removedirs(r"c\python") 删除多个目录 os.path.isfile() 检验给出的路径是否是一个文件 os.path.isdir() 检验给出的路径是...

Linux命令_用户,权限管理

Taste

2018-01-09

阅读 3 分钟

3.9k

whoami该命令用户查看当前系统当前账号的用户名。可通过cat /etc/passwd查看系统用户信息，由于系统管理员通常需要使用多种身份登录系统，例如通常使用普通用户登录系统，然后再以su命令切换到root身份对传统进行管理。这时候就可以使用whoami来查看当前用户的身份

Linux命令_文件相关

Taste

2018-01-07

阅读 4 分钟

2.8k

Linux文件或者目录名称最长可以有265个字符，“.”代表当前目录，“..”代表上一级目录，以“.”开头的文件为隐藏文件，需要用 -a 参数才能显示。