网页抓取：selenium or X ?

Tony

发布于
2014-02-17

更新于
2014-02-17

有个需求是从一个网站上去抓取数据，但是这个网站貌似限制了爬虫，所以写 python 的人用 selenium 这个东西的 webdriver（我不太懂）去实现的。在本地（win7）测试没问题。但运行时会打开 firefox 图形界面。

问题来了。上传到服务器(centos)，修改配置，像 FirefoxBinary 这个还好说，关键是 FirefoxProfile 这个完全搞不起来。开始是不知道在哪，gg了一下自己准备创建一个，但，貌似是没有安装图形界面的缘故，创建失败，如图：
error

我该怎么办？
1. 继续搞这个 profile（给服务器安装图形界面？）
2. 让 python coder 重新想办法？

说明：

更新了下标题，其实我不是问怎么装图形界面。而是分析两种方案的优劣，以及有没有更好的办法？

python firefox selenium centos

阅读 8.9k

6 个回答

发布于
2014-02-17

✓ 已被采纳

CentOS可以装图形界面。

不过selenium支持headless模式，没有必要为跑selenium装图形界面，额外占用内存。只需要装一个xvfb，配置一下即可。

发布于
2014-02-17

试试Phantomjs，支持多平台，无需图形界面。

发布于
2014-02-19

更新于
2014-02-19

网站怎么限制爬虫的？

如果基于header，就模拟下你浏览器的header。如果限制抓取频率，就自己控制下。

如果是需要运行js，scrapy+splash也行。

selenium+phantomjs也行。好像略暴力。

狂暴的大螃蟹

发布于
2014-02-18

是不是需要装Qt 你没有装

发布于
2014-02-17

更新于
2014-02-17

装个Gnome吧:

yum groupinstall "Desktop"
yum groupinstall "X Window System"
yum groupinstall "Chinese Support"
startx

http://my.oschina.net/debi/blog/75929

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

被 1 篇内容引用

如何抓取js渲染的数据

推荐问题

相似问题

找不到问题？创建新问题