python爬虫程序的原理是什么？PHP不能写爬虫吗？

她说她喜欢浪丶

发布于
2015-01-27

python爬虫程序的原理是什么？PHP不能写爬虫吗？

阅读 15.5k

9 个回答

发布于
2015-01-27

✓ 已被采纳

爬虫的原理是从一个起始种子链接开始，发http请求这个链接，得到该链接中的内容，然后大多使用正则匹配出页面里面的有效链接，然后将这些链接保存到待访问队列中，等待爬取线程取这个待访队列，一旦链接访问过了，为了有效的减少不必要的网络请求，我们应该把访问过的链接放到一个已访问map中，已防止重复抓取及死循环。我以上提到的过程可能是一个比较简单的爬虫实现，复杂的可能不会这么简单，但这里面有几个概念，一个是发http请求，一个是正则匹配你感兴趣的链接，一个是多线程，另外还有两个队列，理论上，任何能实现这么些概念的编程语言去写爬虫都是可以的，期间取舍还是看自己对熟练成都。

发布于
2015-01-27

先看看这个如何入门 Python 爬虫？

PHP也是可以写爬虫的：https://github.com/search?l=PHP&o=desc&q=spider&ref=searchresults&s=stars&type=Repositories&utf8=%E2%9C%93

发布于
2015-01-27

更新于
2015-01-27

爬虫的原理都是HTTP请求和应答，底层基于TCP/IP协议。
PHP也可以写爬虫，不过Python写起来更方便，内置很多模块可以直接使用。

发布于
2015-01-27

更新于
2015-01-27

不管php还是python都可以写爬虫。
原理：
获取整个网页,然后用正则匹配出自己需要的内容
大概原理就是这样

python比php多了多线程多进程
现有的python scrapy框架专门为爬虫设计的据说很厉害。。
http://jinri.info 我自己的网站 python爬的信息

那儿有个活人

发布于
2015-01-27

更新于
2015-01-27

看这里哪种语言合适写爬虫程序
另外推荐一本书webbots spiders 和 screen scrapers,主要讲php的爬虫

用户bPcDTY

发布于
2015-07-29

更新于
2015-07-30

php有curl和simple xml，完全可以做到获取网页之后解析dom树。

但是php不方便做多线程，需要三方扩展，可能会麻烦一些。当然你也可以用单线程，慢一点就是了。

小大大白

发布于
2019-01-28

新手上路，请多包涵

笼统的来说，爬虫就是你向目标服务器发送一个请求，他会给你页面，但是页面不经过浏览器解析，他就是html源码，然后你解析对方服务器发过来的源码，提取你需要的信息，这就是爬虫。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

被 2 篇内容引用

推荐问题

相似问题

找不到问题？创建新问题