为什么写爬虫都喜欢用python？楼主学php的，但是也自学过python，对php了解还是比较深的，看了一些python爬虫的源代码，感觉同样的功能php也都能写出来啊。有人可能会吐槽说php不支持多线程，事实上php是有pthreads多线程扩展的，同样也可以很高效的支持php扩展。楼主平时也玩玩渗透，很多情况下由于对php了解更多用起来更上手，所以很多payload利用或者一些sql注入验证脚本也都是php写的，感觉php数组处理比较方便，对数据的处理要更加灵活。（举个例子，php的数组其实就是python下的集合，元组，字典等数据结构的整合，结合一些数组处理框架比如说Laravel里面的集合辅助函数，甚至可以实现类似于.NET下的Linq语法，这方面我个人觉得php用起来比python要爽一点。不过我也不清楚python下是不是也有类似的类库？）所以想问问python为什么会更适合编写爬虫？（可能是python有一些更强大的特性楼主不懂，因此前来请教）

我主用 PHP，但是我写爬虫依然不会选择用 PHP，而是用 python。 Python 有 scrapy 这样成熟的框架，我们大可不必自己从0开始即使从0开始，以 Python 简洁的语法和一大波成熟的库，写起来相当的快。PHP 语法，你懂的。我试过写爬虫，体验还是不如 Python的 Python 数据处理个人认为比较方便，虽然 PHP 处理 DOM 也很挺方便的 Pthon 唯一不方便的大概是编码处理了。

scrapy是个很成熟的爬虫库，成熟的原因；管理cookie css和xpath的选择器并行爬取 link抽取等等，还有一大堆插件，最重要的是易于扩展，象处理403之类的状态加个middelware就解决了

为什么写爬虫都喜欢用python？

eechen

15.1k41729

发布于
2016-09-16

可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM , phpQuery, Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_contents/curl/preg从头写吧,可能也不知道PHP有多线程pthreads或者不知道curl_multi并行发起请求吧.

例1:simple_html_dom.php采集PHP官网首页新闻发布时间/标题/内容
<?php
require dirname(__FILE__).'/simple_html_dom.php';
$html = file_get_html('http://cn2.php.net');
$news = array();
foreach($html->find('article.newsentry') as $article) {
    $item['time']    = trim($article->find('time',            0)->plaintext);
    $item['title']   = trim($article->find('h2.newstitle',    0)->plaintext);
    $item['content'] = trim($article->find('div.newscontent', 0)->plaintext);
    $news[] = $item;
}
var_export($news);

例2:curl_multi并行发起多个请求
接口1: php -S 127.0.0.1:8080 -t /home/eechen/www
接口2: php -S 127.0.0.2:8080 -t /home/eechen/www
/home/eechen/www/index.php:
header('Content-Type: application/json; charset=utf-8');
echo json_encode(array('SERVER_NAME' => $_SERVER['SERVER_NAME']));
//串行访问需要sum(2,1)秒,并行访问需要max(2,1)秒.
($_SERVER['SERVER_NAME'] == '127.0.0.1') ? sleep(2) : sleep(1);

<?php
$url[] = 'http://127.0.0.1:8080';
$url[] = 'http://127.0.0.2:8080';
$mh = curl_multi_init();
foreach($url as $k => $v) {
    $ch[$k] = curl_init($v);
    curl_setopt($ch[$k], CURLOPT_HEADER, 0); //不输出头
    curl_setopt($ch[$k], CURLOPT_RETURNTRANSFER, 1); //exec返回结果而不是输出,用于赋值
    curl_multi_add_handle($mh, $ch[$k]); //决定exec输出顺序
}
$running = null;
$starttime = microtime(true);
do { //执行批处理句柄
    curl_multi_exec($mh, $running); //CURLOPT_RETURNTRANSFER如果为0,这里会直接输出获取到的内容.如果为1,后面可以用curl_multi_getcontent获取内容.
    curl_multi_select($mh); //阻塞直到cURL批处理连接中有活动连接,不加这个会导致CPU负载超过90%.
} while ($running > 0);
echo microtime(true) - $starttime."\n"; //耗时约2秒
foreach($ch as $v) {
    $json[] = curl_multi_getcontent($v);
    curl_multi_remove_handle($mh, $v);
}
curl_multi_close($mh);
var_export($json); 

例3:PHP使用多线程异步获取资源
<?php
class Request extends Thread {
    public $url;
    public $data;
    public function __construct($url) {
        $this->url = $url;
    }
    public function run() {
        // 线程处理一个耗时5秒的任务
        for($i=0;$i<5;$i++) {
            echo '线程: '.date('H:i:s')."\n";
            sleep(1);
        }
        $response = file_get_contents($this->url);
        if ($response) {
            $this->data = array($response);
        }
        echo "线程: 任务完成\n";
    }
}
$request = new Request('hello.html');
// 运行线程:start()方法会触发run()运行
if ($request->start()) {
    // 主进程处理一个耗时10秒的任务,此时线程已经工作
    for($i=0;$i<10;$i++) {
        echo '进程: '.date('H:i:s')."\n";
        sleep(1);
    }
    // 同步线程并输出线程返回的数据
    $request->join();
    echo '线程返回数据: '.$request->data[0];
}
/*
如果顺序执行,合计时间将是15秒,借助线程,则只需10秒.
生成文件: echo 'Hello' > hello.html
运行计时: time php req.php 
查看线程: ps -efL|head -n1 && ps -efL|grep php
*/

java_c

2647

发布于
2016-09-16

因为用python写爬虫的人喜欢写博客分享，所以造成了你的这种错觉。

我们用java做的爬虫。其实啥语言都行，看团队和业务偏向。

KingzCheung

6232915

发布于
2016-09-16

更新于
2016-09-16

我主用 PHP，但是我写爬虫依然不会选择用 PHP，而是用 python。

Python 有 scrapy 这样成熟的框架，我们大可不必自己从0开始
即使从0开始，以 Python 简洁的语法和一大波成熟的库，写起来相当的快。PHP 语法，你懂的。我试过写爬虫，体验还是不如 Python的
Python 数据处理个人认为比较方便，虽然 PHP 处理 DOM 也很挺方便的

Pthon 唯一不方便的大概是编码处理了。

chongyi

87736

发布于
2016-11-23

@eechen 已经说了很多了，我来补充几个更为优雅的库。

用于爬取数据的：guzzle

文档地址：http://docs.guzzlephp.org/en/...
Composer 库名：guzzlehttp/guzzle，对应 Packagist 地址 https://packagist.org/package...

Guzzle 有着非常直观的写法，底层对 Stream 和 cURL 都有封装，支持的 HTT P请求方式以及细节非常丰富，支持 cURL 的多线程，当然也可利用 pthread 增强，如果配合 swoole 则更高效。

用于解析文档的：DOMCrawler

文档地址：http://symfony.com/doc/curren...
Composer 库名：symfony/dom-crawler，对应 Packagist 地址：https://packagist.org/package...

该组件性能比 simple_html_dom 要高得多，因为是基于 PHP 自带的 DOM 解析类（用 C 语言）实现的，而且是强大的 Symfony 框架的组件，意味着可以不依赖框架单独在任何 PHP 项目中使用。文档简单易懂，可以同时参考 PHP 官方 DOM 的文档 http://php.net/manual/zh/book...，毕竟是继承关系，DOMCrawler 在此基础上多了类似 CSS 选择器的方式（jQuery 那一套）去查找 DOMNode。

tingwang

121

发布于
2016-09-16

scrapy是个很成熟的爬虫库，成熟的原因；

管理cookie
css和xpath的选择器
并行爬取
link抽取
等等，还有一大堆插件，最重要的是易于扩展，象处理403之类的状态加个middelware就解决了

三次方根

1.2k2318

发布于
2016-09-21

所有图灵完备又有网络功能的都能实现爬虫额。。。但是问题是斧子能打猎、枪也能打猎，工具总有方便程度的额

oxalics

4315

发布于
2016-09-16

更新于
2016-09-16

我自己觉得吧，虽然PHP是最好的语言，但是最重要的还是因为程序猿最大的美得——懒，PHP还得自己造轮子，Python下已经有很成熟的轮子了，那么作为一个有良好美得的程序猿自然就都用Python啦，要是题主造出个比Python爬虫还好用的轮子保证大家都用PHP啦

BadBlood1984

1022813

发布于
2016-09-16

什么也不用说了 PHP是全世界最好的语言如果这就是提问者想听到的答案我原来也是phper 刚刚学习python3 我的感觉就是 python设计确实很精良尤其语法确实经过认真的设计 PHP语法相对就很凌乱长年的版本更新造成尾大不掉还有刚学python的切片功能时震惊了居然还能如此方便的处理字符串所以这东西不用提问别人说了也不用反驳自己学一点高下立判

Fighting

445512

发布于
2016-09-16

并非是说PHP可以写爬虫就得用它写爬虫，你叫C++情何以堪。在爬虫这块，Python为何如此倍受推崇，个人认为主要是各类优秀爬虫框架满足需求，不需要每个人从零开始造轮子。然后就是爬虫的应用是什么？数据分析，数据处理呀。。必然是Python相比PHP更有优势的地方

ctrl

882

发布于
2016-09-16

看业务场景，像爬虫这类通用的需求，自己熟悉哪个工具就用哪个吧。

xiaoboost

7.7k31421

发布于
2016-09-16

库多
语法清楚
没了

seeyoup

43931522

发布于
2016-09-16

因为google一开始就用大量的Python做爬虫，所以没有比Python爬虫库更完善的生态环境了。

用户bPcDTY

8k113246

发布于
2016-09-16

都是遗传，20年前 Guido 打算写爬虫爬遍所有网站来着。

http://1997.webhistory.org/ww...

anonymous66

1.3k2924

发布于
2016-09-16

都可以做。

python比较多看到可能是因为

1.第三方插件比较多
2.多线程（毕竟PHP没有）

对了，我是写PHP的
当然，我也会python

CodeHz

882

发布于
2016-09-18

这个Node.js标签是怎么回事，上面都没人说到Node.js？用Node.js写爬虫的路过，主要是因为可以直接模拟浏览器环境执行某些特殊的算法——这样就不用费心破解了。虽然别的语言也可以做到，但是毕竟没有这么自然。

苏生不惑

18.9k2787139

发布于
2016-11-20

有一个，不过大多场景用python phpcrawler,php爬虫,php采集器,多进程,多线程

guoweikuang

8441411

发布于
2016-11-21

Python在爬虫方面的确是很好的，有Scrapy这样成熟的框架或者pyspider也好用，并且学习成本很低，实践效果都很好，
比如说你要抓取一个网页内容只需要几行代码就可以实现

import requests 
html ＝ requests.get（'http://www.baidu.com')

只需要这样就能获取页面内容，但这还是最基础的爬虫，如果爬虫需求高时，什么分布式啊，多线程，协程等需求都是很容易实现的，所以Python在爬虫方面还是很不错的

悖论BeilunYang

7552314

发布于
2016-11-21

因为python有成熟强大稳定的爬虫框架,这是php所没有的，当然一些小爬虫的话，我觉得基本上主流语言都能很轻松的完成

Leo_Eatle

387613

发布于
2016-11-21

python爬虫相关的库更多，而且也更多人在用，这是个互相促进的过程。
写爬虫很多语言都可以写，node.js也可以写，但是很多人是从python入手写爬虫的，习惯了之后偶尔想爬点东西用python很快就做好了，所以...

陆安

3.2k1417

发布于
2016-11-23

python有各种爬虫框架，方便高效的下载网页。另外爬虫是个典型的多任务处理场景，python的多线程、进程模型成熟稳定，提升整个系统下载和分析能力。

另外请求页面带来的延时，所以这个场景是对执行效率要求不高的。

php虽然也有curl拓展，dom,xpath等处理工具，但是它并发处理能力比较弱，现在虽然已经有并发能力但当时没有，所以错过了爬虫需求的高峰，以致于如今写爬虫php不会是首选了。

王大

13

发布于
2017-03-15

新手上路，请多包涵

$url="http://www.pbc.gov.cn/zhengcehuobisi/125207/index.html";
$str=get_str($url);
echo $str;

function get_str($url){
    $ch=curl_init($url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT,10);
    $str=curl_exec($ch);
    curl_close($ch);
    return $str  ; 
}

这个网页php如何实现？这样写跳转到404了如何解决？

这篇回答已被忽略，原因：无意义的内容 - 赞、顶、同问等毫无意义的内容

操作者：清蒸不是水煮

为什么写爬虫都喜欢用python？

如何避免在Java中调用空引用对象的属性或方法时抛出NullPointerException?

Redis Hash结构存储Long取出为Integer原因及解决方案？

有一种算法存在返回真，不存在返回假的高性能算法，我忘记是什么了?

小网站有必要将图片放到阿里云OSS存储吗？

Quartz如何根据cron表达式计算任务开始前发送通知的时间？

post http重定向到https会改变请求的method类型吗?

在计算机中如何翻译`pattern`？

为什么写爬虫都喜欢用python？

如何避免在Java中调用空引用对象的属性或方法时抛出NullPointerException?

Redis Hash结构存储Long取出为Integer原因及解决方案？

有一种算法 存在返回真，不存在返回假的高性能算法，我忘记是什么了?

小网站有必要将图片放到阿里云OSS存储吗？

Quartz如何根据cron表达式计算任务开始前发送通知的时间？

post http重定向到https会改变 请求的method类型吗?

在计算机中如何翻译`pattern`？

有一种算法存在返回真，不存在返回假的高性能算法，我忘记是什么了?

post http重定向到https会改变请求的method类型吗?