需要开发个采集腾讯、新浪微博的评论数据。 如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。 我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发! 网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。 PHP的也有个snoopy类库,C++的就不清楚了。 不知道,C++中有没有这方面的爬虫类库推荐呢?
python 唯一的好处就是 request 库真的很方便 我以前都是用 php 做爬虫的,现在都改用 python 了 其实用 JavaScript 也是很好的,node 或者 phantomJS 因为很多时候你不仅要把 HTML 爬下来,还要解析;而 python 的 DOM 库简直糟糕透顶;比如 BeautifulSoup,很多操作就非常不方便;相比之下,js 进行 DOM 操作就方便多了
python 唯一的好处就是 request 库真的很方便
我以前都是用 php 做爬虫的,现在都改用 python 了
其实用 JavaScript 也是很好的,node 或者 phantomJS
因为很多时候你不仅要把 HTML 爬下来,还要解析;而 python 的 DOM 库简直糟糕透顶;比如 BeautifulSoup,很多操作就非常不方便;相比之下,js 进行 DOM 操作就方便多了