php 匹配博客目录里的文章链接

最近在写爬虫练手,但是发现匹配出来数据很少

以博客园为例,这个是我的正则

/http\:\/\/www\.cnblogs\.com\/' . $name . '\/[^\" ]+.html/i

然后匹配这位同学:http://www.cnblogs.com/hoojo/default.html?page=1

发现只有42条数据,但是这位同学明显不止42篇文章,请问如何优化我的正则

阅读 3.9k
2 个回答

不太懂您的正则写法。

我数了下第一页一共50条文章,然后我是这么实现的:

<?php
$aa = file_get_contents('http://www.cnblogs.com/hoojo/default.html?page=1');
preg_match_all ("|class=\"postTitle2\" href=\"(.*)\">|i", $aa, $m);
var_dump($m[1]);

这样的结果就是文章链接数组了。

在测试过程中发现文章作者会把其他文章链接写在摘要里,并且被显示。所以您的方法会把摘要内的链接也读出来。
我这里是用文章原文链接的特性获取到的链接。
希望能够帮到你。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题