php 匹配博客目录里的文章链接

发布于
2014-12-25

最近在写爬虫练手，但是发现匹配出来数据很少

以博客园为例，这个是我的正则

/http\:\/\/www\.cnblogs\.com\/' . $name . '\/[^\" ]+.html/i

然后匹配这位同学：http://www.cnblogs.com/hoojo/default.html?page=1

发现只有42条数据，但是这位同学明显不止42篇文章，请问如何优化我的正则

php 匹配

阅读 3.9k

2 个回答

得票最新

Flydo

415102941

发布于
2014-12-25

首先，你这个http://www.cnblogs.com/hoojo/default.html?page=1 只是第一页，第一页好像只有这么多篇文章吧？http://www.cnblogs.com/hoojo/default.html?page=2 是第二页。

首先，你要确定他的博客里面有多少页。你就从第二页http://www.cnblogs.com/hoojo/default.html?page=2 取它的总页数共6页: 上一页 1 2 3 4 5 6，再在你原来的代码外面加个 for 循环 http://www.cnblogs.com/hoojo/default.html?page={$page_number} 这样就好了。

疯子好好活

2.1k3318

发布于
2014-12-26

不太懂您的正则写法。

我数了下第一页一共50条文章，然后我是这么实现的：

<?php
$aa = file_get_contents('http://www.cnblogs.com/hoojo/default.html?page=1');
preg_match_all ("|class=\"postTitle2\" href=\"(.*)\">|i", $aa, $m);
var_dump($m[1]);

这样的结果就是文章链接数组了。

在测试过程中发现文章作者会把其他文章链接写在摘要里，并且被显示。所以您的方法会把摘要内的链接也读出来。
我这里是用文章原文链接的特性获取到的链接。
希望能够帮到你。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

php 匹配博客目录里的文章链接

你尚未登录，登录后可以

我想要可靠地升级网站，有没有标准的流程？或者需要注意的地方？

TP6指定时间段内填写指定内容？

在宝塔里这种情况下怎么使用80端口？

小程序内跳转微信视频号直播，有什么官方支持方案？

如何处理这类混淆过的代码?

这个匹配@用户的正则怎么写?

php如何匹配markdown中能解析的图片格式?