php 如何不用框架完成正则表达式对html标签及内容抓取？

发布于
2018-03-15

新手上路，请多包涵

例如网站源码为
<div id="txtlist">
<ul>
<li><span style="float:right;">2018-03-14 16:04:47</span>·内容</li>
<li><span style="float:right;">2018-03-13 09:04:38</span>·内容</li>
</ul><ul style="margin:30px auto;">

php html curl 正则表达式

阅读 2.5k

1 个回答

得票最新

soledad

888110

发布于
2018-03-16

先file_get_contents到网站html内容，然后使用preg_match,preg_match_all匹配就可以了。为什么需要框架。
比如抓微信文章(我随便敲的)：

   $file = file_get_contents($url);
        $article = [];
        //文章标题
        preg_match('/<title>(.*?)<\/title>/', $file, $title);
        $article[ 'title' ] = $title ? $title[ 1 ] : '';
        //文章正文
        preg_match('/<div class="rich_media_content " id="js_content">[\s\S]*?<\/div>/', $file, $content);

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

php 如何不用框架完成正则表达式对html标签及内容抓取？

你尚未登录，登录后可以

我想要可靠地升级网站，有没有标准的流程？或者需要注意的地方？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

threejs用octree实现房间内第三人称漫游并且添加了碰撞，人物在碰撞到墙壁的时候不停的弹回，应该怎么修改才能不会疯狂的弹回？

cURL error 77: error setting certificate file: /etc/ssl/certs/ca-certificates.crt 如何处理?

TP6指定时间段内填写指定内容？

Vue为什么说textarea标签不支持插值表达式的？