PHP正则采集新闻列表和详情 难点两个不知道怎么写

我打算用CURL 在页面1采集新闻标题和完整路径链接
（采集的源代码是相对路径，也就是路径不完整，带上http://www.xx.com/news）（难点1），

同时对页面1的每个新闻标题外部的a标签的链接（页面2）进行二次采集，把页面2源码的新闻内容也采集出来，然后把新闻标题、完整原路径和内容展示到页面上（难点2）

请问这两个难点怎么写？

页面1-列表页源代码（关键部分）

<div class="box list channel max-border list-text-my">
<ul>
    <li><a href="/arthtml/40958.html" title=""><span>[2022-12-13]</span>新闻1</a></li>
    <li><a href="/arthtml/40951.html" title=""><span>[2022-12-13]</span>新闻2</a></li>
    <li><a href="/arthtml/40926.html" title=""><span>[2022-12-13]</span>新闻3</a></li>
</ul>

</div>
页面2-新闻详情页部分源代码（比如打开的是新闻1 http://www.xx.com/news/arthtm...）

<div class="content text-xs">
新闻内容
</div>

总之就是一个程序把这三个：新闻标题、完整原路径和内容都采集下来，麻烦高手用CURL，在代码最少的情况下程序写出来

下面附上CURL程序，提高回答者效率

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,'');//远程地址
curl_setopt($ch, CURLOPT_REFERER, '');//模拟来路
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");//模拟终端
curl_setopt($ch, CURLOPT_CUSTOMREQUEST,  "GET");
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_COOKIE,'');
curl_setopt( $ch, CURLOPT_TIMEOUT,30); 
curl_setopt( $ch, CURLOPT_SSL_VERIFYHOST, 0);
curl_setopt( $ch, CURLOPT_SSL_VERIFYPEER, 0);
$result = curl_exec($ch);
curl_close($ch);
var_dump($result);

阅读 2.2k

PHP正则采集新闻列表和详情难点两个不知道怎么写

你尚未登录，登录后可以

js 如何将Key属性相同的放在同一个数组？

小网站有必要将图片放到阿里云OSS存储吗？

vue项目如何在初始化之前跳转外部页面？

js如何控制移动端overflow:scroll容器滑动的最大速度？

前端代码更新如何通知用户刷新页面？

Qt中布局是否只有5种呢？

为什么在 aws 新开 ec2 机器不显示价格？