抓取网页内容

Question

新手上路，请多包涵

我正在开发一个项目，我想在后台抓取网站的内容并从该抓取的网站中获取一些有限的内容。例如，在我的页面中，我有“userid”和“password”字段，通过使用这些字段，我将访问我的邮件并抓取我的收件箱内容并将其显示在我的页面中。

我通过单独使用 javascript 完成了上述操作。但是，当我单击登录按钮时，我页面的 URL ( http://localhost/web/Login.html ) 更改为 URL ( http://mail.in.com/mails/inbox.php?nomail= … .) 我被刮掉了。但我在不更改网址的情况下删除了详细信息。

原文由 Sakthivel 发布，翻译遵循 CC BY-SA 4.0 许可协议

php html web-scraping curl httprequest

阅读 169

1 个回答

得票最新

社区维基

1

发布于
2022-12-19

一定要使用 PHP Simple HTML DOM Parser 。它快速、简单且超级灵活。它基本上将整个 HTML 页面粘贴到一个对象中，然后您可以访问该对象中的任何元素。

就像官方网站的例子一样，获取主 Google 页面上的所有链接：

 // Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

原文由 givp 发布，翻译遵循 CC BY-SA 3.0 许可协议

查看全部 1 个回答

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

抓取网页内容

我想要可靠地升级网站，有没有标准的流程？或者需要注意的地方？

问一个鼠标滚动事件，这种是怎么实现的？

cURL error 77: error setting certificate file: /etc/ssl/certs/ca-certificates.crt 如何处理?

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

css如何设置纵向滚动条的高度？

Vue为什么说textarea标签不支持插值表达式的？

TP6指定时间段内填写指定内容？

Stack Overflow 翻译