抓取网页内容

新手上路,请多包涵

我正在开发一个项目,我想在后台抓取网站的内容并从该抓取的网站中获取一些有限的内容。例如,在我的页面中,我有“userid”和“password”字段,通过使用这些字段,我将访问我的邮件并抓取我的收件箱内容并将其显示在我的页面中。

我通过单独使用 javascript 完成了上述操作。但是,当我单击登录按钮时,我页面的 URL ( http://localhost/web/Login.html ) 更改为 URL ( http://mail.in.com/mails/inbox.php?nomail= … .) 我被刮掉了。但我在不更改网址的情况下删除了详细信息。

原文由 Sakthivel 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 169
1 个回答

一定要使用 PHP Simple HTML DOM Parser 。它快速、简单且超级灵活。它基本上将整个 HTML 页面粘贴到一个对象中,然后您可以访问该对象中的任何元素。

就像官方网站的例子一样,获取主 Google 页面上的所有链接:

 // Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

原文由 givp 发布,翻译遵循 CC BY-SA 3.0 许可协议

推荐问题