我想使用HTML agility pack来解析HTML页面中的图片和href链接,但我对XML或XPath了解不多。虽然在许多网站上查找帮助文档,但我无法解决问题。此外,我在 VisualStudio 2005 中使用 C#。而且我不会说流利的英语,所以,我将真诚地感谢能够编写一些有用代码的人。
原文由 iShow 发布,翻译遵循 CC BY-SA 4.0 许可协议
我想使用HTML agility pack来解析HTML页面中的图片和href链接,但我对XML或XPath了解不多。虽然在许多网站上查找帮助文档,但我无法解决问题。此外,我在 VisualStudio 2005 中使用 C#。而且我不会说流利的英语,所以,我将真诚地感谢能够编写一些有用代码的人。
原文由 iShow 发布,翻译遵循 CC BY-SA 4.0 许可协议
该示例和接受的答案是错误的。它不编译最新版本。我尝试别的东西:
private List<string> ParseLinks(string html)
{
var doc = new HtmlDocument();
doc.LoadHtml(html);
var nodes = doc.DocumentNode.SelectNodes("//a[@href]");
return nodes == null ? new List<string>() : nodes.ToList().ConvertAll(
r => r.Attributes.ToList().ConvertAll(
i => i.Value)).SelectMany(j => j).ToList();
}
这对我有用。
原文由 SmallChess 发布,翻译遵循 CC BY-SA 3.0 许可协议
2 回答1.5k 阅读✓ 已解决
2 回答922 阅读✓ 已解决
1 回答929 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
2 回答799 阅读
1 回答803 阅读✓ 已解决
3 回答1.1k 阅读
主页上的 第一个示例 做了非常相似的事情,但请考虑:
So you can imagine that for img@src, just replace each
a
withimg
, andhref
withsrc
.您甚至可以简化为:对于相对 url 处理,请查看
Uri
类。