新手上路，请多包涵

我想使用HTML agility pack来解析HTML页面中的图片和href链接，但我对XML或XPath了解不多。虽然在许多网站上查找帮助文档，但我无法解决问题。此外，我在 VisualStudio 2005 中使用 C#。而且我不会说流利的英语，所以，我将真诚地感谢能够编写一些有用代码的人。

原文由 iShow 发布，翻译遵循 CC BY-SA 4.0 许可协议

c#.net html html-parsing html-agility-pack

阅读 1.6k

2 个回答

得票最新

社区维基

发布于
2022-12-19

✓ 已被采纳

主页上的第一个示例做了非常相似的事情，但请考虑：

  HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm"); // would need doc.LoadHtml(htmlSource) if it is not a file
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    string href = link["href"].Value;
    // store href somewhere
 }

So you can imagine that for img@src, just replace each a with img , and href with src .您甚至可以简化为：

  foreach(HtmlNode node in doc.DocumentElement
              .SelectNodes("//a/@href | //img/@src")
 {
    list.Add(node.Value);
 }

对于相对 url 处理，请查看 Uri 类。

原文由 Marc Gravell 发布，翻译遵循 CC BY-SA 2.5 许可协议

社区维基

发布于
2022-12-19

该示例和接受的答案是错误的。它不编译最新版本。我尝试别的东西：

     private List<string> ParseLinks(string html)
    {
        var doc = new HtmlDocument();
        doc.LoadHtml(html);
        var nodes = doc.DocumentNode.SelectNodes("//a[@href]");
        return nodes == null ? new List<string>() : nodes.ToList().ConvertAll(
               r => r.Attributes.ToList().ConvertAll(
               i => i.Value)).SelectMany(j => j).ToList();
    }

这对我有用。

原文由 SmallChess 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何使用 Html Agility Pack 获取 img/src 或 a/hrefs？

你尚未登录，登录后可以

问一个鼠标滚动事件，这种是怎么实现的？

css如何设置纵向滚动条的高度？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

Vue为什么说textarea标签不支持插值表达式的？

threejs用octree实现房间内第三人称漫游并且添加了碰撞，人物在碰撞到墙壁的时候不停的弹回，应该怎么修改才能不会疯狂的弹回？

单页应用网站缓存不是由于index.html文件被缓存导致的吗？

election嵌套了一个web项目通信为什么会中断?

Stack Overflow 翻译