python BeautifulSoup 解析错误

html = """
{a href="http://www.baidu.com/" target="_blank">
    {img src="<%=BLOG%>image/logo.gif" height="31" width="88" border="0" alt="test" />
"""
soupHtml = BeautifulSoup(html)
print soupHtml

注:由于代码无法显示出来,所以就将 标签a和img分别改成 {a、{img
输出结果:
请输入图片描述
很明显,以上结果是错误的,错在img标签结束符位。
导致print soupHtml.img的结果如下:
请输入图片描述

阅读 6.5k
1 个回答

有BeautifulSoup的问题是少不了我凑个热闹的。

不过这个问题真是让我无语到要爆发……

  1. 完整代码,别弄半拉磕叽的东西。容易丢失细节的。
  2. 代码贴不上你可以找个http://paste.openstack.org/这样的pastebin网站贴上去啊!
  3. 我不知道你用的是不是最新的bs4。我用bs4能解析(即容忍HTML属性里出现没有被转义的字符)。你可能用的是低版本的bs3?那我也不知道啊!!!所以再怪你一次没给完整源码,下次注意点吧。
  4. HTML/XML属性值中出现<,>等东西的时候需要转义成HTML实体& lt;,& gt;等。
  5. 另外,求你了,别把未解析的ASP代码,完全当成HTML送进HTML解释器里行不行啊!!!
  6. 就不吐槽用ASP了……
  7. SF你能不能别把Markdown代码块里的HTML标签和HTML实体给解析了啊!!!

http://paste.openstack.org/show/60873/

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题