我已经浏览了针对类似问题的大部分解决方案,但没有找到一个有效的解决方案,更重要的是,还没有找到解释为什么在被抓取的网站上调用 Javascript 或其他东西时会发生这种情况。
我正在尝试从网站上抓取游戏“Officials”的表格:http: //www.pro-football-reference.com/boxscores/201309050den.htm
我的代码是:
url = "http://www.pro-football-reference.com/boxscores/201309050den.htm"
html = urlopen(url)
bsObj = BeautifulSoup(html, "lxml")
officials = bsObj.findAll("table",{"id":"officials"})
for entry in officials:
print(str(entry))
我现在只是打印到控制台,但是我得到一个带有 findAll 或 None 的空列表。我也用基本的 html.parser 尝试过这个,但没有成功。
对 html 有更好理解的人可以具体告诉我这个网页有什么不同吗?提前致谢!
原文由 scotche 发布,翻译遵循 CC BY-SA 4.0 许可协议
试试这个代码:
它将打印: