为何仅仅抓取到部分数据行？

Question

为何仅仅抓取到部分数据行？

发布于
2023-03-04 海南

更新于
2023-03-04

这个网页有40行数据

http://vip.stock.finance.sina.com.cn/q/go.php/vFinanceAnalyze/kind/profit/index.phtml?s_i=&s_a=&s_c=&reportdate=2021&quarter=4&p=3

我抓取这个网页

def get_rows(page):
    import urllib.request
    import lxml.html
    url = "http://vip.stock.finance.sina.com.cn/q/go.php/vFinanceAnalyze/kind/profit/"\
          "index.phtml?s_i=&s_a=&s_c=&reportdate=2021&quarter=4&p={}".format(page)
    table_xpath = '//*[@id="dataTable"]'
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
    req = urllib.request.Request(url=url, headers=headers)
    data_string=urllib.request.urlopen(req).read()
    root=lxml.html.fromstring(data_string)
    dtable = root.xpath(table_xpath)[0]
    rows = dtable.xpath('.//tr')
    print(len(rows))

奇葩的是url的p=3修改成p=2或其他，得到41这个数（第一行是行头 1+40=41)！！！

http://vip.stock.finance.sina.com.cn/q/go.php/vFinanceAnalyze/kind/profit/index.phtml?s_i=&s_a=&s_c=&reportdate=2021&quarter=4&p=2

为何第三页的数据不能全部获得？网站反爬了吗？

get_rows(page=1)
41
get_rows(page=2)
41
get_rows(page=3)
26
get_rows(page=4)
41

爬虫 python3.x

阅读 1.8k

1 个回答

得票最新

江户川亮仔

1.2k3929

发布于
2023-03-04 江苏

更新于
2023-03-04

你拿的是thead中的tr值, 你没发现这个tr是隐藏的吗?这个隐藏的部分应该是适配了移动端的数据

并且你应该拿tbody中的tr, 所以dtable.xpath('.//tr')写的不对, 应该定位tbody下面的tr

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

为何仅仅抓取到部分数据行？

你尚未登录，登录后可以

base32 crockford 编码与其他语言的实现结果不同?

现在哪个多模态视觉ai大模型可以用于 ocr 识别反爬虫验证码？

如何获取爬取iconfont里面的图标？

微信有给开发者提供输入 biz 返回公众号的主体注册信息的接口或者工具吗？

有什么开箱即用的爬虫版本mac安卓虚拟机？