scrapy 解析js代码或正则

发布于
2018-07-17

用scrapy爬取某网站,数据由js生成,用xpath提取script,获取到如下:

define("page_data",
        {
            "uiConfig": {
                "type": "root",
                "items":[
                    {
                        "comid": "itemBasic",
                        "items":[
                            {
                                "id":123,
                                "data":我所需的数据
                            }
                        ]
                    }
                ]
            }
        }
    );

有什么办法能获取到吗?由于请求数比较多,所以暂时不考虑selenium.
有办法能像js一样操作这段数据吗,例如a'uiConfig''items'这样.
或者正则的话如何匹配呢?

python scrapy 正则表达式

阅读 3.8k

2 个回答

✓ 已被采纳

如果你获得的文本这么有规律的话，那就十分简单了，正则都不需要，去掉第一行，去掉最后一行。然后 data = json.loads(content) ,在通过 data['uiConfig']['items'][0]['items'][0]['data'] 就能拿到了。

chili94w

2511413

发布于
2018-07-17

说实话我没怎么看懂需求,你是获取到这段数据,然后你需要这段数据中"data":我所需的数据这里的数据是吗 ?
如果是的话你可以尝试使用正则匹配出page_data后面类似的字典的一段数据,匹配出来后尝试使用 json.loads()把数据反序列化出来变成Python的字典,然后按照Python的字段取值方法取出你想要的内容..

如果无法序列化可以尝试直接使用正则匹配出来你需要的数据正则记得使用非贪婪模式匹配

如果你是想执行执行js... em... 你这段数据不太像js 貌似没办法执行吧..
想在Python执行js可以百度下有第三方包可以解析执行js代码

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

scrapy 解析js代码或正则

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？