[python爬虫]把js转化成json

有一个优秀的库可以使用————demjson

目标链接

请求上面链接，会得到如下图的一个js文件

TIM截图20191112185355.png

我们需要把这个js文件转成为dict，方便提取其中需要的字段（这在爬虫任务中非常常见）

失败的方法

传统方法

通常转js文件为dict的过程：
1.先通过切片掐头去尾，去掉头部的 “callarea(” 和尾部的 “)” 。
2.再次导入json这个库，使用loads,json.loads(resposne.text[9:-1]),实现json转dict。

但是，这个方法在这里行不通。

import requests
import json

url = 'http://fcd.5173.com/commondata/Category.aspx?type=area&cache=&id=20c8bbc1b9794fc98bd96859624d4769&jsoncallback=callarea'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}

resposne = requests.get(url, headers=headers)

print(json.loads(resposne.text[9:-1]))

错误原因

js文件并不一定是json的超集，这此处的js文件key不包含双引号，value中的内容是单引号。

上诉方法行得通的前提是这个js需要时json的超集，key和value都由双引号包围。

天无绝人之路

通过demjson可以一步到位

import requests
import demjson

url = 'http://fcd.5173.com/commondata/Category.aspx?type=area&cache=&id=20c8bbc1b9794fc98bd96859624d4769&jsoncallback=callarea'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36',
}

resposne = requests.get(url, headers=headers)

for item in demjson.decode(resposne.text[9:-1]):
    id = item.get('id')
    name = item.get('name')
    print(id, name)

得到如下结果

[python爬虫]把js转化成json

目标链接

失败的方法

传统方法

错误原因

天无绝人之路

写代码千万不要睡着了

universe_king

引用和评论

apple silicon 的 mac 上有哪些好用的安卓 app 模拟器？

Vue.js-Vue实例

2025年最新反编译微信小程序的教程及工具

你可能不知道的图片加载相关知识

手写一个动态海洋和天空效果的vue hooks

原生JS大揭秘—JS代码执行原理解刨

🔥全程不用写代码，我用 AI 程序员写了一个飞机大战