用pyspider爬虫爬取了html
需要把整个html部分都保存
但在保存的时候遇到一个问题
就是标签里面带有“”引号这个问题,导致无法存到数据库,不知道你们一般是怎么解决的
用pyspider爬虫爬取了html
需要把整个html部分都保存
但在保存的时候遇到一个问题
就是标签里面带有“”引号这个问题,导致无法存到数据库,不知道你们一般是怎么解决的
如果你是用的MySQLdb的话,这个库有个函数叫escape_string(str)
它可以把字符串中的符号转义掉:
html_escaped = MySQLdb.escape_string(html.encode('utf-8'))
这样就可以存入MySQL了。
3 回答1.2k 阅读✓ 已解决
4 回答805 阅读✓ 已解决
3 回答1.1k 阅读✓ 已解决
2 回答752 阅读✓ 已解决
3 回答880 阅读✓ 已解决
2 回答539 阅读✓ 已解决
3 回答685 阅读✓ 已解决
不明白为什么要用数据库来保存HTML内容。保存文件名不可以吗...