在尝试写一个爬虫, 爬取1688的搜索结果页面。
其他都进行得很顺利,唯独搜索后关键词在网址里的编码问题。
例如,搜索“唇膏”
出来后的页面URL是下面这种格式:
https: // s.1688.com/ selloffer/offer_search.htm?
keywords=%B4%BD%B8%E0
这个keywords后面的编码字符无论如何也无法解码,也不知道是通过何种方式转换成这样的。(为了防止自动转换成链接,以上链接含有空格,无法直接打开)
不知道有没有前辈知道1688是如何编码这个关键字的?
C#为例,服务端这样解码:
结果: