code = '000917电广传媒'
def getinfo(code,page):
baseurl = 'http://news.baidu.com/ns?word=title%3A%28{}%29&pn={}&cl=2&ct=0&tn=newstitle&rn=20&ie=utf-8&bt=0&et=0'.format(code,10*(page-1))
wd = requests.get(baseurl).content
soup = BeautifulSoup(wd,'lxml')
title = soup.select('.c-title > a ')
resource = soup.select('div .c-title-author')
resource1 = [i.text.encode('utf-8') for i in resource]
for i in resource1:
print i
getinfo(code,1)
如图想分别获得网站来源和时间,但是用split方法无效,打印出来好像是空格,但是不能匹配替换。源代码中是 ,请问如何匹配替换,分别得到两种数据?
发现每一行的空格用了两种编码进行划分,虽然看起来是一样的。简单改写了一下你的代码
输出结果是