想搞点数据做实验,但是又懒得写爬虫。最近我发现一个好玩的网站,让我们不用写代码就可以爬公开的数据下来。
就是这个亮数据,https://www.bright.cn。
那么接下来我就来给大家介绍下怎么用这个网站快速爬取豆瓣数据。
手把手实践
首先我们打开这个网站,点击登录按钮进入到如下页面:
点击查看代理IP产品:
选择亮数据浏览器:
添加新代理,这里注意,名称唯一,后面不可更改。
这里名称我就不改了,给大家演示用。
确定后继续,查看代码实例:
输入目标网站,和国家,例如,我这里想要获取豆瓣网的数据,则目标网站就是https://www.douban.com/,国家的话,就选择国内看看。
可以看到,选好语言Python模块后,这边自动生成了对应的脚本,在执行前,这里需要安装一下亮数据的第三方Python模块。
pip3 install playwright
安装完成后,复制案例代码到python编辑器中执行。
import asyncio
from playwright.async_api import async_playwright
SBR_WS_CDP = 'wss://brd-customer-hl_95adca74-zone-scraping_browser1-country-cn:a91c6wyazi3p@brd.superproxy.io:9222'
async def run(pw):
print('Connecting to Scraping Browser...')
browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
try:
page = await browser.new_page()
print('Connected! Navigating...')
await page.goto('https://www.douban.com/')
# CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
# client = await page.context.new_cdp_session(page)
# print('Waiting captcha to solve...')
# solve_res = await client.send('Captcha.waitForSolve', {
# 'detectTimeout': 10000,
# })
# print('Captcha solve status:', solve_res['status'])
print('Navigated! Scraping page content...')
html = await page.content()
print(html)
finally:
await browser.close()
async def main():
async with async_playwright() as playwright:
await run(playwright)
if __name__ == '__main__':
asyncio.run(main())
运行成功,如下
定义数据集
在并不熟悉爬虫技术,或者并不想费时费力去获取数据的情况下,亮数据也提供了解决方案。
点击数据集收集器进入
按需定制数据集,大家可以按照自己的需求来,我这边定制化看一下,也就是选择最左边的
点击新建后
点击下一页,会自动进行抓取
亮数据会抓取很多字段,显然,我们只需要其中的一部分,可以根据自己的需要,进行删减,比如,这里我只需要名称以及评论。
完成后,就选择接受,继续下一步
设置爬取的条数,这里我设置爬了100条点击提交后,可以对数据进行下载,内置提供有JSON和CSV两种数据保存格式,通过预览我们就可以看到抓取的基本数据信息。
是不是很好玩!没想到爬虫也有傻瓜化的一天!
重要!亮数据为小伙伴们提供了10美金的抵用券,成功注册账户,并登录后在用户界面里输入折扣代码即可享受抵扣!
- 折扣代码: jiangnanyidianyu
- 访问页面:https://www.bright.cn/proxy-types/?utm_source=brand&utm_campa...
如有问题,可以关注“Bright_Data”亮数据官微,联系后台客服。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。