懒人福利，不写代码爬数据！

想搞点数据做实验，但是又懒得写爬虫。最近我发现一个好玩的网站，让我们不用写代码就可以爬公开的数据下来。

就是这个亮数据，https://www.bright.cn。

那么接下来我就来给大家介绍下怎么用这个网站快速爬取豆瓣数据。

手把手实践

首先我们打开这个网站，点击登录按钮进入到如下页面：

点击查看代理IP产品：

选择亮数据浏览器：

添加新代理，这里注意，名称唯一，后面不可更改。

这里名称我就不改了，给大家演示用。

确定后继续，查看代码实例：

输入目标网站，和国家，例如，我这里想要获取豆瓣网的数据，则目标网站就是https://www.douban.com/，国家的话，就选择国内看看。

可以看到，选好语言Python模块后，这边自动生成了对应的脚本，在执行前，这里需要安装一下亮数据的第三方Python模块。

pip3 install playwright

安装完成后，复制案例代码到python编辑器中执行。

import asyncio
from playwright.async_api import async_playwright

SBR_WS_CDP = 'wss://brd-customer-hl_95adca74-zone-scraping_browser1-country-cn:a91c6wyazi3p@brd.superproxy.io:9222'


async def run(pw):
    print('Connecting to Scraping Browser...')
    browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
    try:
        page = await browser.new_page()
        print('Connected! Navigating...')
        await page.goto('https://www.douban.com/')
        # CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
        # client = await page.context.new_cdp_session(page)
        # print('Waiting captcha to solve...')
        # solve_res = await client.send('Captcha.waitForSolve', {
        #     'detectTimeout': 10000,
        # })
        # print('Captcha solve status:', solve_res['status'])
        print('Navigated! Scraping page content...')
        html = await page.content()
        print(html)
    finally:
        await browser.close()


async def main():
    async with async_playwright() as playwright:
        await run(playwright)


if __name__ == '__main__':
    asyncio.run(main())

运行成功，如下