头图

想搞点数据做实验,但是又懒得写爬虫。最近我发现一个好玩的网站,让我们不用写代码就可以爬公开的数据下来。

就是这个亮数据,https://www.bright.cn

图片

那么接下来我就来给大家介绍下怎么用这个网站快速爬取豆瓣数据。

手把手实践

首先我们打开这个网站,点击登录按钮进入到如下页面:

图片

点击查看代理IP产品:

图片

选择亮数据浏览器:

图片

添加新代理,这里注意,名称唯一,后面不可更改。

图片

这里名称我就不改了,给大家演示用。

图片

确定后继续,查看代码实例:

图片

输入目标网站,和国家,例如,我这里想要获取豆瓣网的数据,则目标网站就是https://www.douban.com/,国家的话,就选择国内看看。

图片

图片

可以看到,选好语言Python模块后,这边自动生成了对应的脚本,在执行前,这里需要安装一下亮数据的第三方Python模块。

pip3 install playwright

图片

安装完成后,复制案例代码到python编辑器中执行。

import asyncio
from playwright.async_api import async_playwright

SBR_WS_CDP = 'wss://brd-customer-hl_95adca74-zone-scraping_browser1-country-cn:a91c6wyazi3p@brd.superproxy.io:9222'


async def run(pw):
    print('Connecting to Scraping Browser...')
    browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
    try:
        page = await browser.new_page()
        print('Connected! Navigating...')
        await page.goto('https://www.douban.com/')
        # CAPTCHA handling: If you're expecting a CAPTCHA on the target page, use the following code snippet to check the status of Scraping Browser's automatic CAPTCHA solver
        # client = await page.context.new_cdp_session(page)
        # print('Waiting captcha to solve...')
        # solve_res = await client.send('Captcha.waitForSolve', {
        #     'detectTimeout': 10000,
        # })
        # print('Captcha solve status:', solve_res['status'])
        print('Navigated! Scraping page content...')
        html = await page.content()
        print(html)
    finally:
        await browser.close()


async def main():
    async with async_playwright() as playwright:
        await run(playwright)


if __name__ == '__main__':
    asyncio.run(main())

运行成功,如下

图片

定义数据集

在并不熟悉爬虫技术,或者并不想费时费力去获取数据的情况下,亮数据也提供了解决方案。

点击数据集收集器进入

图片

按需定制数据集,大家可以按照自己的需求来,我这边定制化看一下,也就是选择最左边的

图片

图片

点击新建后

图片

点击下一页,会自动进行抓取

图片

图片

亮数据会抓取很多字段,显然,我们只需要其中的一部分,可以根据自己的需要,进行删减,比如,这里我只需要名称以及评论。

图片

完成后,就选择接受,继续下一步

图片

设置爬取的条数,这里我设置爬了100条点击提交后,可以对数据进行下载,内置提供有JSON和CSV两种数据保存格式,通过预览我们就可以看到抓取的基本数据信息。

图片

图片

是不是很好玩!没想到爬虫也有傻瓜化的一天!

重要!亮数据为小伙伴们提供了10美金的抵用券,成功注册账户,并登录后在用户界面里输入折扣代码即可享受抵扣!

如有问题,可以关注“Bright_Data”亮数据官微,联系后台客服。


江南一点雨
9.2k 声望7.6k 粉丝

《Spring Boot+Vue全栈开发实战》作者