1

大家好,我是船长,一个AI+RPA探索者。如果你对以下内容或脚本感兴趣,欢迎加我VX:TXZO1006

最近有朋友需要收集小红书的爆款文案,想让我开发一个自动收集素材的RPA机器人。

细聊之下才明白是想构建一个自己的文案素材库,这样可以节约很多的素材收集时间。

刚好我最近也报名的了破局的小红书项目,想着自己不久后也会有这样的需求,于是就花了点时间,做了个RPA机器人出来。

下面内容就是就给大家分享一下这个RPA应用,如果你也有相关的素材收集诉求,可以尝试一下,希望会对各位同学有所帮助。

效果演示

RPA应用是从小红书的官网https://www.xiaohongshu.com来采集爆文素材,需要提前登录你的小红书账号,然后再启动RPA。

如何获得

如果你对这款RPA机器人感兴趣,想要搜集小红书素材,让你的内容创作变得更加轻松高效,可以关注船长的公众号“船长笔迹”,并回复“小红书笔记”,获取影刀RPA工具分享链接。或者也可以扫描下方二维码加船长VX来获取。

RPA设计思路

下面是船长在设计实现这个RPA机器人的一些总结,如果你对于RPA机器人的设计与实现比较感兴趣,可以继续往下看。

数据来源:小红书目前的采集途径主要有小红书APP和小红书网站两个来源,但是考虑到如果从APP采集数据会比较麻烦一些,要么需要连接手机,要么需要下载模拟器,所以放弃这个途径改为从小红书网站来获取数据。

RPA工具:常规的RPA或自动化脚本应用都是可以用的,无论是影刀、UiBot、或是Automa、其他RPA应用都是可以的,自己熟悉就好。这里船长用的是影刀。

采集流程:完全模仿正常用户的操作流程。

  • 打开小红书网站(已登录状态)

  • 在上方的搜索框输入搜索关键字
  • 点击搜索按钮,延时几秒钟,等待搜索页面加载完成

  • 获取搜索结果列表,循环每一条图文笔记

  • 点击每一条图文笔记,获取封面、标题、笔记内容、笔记地址、点赞收藏数等等信息

  • 将获取到的信息作为一行数据写入Excel中

  • 等待图文采集完成,关闭保存Excel

设计难点

  • 小红书网页图文列表是动态变化的,会随着页面上下滚动而发生变化,不可以直接循环采集

解决思路:RPA工具对于这种动态加载的网站内容好像都没有太方便的解决方案,影刀也是如此。

因为网页会随着上下滚动不断变化,可能影刀获取到图文的标题是A,结果一滚动,页面动态加载了标题为B的图文,那么影刀还是按照之前标题A的图文去采集数据,那么就会报错,采集不到A的数据了。

为了解决这个问题,需要监控一个数据,那就是页面是否发生了动态加载。如果在采集数据时发现页面动态加载了,那么就需要重新获取一遍图文列表,取得动态加载后的页面数据再采集图文内容。

这里船长用于判断页面是否发生了动态加载的标准,是滚动条的位置。只要滚动条动了,那就重新抓取数据。

此外,重新抓取数据还会带来一个小问题,那就是可能产生重复数据,需要去重,这个问题大家可以自行探索解决。

  • 小红书笔记存在图文和视频两种形式,页面结构是不一致的,获取封面时该如何兼容处理?

解决思路:因为影刀中提供了直接编写JS和Python脚本的功能,所以这里船长直接使用了JS脚本直接获取封面的地址。

大致的逻辑如下,先获取图文笔记的封面,如果没有获取到就尝试获取视频笔记的封面。

可能你不会写这些脚本代码,但是没关系,实际上这些代码是可以让AI替我们生成的,上面这么一大段内容都是用通义千问生成的。我们只需要在此基础上进行测试,修修改改就能用了。

总结

  1. 我们需要通过实践来丰富自己解决问题的经验,很多知识不能只懂,更要会用。船长在实现这个RPA机器人的过程中遇到很多的问题,这些问题从来不会出现在书本中,但是你踩过一遍坑后才会发现自己真的会用这个工具了。
  2. AI工具就像是一个全能型的助手,能够帮助你完成很多基础性的、重复性的功能,如果使用得当,对于效率的提升会非常明显。
  3. 希望船长分享的这个小红书RPA机器人能够对你所有帮助。

本文由mdnice多平台发布


船长笔迹
1 声望0 粉丝

学习探索AI、RPA相关领域应用中。v+TXZO1006