闲鱼app数据实时采集探索实验

前言

本文章分享一下最近研究闲鱼app商品数据采集。

技术栈

  1. Python
  2. Frida
  3. JADX
  4. Objection
  5. Android Studio

思路

  1. 使用Android Studio创建x86模拟器并运行,安装闲鱼和frida
  2. 使用Objection hook URL类,打印调用栈分析出关键函数
  3. 使用JADX打开APK分析关键函数的参数
  4. 使用firda构造参数调用关键函数
  5. python获取来自frida脚本的回调写入es数据库,按照小时分片
  6. 暴露接口实现任意关键词的实时查询

效果

可以看出闲鱼每秒大概有30-40条新数据产生,我们的请求速度为每5s一次,刷新速度甚至低于人工操作app时候的频率,不会对服务器造成任何影响,我们把他们写入我们自己的数据库,便可以实现实时分析。

image.png

总结

  1. 通过这次实验,我学会了使用frida去获取app的数据,不需要破坏app本身的任何东西,也不需要进行http抓包,直接hook函数即可实现,非常友好
  2. 从技术角度讲,这样的思路可以搞定一切app。

Focus on programming efficiency

981 声望
48 粉丝
0 条评论
推荐阅读
2022小红书app爬虫思路
背景使用传统的rpa去操作app,然后抓包获取数据的效率很烂。我们希望通过直接调用app函数的方式实现小红书app爬虫思路首先我们通过Android Studio创建一个模拟器,安装好Frida Server并运行,然后将最新的小红书a...

Prasanta1阅读 1.7k

数据结构与算法:二分查找
一、常见数据结构简单数据结构(必须理解和掌握)有序数据结构:栈、队列、链表。有序数据结构省空间(储存空间小)无序数据结构:集合、字典、散列表,无序数据结构省时间(读取时间快)复杂数据结构树、 堆图二...

白鲸鱼9阅读 5.3k

滚蛋吧,正则表达式!
你是不是也有这样的操作,比如你需要使用「电子邮箱正则表达式」,首先想到的就是直接百度上搜索一个,然后采用 CV 大法神奇地接入到你的代码中?

良许3阅读 1.5k

搭个ChatGPT算法模型,从哪开始?
最近 ChatGPT 很火,火到了各行各业。记得去年更多的还是码农最新体验后拿它搜代码,现在各行各业都进来体验,问它咋理财、怎么写报告和给小孩起名。😂 也因此让小傅哥在头条的一篇关于 ChatGPT 的文章都有了26万...

小傅哥6阅读 1.2k

封面图
程序员适合创业吗?
大家好,我是良许。从去年 12 月开始,我已经在视频号、抖音等主流视频平台上连续更新视频到现在,并得到了不错的评价。每个视频都花了很多时间精力用心制作,欢迎大家关注哦~考虑到有些小伙伴没有看过我的视频,...

良许3阅读 1.3k

Ubuntu20.04 从源代码编译安装 python3.10
Ubuntu 22.04 Release DateUbuntu 22.04 Jammy Jellyfish is scheduled for release on April 21, 2022If you’re ready to use Ubuntu 22.04 Jammy Jellyfish, you can either upgrade your current Ubuntu syste...

ponponon1阅读 4.6k评论 1

PyCharm 激活破解教程, 2023 年 2 月亲测有用
本文分享一下PyCharm 2022.2.3 版本最新激活破解教程,注意不要使用太新的版本,都是 Jetbrains 产品,本文专门配上了 Pycharm 的图片,跟着下面教程一步一步来即可。

程序员徐公阅读 9.4k评论 1

Focus on programming efficiency

981 声望
48 粉丝
宣传栏