python爬虫了解第一篇

阅读 1 分钟

2

爬虫开始

爬虫的实际例子

搜索引擎：关键字匹配提取，前提是要将所有的页面爬一遍，然后存到自己的服务器，当用户惊醒搜索的时候，根据自己的搜索内容，搜索引擎将用户搜索信息返回给用户。
伯乐在线：文章的搬运工（http://www.jobbole.com/）
惠惠购物助手：谷歌插件，爬到电商平台的价格对比。
数据分析与研究：某一行业的数据分析（基于实际的数据分析），数据冰山&舆情分析&数据可视化
抢票软件：模拟人点击的操作。

什么是网络爬虫

通俗理解就是：一个模拟人请求网站的程序，可以自动请求网页并将所定义需求的数据抓取下来，然后提取有价值的数据。

通用爬虫和聚焦爬虫

通用爬虫：类似于搜索引擎抓取系统的重要组成部分。主要将网页信息下载到搜索引擎存储，形成一个互联网内容的镜像备份
聚焦爬虫：面向特定需求的一种爬虫。会将爬去到的信息进行筛选和处理

准备工具

Python3+
Pycharm Professional
虚拟环境

阅读 2.7k发布于 2018-05-05

wanghui

34 声望9 粉丝

« 上一篇

下一篇 »

flask之三：视图高级

引用和评论

推荐阅读

Vue基础（一）

wanghui阅读 1.3k

Anaconda安装教程以及Anaconda和pip配置国内镜像

遗失的美好灬阅读 5.8k

科学计算编程涉及到的技术栈简介

冒泡的马树阅读 3.3k评论 1

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

universe_king阅读 3k

Python3 格式化时间（qbit）

qbit赞 1阅读 2.7k

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

TANKING阅读 2.2k

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

universe_king阅读 2k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。