爬虫入门到精通-网页的解析（正则）

在爬虫入门到精通第四讲中，我们了解了如何下载网页，这一节就是如何从下载的网页中获取我们想要的内容

万能匹配

html = u"""
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>文章的标题</title>
</head>
<body>
    <div id="app" class="container">
        <h1>h1文字</h1>

        <label for="input">Input</label>
        <textarea id="input" rows="10" class="form-control">
</body>
</html>
"""

我们要获取的html 如上所示，

假如我们要获取文章的标题这几个文字，那么我们应该怎么做呢？

我们只要能定位到它，也就能获取到它

那么，如何定位到它呢？

很简单,根据它两边的内容.

我们很简单的能发现它左边是<title> ,右边是</title>

所以，我们如何找到文章的标题这几个文字呢，只要左边是<title> ,右边是</title>，那么中间就是我们要找的

下面用程序写出来

可以看到我们正确匹配到了文章的标题，

我们首先来看 pattern = '<title>(.*?)</title>'

我们可以发现这就是我们上面讲的,左边是<title> ,右边是</title>,那么中间的(.*?)是什么呢？这其实是来用来声明我们要匹配的字符串是什么,这边我们用的是(.*?),表示我们要匹配的字符串可以是任何东西,没有格式要求。也就是俗称"万能匹配"，大家可以下图的正则表达式语法，来解释下为什么 .*? 是万能匹配, .*？ 外面的 () 又是什么鬼

string=html 表示我们当前要被匹配的是我们定义的html

最后flags=re.S 表示(.*?)中的 . 可以匹配包括换行符（见下面表）

[0] 是取返回列表中的第一个，主要是方便演示

正则表达式语法（声明我们要匹配的字符串是什么格式的）

图片来自博客园

re中所有的flags解释

最后再来一个案例，还是上面的html，我们需要匹配的内容是h1文字

代码如下

本文使用notebook编写完成，全文在github上

总结

看完本篇文章后，你应该要：

学会最通用的一种正则表达式

re.findall('左右的字符串(.*?)右边的字符串',等待匹配的字符串,flags)

大家想深入了解正则表达式的话

请先看这一篇正则表达式30分钟入门教程

再看这一篇 Regular expression operations

最后的最后，收藏的大哥们，能帮忙点个赞么~

爬虫入门到精通-网页的解析（正则）

万能匹配

正则表达式语法（声明我们要匹配的字符串是什么格式的）

re中所有的flags解释

最后再来一个案例，还是上面的html，我们需要匹配的内容是h1文字

总结

kimg1234

引用和评论

一行代码损失了？？？RMB

Anaconda安装教程以及Anaconda和pip配置国内镜像

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总