如何将一个网页的文本全部提取出来？

JellyBool

16.2k125165

发布于
2014-12-27

如题，比如我想将SF的这个问题页的纯文本（不包括html标签，就是我们直接看到的纯文本）提取出来，有啥子好方法？或者说有专门干这事的类库没有？

不限语言网页爬虫

阅读 61.5k

19 个回答

得票最新

haofly

1.1k61320

发布于
2014-12-27

✓ 已被采纳

Python可以使用Beautiful Soup库的get_text()方法，可以获取一个标签以及其子孙标签内所有的文本的内容，
Beautiful Soup 4.2.0 文档

我是星礼

12.7k31330

发布于
2014-12-29

PHP有很多爬虫框架可以使用：网页抓取：PHP实现网页爬虫方式小结

Jinkora

3.2k51325

发布于
2015-01-05

可能题主想要这样的：
图片描述

或者是这样的：
图片描述

Java可以用Jsoup实现：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.7.3</version>
</dependency>

chegde

发布于
2014-12-27

更新于
2014-12-27

php 有Snoopy库可以直接抓取网页的文本内容 (去除HTML标签)
fetch一下
我用正则提取的

Pisces000221

11911

发布于
2015-01-02

更新于
2015-01-02

再来一个Javascript的：PhantomJS
这个比较适合类似的需求，也经常被用于进行网页截图一类的工作。
官方网站：phantomjs.org

文艺青年毛毛兔

54412

发布于
2014-12-27

找一个解析html的库，比如说python有HTMLParser,sgmllib,htmllib
然后你解析一把它应该会变成一棵树，你就遍历一下找自己要的东西拿走

我只处理过xml不过应该差不多就是这么来的...

胡萝卜有点坑

6681611

发布于
2014-12-28

LZ 用js 来取可以么？

console.log(document.body.innerText)

innerHtml 所有节点和内容

innerText 所有非节点内容

PhoneLi

811

发布于
2014-12-29

特定的网站，可以按照html dom 来抽取你要的数据。非常快捷。

evidence

发布于
2015-01-02

新手上路，请多包涵

图片描述

faker

26452232

发布于
2015-01-05

我不会告诉你我用

html2text

html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).

Usage: html2text.py [(filename|url) [encoding]]

这篇文章的方法基本可以满足提取正文的需求我为开源做贡献，网页正文提取——Html2Article

ginnerpeace

8714

发布于
2015-01-05

PHP 原生函数有个…… strip_tags()

十四

2k65666

发布于
2015-01-05

我不介意这种事情还用一些这样那样的库，如果题主想要一劳永逸的话，去学习正则吧，任何一门语言都支持的

Flydo

415102941

发布于
2015-01-05

只取文字？
php用xpath

itellin

发布于
2015-01-05

新手上路，请多包涵

在R中很容易实现，比如用rvest包

poly

发布于
2015-01-05

更新于
2015-01-05

新手上路，请多包涵

可以试试我做Hacker news digest时撸的正文提取库，目前看来效果非常好，hacker news上发的链接绝大部分都能提取出来。
https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor

LT_huyinghuan

157159

发布于
2015-01-05

找个能模拟浏览器引擎的
然后
var html = document.getElementsByTagName('html')[0]
text = html.innerTEXT

这样的东西node_module有很多如： jsdom， cheerio

珊瑚海

26641618

发布于
2015-01-05

用一个正则把 html 便签都替换成空，然后把空格都替换成空就可以了吧，哪有前面各位说的那么复杂。

liyuhao

1322

发布于
2015-01-07

正则就是可以了。

我用 Python 纯正则提取了好多招聘网站的招聘信息，做成了 CodeJob

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

被 2 篇内容引用

推荐问题

如何从根目录拉取docs.spring.io的所有文档？
如题，这是Spring的文档列表。我想从根目录拉取资料，但是点击“Parent Directory”，返回的却是网页，如下图：感觉这也不是ftp协议。所以到底该如何才能从根目录获取完整的目录和文件呢？
1 回答1.8k 阅读

如何将一个网页的文本全部提取出来？

html2text

你尚未登录，登录后可以

如何从根目录拉取docs.spring.io的所有文档？