遇到一个比较棘手的需求：开发语言Java；程序定时读取HR邮箱中从前程无忧，智联发过来的简历（已实现，获到简历的HTML）；从简历HTML中解析获取想要的信息想（姓名，性别，电话，邮箱，工作经历，教育经历等等），保存到数据库中；把数据库中的简历数据用HTML展示，可让HR进行筛选；我现在卡在了简历HTML的解析信息这步，我用比较笨的方法，字符串定位截取，但是这样没办法比较准确的获取到想要信息。。。求助大家，看有没有好方法解析。。

解析HTML，获取其中想要的信息

clarence

601813

发布于
2016-11-15

遇到一个比较棘手的需求：

开发语言Java；
程序定时读取HR邮箱中从前程无忧，智联发过来的简历（已实现，获到简历的HTML）；
从简历HTML中解析获取想要的信息想（姓名，性别，电话，邮箱，工作经历，教育经历等等），保存到数据库中；
把数据库中的简历数据用HTML展示，可让HR进行筛选；

我现在卡在了简历HTML的解析信息这步，我用比较笨的方法，字符串定位截取，但是这样没办法比较准确的获取到想要信息。。。求助大家，看有没有好方法解析。。

java html

阅读 4.8k

7 个回答

得票最新

罗小黑

12324

发布于
2016-11-16

✓ 已被采纳

还是用Jsoup 转成相应的 Document对象，在操作对应元素方便点。
jsoup API：http://www.open-open.com/jsoup/

rapospectre

1.1k29

发布于
2016-11-15

用正则表达式呢？多考虑一些可能的匹配格式，应该可以。

stardew

6.1k41633

发布于
2016-11-15

用正则捕获会好点吧

huey

可以用 jsoup

可以用JSOUP 之前做过一个类似的东西，这个很方便的，可以对各种标签什么的进行处理。

Bpazy

4812313

发布于
2016-11-15

优先选择jsoup。
jsoup有个select功能，类似于CSS的选择器的语法，API又简洁，比正则表达式方便。

方老司

2k814

发布于
2016-11-15

更新于
2016-11-15

1 正则
2 HTML解析库，中文貌似叫“秘银”

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

解析HTML，获取其中想要的信息

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

threejs用octree实现房间内第三人称漫游并且添加了碰撞，人物在碰撞到墙壁的时候不停的弹回，应该怎么修改才能不会疯狂的弹回？

Vue为什么说textarea标签不支持插值表达式的？