[论文简读] 基于深度学习Web信息抽取与实现

云中的猫

阅读 1 分钟

0

基于深度学习Web信息抽取与实现

2017年浙大硕士学位论文

1 研究背景、目的以及相关技术

目的：利用神经网络进行网页信息抽取

Web信息抽取的相关技术总结

3~5 在其他论文中并没有提及，应该是作者自己归纳的

基于自然语言处理方式的信息抽取
基于包装器（wrapper）归纳方式的信息抽取
基于本体的信息抽取
基于HTML结构的信息抽取
基于Web查询的信息抽取

神经网络相关技术

RNN
LSTM
Tensorflow

2 基于RNN的信息抽取模型

大致过程就是通过词向量归纳相类似的词，比如电影领域的词库，然后对DOM节点进行配对，猜测是否为目标节点。

3 算法实现

首先需要获取一定数量的主题型页面（比如电影页面），并对用户指定的关键目标信息进行标记
（？？？还需要手动标记？？！这档次差好多了吧！）
然后使用的标记过的样本页面进行训练，使系统获得识别目标信息的能力
网页内容预处理
（这个部分就不放了，手动预处理，筛节点，然后添加一些关键词标记）

4 Tensorflow 模型

建立词库表

为每个单独的中文汉字而不是词组建立到词库表的映射。
为每个解析到的外文单词建立单独的映射。
为所有解析到的数字建立相同的映射。
为标记过的目标信息类别建立映射表。

emmmm 看不下去了，附上文章链接【万方】，有兴趣的可以了解一下，就这样吧，累觉不爱ε=(´ο｀*)))

阅读 3.9k发布于 2018-07-05

云中的猫

769 声望56 粉丝

生活是一个BUG。

« 上一篇

[论文简读] Deep Neural Networks for Web Page Information Extraction

下一篇 »

Bootstrap4 食用摘记（非入门教程）

引用和评论

推荐阅读

🧀 Jetbrains Mono、FiraCode、Source Code Pro、Consolas评测，哪款是你的菜？

云中的猫赞 5阅读 12.4k评论 7

OpenBayes 教程上新丨字节开源 InfiniteYou 图像生成框架，实现高保真面部特征迁移

OpenBayes阅读 532

书籍-《使用TensorFlow和Keras的神经网络》

一点人工一点智能阅读 522

单卡 4090 即可启动，一键部署 QwQ-32B-AWQ 教程

小白狮ww阅读 517

OpenBayes 教程上新丨CSM 驾到，统统闪开！更鲜活的语音生成，从此告别延迟呆板机械味

OpenBayes阅读 479

[OpenVLA] All attempts to get a Google ... token failed

赵为之阅读 473

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。