【论文简读】 Deep web data extraction based on visual

云中的猫

阅读 3 分钟

0

《Deep web data extraction based on visual information processing》
作者 J Liu 上海海事大学 2017 AIHC会议登载
引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11.

简介

一种基于卷积神经网络（CNN）的数据区域定位方法
结合视觉信息进行网页的分割（作者命名为VIBS）

1、CNN 基于卷积神经网路进行区域定位

CNN网络结构由3个阶段组成，如图所示。第一阶段设置卷积层和汇集层以学习图像的特征。第二阶段是设置展平图层所必需的，展平图层会将卷积图层和合并图层生成的特征图转换为一维矢量，以计算完整的连接图层。除了为输出设置最后一个完全连接之外，第三阶段设置多个连接层以过滤先前层学习的特征。

网络架构设计使用13级CNN，包括5个采样层（S），6个卷积层（C）和2个完全连接层。

据区域检测的标准IOU，如果IOU > 50％，则数据区域被视为正样本。

区域定位主要步骤流程图如下

2、基于视觉信息的网页分割方法 VIBS

3、实验结果和分析

数据集（Lianjia、Complanet、Fangjia）

58,500个样本数据集，其中有195种具有不同大小和不同位置的图像样本，包含数据区域，总共300个组。

实验结果

总结

总体看下来，文章的创新意义大于实际意义吧，这么高的精确度，感觉像是过拟合了，而且速度不可能这么快，应该是把网页先行保存成图片了的，文章写得很不错，对比什么的体系也比较完善，就是有些地方没有讲清楚，比如能否divide的判定等。

html5 javascript

本文系翻译，阅读原文

https://link.springer.com/article/10.1007/s12652-017-0587-0

阅读 3.3k更新于 2018-10-07

云中的猫

769 声望56 粉丝

生活是一个BUG。

« 上一篇

【前端芝士树】详解CSS盒模型、BFC、OffsetWidth&ClientWidth&ScrollWidth

下一篇 »

【算法研究】网页信息提取文献总结&&差异&&对比

引用和评论

推荐阅读

🧀 Jetbrains Mono、FiraCode、Source Code Pro、Consolas评测，哪款是你的菜？

云中的猫赞 5阅读 12.4k评论 7

2025年最新反编译微信小程序的教程及工具

TANKING赞 9阅读 6.4k

手写一个动态海洋和天空效果的vue hooks

夕水赞 7阅读 1.9k

你可能不知道的图片加载相关知识

夕水赞 7阅读 5.2k

原生JS大揭秘—JS代码执行原理解刨

Damon赞 6阅读 5.7k评论 2

原生electron起步-从零到一完成构建和打包

兔子先森赞 3阅读 3.4k评论 1

LRU算法，你别跑，我就要吃透你

夕水赞 3阅读 4.6k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。