【论文简读】Web Content Information Extraction Based on DOM Tree and Statistical Information
简介
文章发布于 2017 17th IEEE International Conference on Communication Technology
作者是北京邮电大学的 Xin Yu
文章提出了一种基于DOM结构将WEB页面划分为块,然后通过统计信息提取内容的方法
方法描述
该方法主要针对主题型新闻页面(以文字为主)
Page Segmentation 页面分割
对DOM树进行 pre-processing 预处理
-
Add hierarchical information 添加分层属性
描述DOM树中DOM节点所在的位置层级,比如<body>
为Level 1 具体可以参照下图 - Traverse the DOM tree 遍历DOM树获得叶子节点集
假设目标页面里,只有叶子节点存放着所有相关的文本信息,emmm[・_・?],这一点就是我觉得局限性非常大的一点了,因为不适用于其他类型的网站,而且文章型网页也有部分是不这么做的,也会容易把冗余信息纳入其中。 - Get the real node 获得真实节点
有点一言难尽,还是看图吧
考虑到了这种特殊情况,信息保存在a标签里,但是作者想提取的目标节点为li,所以作者提出GetRealNode方法,将这种父元素只包含了一个子元素,且子元素为叶子节点的情况,将父元素代表子元素这个叶子节点放入数据池中。 - Fusion based on least common ancestor 基于最少共同祖先的融合
把结构性相似节点归纳为一块,比如上图中的li节点,具有许多相邻相似的兄弟节点,可以被关联到同一块中。
该算法中有一个非常奇怪的点,相邻的节点难道层级会不同吗,isCommonLevel和isBrother可以再细化一些。
划分结果如图三所示
统计信息
结合节点中的超链接文本的个数、长度以及层级,为每一个节点进行打分(判断是否是重要节点)
这里作者没有讲怎么去处理分母为零的情况,举个例子,节点如果不包含任何的链接,textLinkCount+imgLinkCount=0
阈值
阈值的目的就是为了区分内容块和噪声块
t 是所要求出的阈值,
Xi 是内容块的评分
N 是要分成多少类,作者取值为二(目标以及噪声)
作者采用计算方差的方法来获取阈值,然后通过内容块的评分与阈值比较,区分出内容节点和噪声节点。
评价体系
作者从准确率,召回率以及一个自定义的平均函数来评价方法
A是人工的提取内容
B是算法的提取内容
LCS(A,B)是指A和B的最长公共子序列
测试数据集为作者自己采集的新闻网页
效果数据如图所示
阅后想法
没有公开的数据集,没有算法源码,过程也这么粗糙,是怎么发上IEEE的...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。