从网页中萃取内容和标题有很多算法,一般的搜索引擎在索引的时候都需要这么一个步骤,目前网上最通行的是readablitily的算法,这里有两个程序实现 php实现https://github.com/feelinglucky/php-readability node.js实现https://code.google.com/p/arc90labs-readability/
从网页中萃取内容和标题有很多算法,一般的搜索引擎在索引的时候都需要这么一个步骤,目前网上最通行的是readablitily的算法,这里有两个程序实现