标准的web前端页面流程结构是啥？

whiter

3413

发布于
2016-04-13

web 前端页面的标准，对于爬虫抓取有帮助的是啥啊？

javascript css

html5 html

阅读 3k

2 个回答

得票最新

donghanji

2.3k1315

发布于
2016-04-14

这个是最基本的结构：

<!DOCTYPE html><!--这里不同时期不一致-->
<html>
    <head>
    </head>
    <body>
    </body>
</html>

对于搜索有帮助的，主要集中在head。当然，要看具体的爬虫的功能，比如我爬虫是抓取指定区域的内容，很显然跟head的设置没有任何关系。这里主要说的是搜索引擎的爬虫。

head内几个对于搜索重要的信息：
<title></title>:
<meta name="keywords" content=""/>:
<meta name="description" content=""/>:
当然，标题的重要性是毋庸置疑的。然而，对于keywords，已经在很大程度上呗弱化了，description就更次了。对于搜索排名啥的，目前基本不用考虑，主要是搜索显示。

当然，现在一些社交网站也设置了一些meta标签相关的，这个有类爬虫的功能，也可以关注了解下。