标准的web前端页面流程结构是啥?

web 前端页面的标准,对于爬虫抓取有帮助的是啥啊?

阅读 2.9k
2 个回答

这个是最基本的结构:

<!DOCTYPE html><!--这里不同时期不一致-->
<html>
    <head>
    </head>
    <body>
    </body>
</html>

对于搜索有帮助的,主要集中在head。当然,要看具体的爬虫的功能,比如我爬虫是抓取指定区域的内容,很显然跟head的设置没有任何关系。这里主要说的是搜索引擎的爬虫。

head内几个对于搜索重要的信息:
<title></title>:
<meta name="keywords" content=""/>:
<meta name="description" content=""/>:
当然,标题的重要性是毋庸置疑的。然而,对于keywords,已经在很大程度上呗弱化了,description就更次了。对于搜索排名啥的,目前基本不用考虑,主要是搜索显示。

当然,现在一些社交网站也设置了一些meta标签相关的,这个有类爬虫的功能,也可以关注了解下。

楼上说了基本的 HTML 结构。
补充一点,不同的搜索引擎,爬虫的行为会不同。最好去看看各个你比较重视的搜索引擎官方的指南或者白皮书之类的。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题