1. 主页 > 建设教程

详解,搜索引擎抓取策略与常见的流程!

因此,在做seo项目的时候,特别是新网站,我们有必要了解一下搜索引擎抓取页面的策略与常见流程,比如,对于一个全新的网站,搜索引擎通常会采用如下抓取流程:

①基于网站日志

②获取网站IP

③核定网站名称

④获取网站数据

⑤核查抓取时间

在这个过程中,搜索引擎通常是基于网站对应的IP地址,不断的完善后期的数据抓取任务,通常来讲:搜索引擎会去尝试判断同一个IP地址下面对应的网站数量。

然后,根据IP地址所对应的服务器性能,核定一个IP地址最大限度的抓取频次是多少,从而进一步的根据同IP下,网站权重的评估去判断这个网站优先抓取的级别,以及后期每个网站的抓取频次。

接下来,当搜索引擎爬虫到访目标网站之后,一般情况下,都是基于页面链接来作为初始条件,获取目标页面的相关性信息。

通常来讲,一个网站作为链接的载体主要包括:

①网站本身的页面

②网站XML版本的sitemap地图

搜索引擎在初始阶段一般情况下都会优先通过这两个方式获取整站的链接,虽然现阶段各大搜索引擎都在不断强化API方式提交数据,我们认为sitemap网站地图,如果在技术条件允许的情况下,我们还是要优先配置一下。

严格意义上来讲,为了提供抓取效率,节省资源,搜索引擎会优先抓取整站页面链接中,没有进行抓取过的页面,作为初始页面。

然后基于这个页面不断的提取链接,分析链接,判断页面的基础类型,从而获取相关性的页面数据信息。

一般情况下:

搜索引擎会基于CSS,JS,判断一个页面的基础类型,它是首页,内容页,列表页等等。

从而进一步的去抓取目标页面的基础信息,比如:

①文字性内容

②页面图片元素(图片的超链接等)

③页面中下载链接(需要进一步评估分析真实性)

这样对于一个搜索引擎的页面抓取与分析的流程就基本完成了,但在这个过程中,仍然有诸多细节,需要我们讨论。

本文由设计学习网整理发布,不代表设计学习网立场,转载联系作者并注明出处:https://ffjianzhan.cn/wangjs/9604.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息