robots协议的意义何在？

robots协议是什么？robots协议的意义何在？robots协议是什么样的？想要了解robots协议请看以下文章！

首先robots文件指的是带有.txt的文件，robots.txt的写法是做seo网站优化人员必须知道的（什么是robots.txt），但该如何写，禁止哪些、允许哪些，这就要我们自己设定了。

1、什么是robots协议? robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。robots协议的本质是网站和搜索引擎爬虫的沟通方式，用来指导搜索引擎更好地抓取网站内容，更好的保护用户的隐私和版权信息。大家记住，如果站内没有robots.txt文件，则表明蜘蛛可以任意抓取网站的文件。对于我们seo网站优化来说并不是所有文件都需要让蜘蛛抓取的。例如一些不重要的文件，或者网站的死链接，我们就需要使用robots.txt来屏蔽掉，不让他抓取。

2、robots.txt文件存放在网站的什么地方robots.txt文件存放在我们网站的根目录下，我们如何检测站点里面有没有robots.txt文件，我们只需要在网站的根域名后面输入robots.txt

3、robots.txt文件书写规则：• User-agent: 蜘蛛名称• Disallow: 内容名称 (禁止抓取的内容)• Allow:内容名称(允许抓取的内容)。

注意事项：第一点是正常情况下我们书写这个robots文件的时候一般很少用到ALLOW，但是robots这个文件必须且至少要写一条disallow记录。第二点是robots.txt 这个文件名要小写的。

各大搜索引擎蜘蛛名称，我们需要把这些带用的蜘蛛名称记下来： • 谷歌：googlebot • 百度：baiduspider • MSN：MSNbot • 雅虎：Slurp • 有道：YoudaoBot • 搜搜：Sosospider • 搜狗：sogou spider • 360：360Spider (haosouSpider) • alexa：ia_archiver

通配符说明： – *表示所有搜索引擎，用于指定蜘蛛使用。 – $表示以某字符串结尾 – /表示当前目录下的所有内容

指定蜘蛛 • User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符禁止写法 • Disallow: /admin 这里定义是禁止爬寻admin目录 • Disallow: /a/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录) • Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址 • Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 • Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

本文由设计学习网整理发布，不代表设计学习网立场，转载联系作者并注明出处.

robots协议的意义何在？

相关推荐

联系我们