robots.txt正确的写法有哪些,robots.txt存放路径在哪里?
我们如何让搜索引擎应该抓取内容、或者让搜索引擎不能抓取指定的内容呢?
让搜索引擎抓取内容或者禁止抓取内容是可以通过robots.txt文件进行设定的,如何正确的设置robots文件,请跟着武汉建站网的操作步骤进行阅读了解。
robots.txt文件网站正确的存放路径,有很多新手不知道robots应该放在网站上面位置,我们做一个简单的解答。
robots.txt需要放在网站跟目录下、根目录指的就是网站搭建时的存放文件夹(一般都默认为www和web)。
注意:robots.txt必须命名为robots.txt,不能更改格式和命名。Robots文件必须放在网站根目录下,不能放在其他目录下、放在其他目录属无效,是错误的操作手法。
搜索引擎蜘蛛,在访问网站链接时,首先会遵守用户协议(用户是否愿意公开内容、或者有的内容比较隐私、你可以选择不公开那些内容)去访问你网站根目录的robots.txt文件,看你网站允许抓取的范围。到底如何设置正确的robots.txt呢?一起来了解下、希望能帮助到您。
一、什么是robots.txt
robots.txt是一个用户协议文件,用户可以选择对内容进行公开,或者选择不开公开内容。如果设置错了,就会影响到蜘蛛抓取。
二、robots.txt含义所在
Robots.txt是搜索引擎首要的第一个抓取文件,通过设置告诉搜索引擎本站点那些内容可以抓取,那些不可以抓取,可以自定义设置允许或不允许某蜘蛛抓取该网站内容。
可能有人会问,如果我不设置robots文件有关系吗?这并没有问题,如果网站不设robots文件,意味着你的网站内容可以任意抓取。刚说到了robots是一个用户协议文件。希望对你有所帮助。
搜索引擎具体由哪些蜘蛛,点击进去查看到底有哪些蜘蛛程序。希望这篇文章能解决你的问题。
三、robots.txt文件正确的写法
允许搜索引擎访问所有的页面的写法(允许收录所有的页面)
User-agent: *
Disallow:
禁止搜索引擎抓取网站所有内容写法(不允许抓取网站内容、不允许收录网站内容)
User-agent: *
Disallow: /
禁止指定搜索引擎蜘蛛访问(比如禁止百度蜘蛛抓取,写法如下)
User-agent: baiduspider
Disallow: /
允许百度搜索引擎蜘蛛访问(比如允许百度蜘蛛抓取,写法如下)
User-agent: baiduspider
Disallow:
User-agent: *
禁止搜索引擎抓取访指定目录 (写法如下)
User-agent: *
Disallow: /cgi-bin/
Disallow: /amidn/
Disallow: /images/
禁止搜索引擎抓取带字符的链接 (写法如下)
User-agent: *
Disallow:/*?*(禁止抓取带?号的链接)
Disallow:/*\*(禁止抓取带\的链接)
Disallow: /news/09232.html (禁止抓取指定页面)
四、需要注意的细节:
1、一定不要写绝对路径,就是不要带我们网站域名。用/代替就可以。
2、注意robots文件中的所有符号都是在英文状态下写的,比如:Disallow: /wp-admin/ 中“:”是英文状态下的。
3、注意空格;例如:Disallow: /wp-admin/ 中":"后面紧跟着是一个空格;
4、注意大小写;例如:Disallow: /wp-admin/中Disallow的“D”是大写的。
5、robots是有生效时间的,是由百度决定的,几天或者两个月以内,所以,一定不要随便屏蔽整站。
6、还有一点要弄清楚的就是:
Disallow: /help 意思是禁止蜘蛛访问/help.html、/helpabc.html、/help/index.html所有的带help的文件及文件夹。
Disallow: /help/则是禁止蜘蛛访问/help/index.html这种形式的路径,允许访问/help.html、/helpabc.html,这两个是不一样的,大家要记清楚。
其实方法都很简答,通过txt文件编辑为robots.txt,然后上传到网站根目录就实现抓取权限了。注意:所有语句都是单规则的,即每行仅声明一条规则,比如例五中三个目录必须分三行列出来。
文由武汉建站网提供的robots.txt怎么写,robots.txt正确的写法和存放路径
本文由设计学习网整理发布,不代表设计学习网立场,转载联系作者并注明出处:https://ffjianzhan.cn/seo/10843.html