欢迎访问黑客防线网安官网-在攻与防的对立统一中寻求突破!

robots如何书写定义了你网站收录的重要性

来源: 黑客防线网安官网  点击:  属于:空间知识
希望所发布的文章或者信息能被搜索引擎所收录,但是如果有一些信息或者链接不适合展现,更不想这些信息被搜索引擎收录,那么这种情况应该怎么避免呢?

希望所发布的文章或者信息能被搜索引擎所收录,但是如果有一些信息或者链接不适合展现,更不想这些信息被搜索引擎收录,那么这种情况应该怎么避免呢?

这时候robots.txt就起到作用了,什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在你的网站上的抓取范围。你可以在网站中创建一个robots.txt,在文件中声明。该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当你的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。

robots如何书写定义了你网站收录的重要性

接下来看看robots.txt文件应该怎样写

一、User-agent:意思是定义搜索引擎类型

因为搜索引擎有好几种:百度蜘蛛:Baiduspider,谷歌蜘蛛:Googlebot,360蜘蛛:360Spider,搜狗蜘蛛sogou spider。一般没有特殊要求的话,正确写法是:User-agent: * 意思是允许所有搜索引擎来抓取。这是robots.txt文件中第一行的写法。

二、Disallow:意思是定义禁止抓取的地址

就是禁止蜘蛛抓取的地址,在我们的网站是静态或伪静态的时候一般网站要禁止蜘蛛抓取动态路径(?)、.js、后台的文件等一些不想让蜘蛛抓取的文件。它的正确的写法如下:

Disallow: / 禁止蜘蛛抓取整站(一定不能这么写,这样会让所有搜索引擎不来抓取你的网站内容)。

Disallow: /admin/ 禁止抓取网站中带admin的文件夹,意思不让收录你的网站后台地址。

Disallow: /page/ 禁止抓取网站中带page的文件夹。

Disallow: /*?* 禁止抓取网站中的所有动态路径。

Disallow: /.js$ 禁止抓取网站中的所有带.js的路径。

Disallow: /*.jpeg$ 禁止抓取网站中所有jpeg图片。

三、Allow:意思是定义允许抓取收录地址

这个就不需要多说了,就是允许的意思,在robots文件中不写Allow意思就是默认的允许,因此大家没必要写上。注意千万不要写成这样:

User-agent: *

Disallow:/

网站想要让所有的搜索引擎抓取,除了谷歌。

User-agent: *

Allow: /

User-agent: Googlebot

Disallow: /

如果网站里面有死链接、网站被攻击时来不及删除的目录文件和链接、重复的页面或者内容及隐私性的内容等,都不想被搜索引擎蜘蛛抓取,robots.txt文件的作用就体现了。我们要注意的是robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。


黑客防线佣兵
扫一扫,关注黑客防线最新消息扫一扫,关注黑客防线最新消息
联系工程师

工作时间:周一至周日 10:00-2:00

联系人:伊森工程师

手机:13718235518

地址:烟台市芝罘区文化宫

黑客防线佣兵网欢迎洽谈合作!
2004年8月1日成立于北京中关村,于2015年在烟台市芝罘区文化宫。专门从事于企业网站建设、服务器维护,网站维护,网络安全环境设置,入侵检测服务,木马清除,IT企业外包,监控运维服务及源码构架、网站建设、虚拟空间、模板制作、SEO优化及主机域名等服务项目。
 版权所有 京ICP备2023000759号 京公网安备11010802041224号