注册登录 手机扫一扫

SEO资料站:网站robots协议没写好,后果竟有这么严重!

导言:

机器人协议是蜘蛛访问网站的开关,它决定了蜘蛛能抓取什么内容和不能抓取什么内容。从网站管理者的角度来看,我们可以通过机器人的书写来决定蜘蛛应该抓取哪些文件,而不是抓取哪些文件,这更有利于网站的优化。

目录:

1.360英镑。百度;300场战争。

什么是2 .机器人协议?它有什么用?

3.几个主要网站的机器人协议分析、编写规则和编写策略

4.知识扩展:不遵从和不允许的区别

1.360英镑。百度;300场战争。

我仍然记得2013年360和百度的比赛。300场战争。()?该事件的结果如下:2014年8月5日,岐狐360因通过微博等平台恶意攻击和诽谤竞争对手百度,在北京市海淀区人民法院开庭。法院认为360的行为损害了百度的商业信誉,是不公平竞争。360被责令立即停止不正当竞争,在网站首页和媒体显著位置公开宣布消除影响,并赔偿相关损失25万元。这也是360近年来的第20起诉讼。

此前,百度和360之间有各种不和谐的消息。其中之一是360违反了& ldquo机器人协议。捕获并复制其网站的内容。

机器人协议是什么?它有什么用?

机器人是网站和蜘蛛之间重要的沟通渠道。网站通过机器人文件声明网站中不想被搜索引擎包含的部分,或者指定搜索引擎只包含特定的部分。请注意,robots.txt文件仅在您的网站包含您不想被搜索引擎包含的内容时才是必需的。对于网站管理员来说,由于搜索引擎优化的要求,蜘蛛被限制抓取某些不参与排名或不利于排名的文件,通过编写机器人协议。在某些情况下,如果蜘蛛不被限制抓取特定文件,它可能会导致网站上机密信息的泄露。曾经有一个大学网站没有建立机器人协议,导致学生信息被蜘蛛捕获并在互联网上发布。如果是一个商业网站,会员信息被泄露给网站的后果是非常严重的。因为我们的网站管理员在管理网站时应该注意机器人协议的编写。

机器人是网站和蜘蛛之间交流的门户。蜘蛛在访问网站之前必须首先找到robots.txt协议,并通过阅读机器人来决定抓取哪些内容以及不抓取哪些内容。当然,这个协议需要在搜索引擎中被各方遵守,否则,写得好的robots.txt也是白瞎的。

3.几个主要网站的机器人协议分析、编写规则和编写方法

现在让我们假设每个搜索引擎蜘蛛都遵守规则,所以让我们讨论如何限制蜘蛛抓取它们不想被抓取的内容。你想禁止蜘蛛抓什么?让我们先看看一些网站的机器人协议是如何写的。

3.1几个主要网站的机器人协议分析

网站的robots协议通常以robots.txt的形式存储在网站的根目录中,因此,在打开网站后,添加& ldquo/robots.txt&rdquo。按回车键查看网站的机器人协议。例如,如果你进入https://www.zhihu.com/robots.txt,,你可以看到智虎网站的机器人协议。

使用相同的方法,可以获得其他几个网站的机器人协议。

以下是一个专业论坛的机器人协议:

以下是新华社的机器人协议:http://www.xinhuanet.com/robots.txt

以下是淘宝的机器人协议:https://www.taobao.com/robots.txt

3.2机器人协议的编写规则

通过以上真实案例,我们将全面了解机器人协议的写作规则和写作策略。

在您的计算机上创建一个新的txt文档,并将其命名为& ldquorobots.txt & rdquo。

在写作之前,必须先了解写作规则。

机器人协议编写规则包括:

(1)书写时,文本输入过程用英文(半角)进行,每行第一个字母应大写!大写!大写!

(2)通过用户代理定义搜索引擎的名称。您可以使用以下语法定义多个搜索引擎:

用户代理后面是一个英文冒号& ldquo:& rdquo,后跟英文空大小写,后跟搜索引擎的名称;如果是星号,则意味着所有搜索引擎蜘蛛都已定义。

(3)使用“允许”或“不允许”来定义您希望蜘蛛抓取或不抓取的内容。书写格式如下:

允许或不允许后面跟一个英文冒号& ldquo:& rdquo,后跟英语空格,后跟左斜线& ldquo/& rdquo;,后跟文件目录或文件名。应该注意的是,在默认状态下(即,当没有机器人协议或者当不允许命令没有用robots.txt编写时),网站被允许搜索引擎并且对所有搜索引擎开放,并且所有搜索引擎蜘蛛可以抓取网站上的所有内容。“允许”与“不允许”一起使用,以限制和释放蜘蛛的抓取。

除了在上述情况下看到的各种形式外,在编写机器人协议时应注意以下几点:

(1)使用通配符*表示0个或更多任意字符(包括0);

(2)$$表示该行的结束,用于表示该行的结束,后面没有任何其他字符。结尾字符$ $有时可用于排除结尾字符后跟其他字符的情况。例如,对于图片我的1.doc、我的2.doc、我的3.doc,可以将文件另存为& ldquomeinv3.docx&rdquo。当我们采用& ldquo不允许:/meinv*。单据$ $ & rdquo(不允许抓取我的1、1和3个文件)。目录中有一个meinv3.docx文件,与meinv3相同。医生。如果这个meinv3.docx文件不限于抓取,那么meinv3.docx可能仍然被蜘蛛抓取。因为单据$$只表示& ldquodoc & rdquo以& ldquo结尾的文件不包括在内。docx & rdquo文件的结尾。

(3)目录和非空前缀的区别:从上面淘宝上的机器人协议可以看出,有些命令使用斜杠& ldquo/& rdquo;最后,有些人没有。他们之间有什么区别?

例如,网站的根目录有wwwroot/image/meinv/、& ldquomeinv & rdquo这个文件夹里有许多美丽的女人的照片,她们的名字是meinv1.jpg,meinv3.gif,我的3.gif,joymeinv.jpg & hellip& hellip。我们想用它来限制蜘蛛抓取meinv & rdquoTxt文件被写为& ldquo不允许:/image/meinv&rdquo。,它将导致机器人协议只禁止抓取文件(包括meinv3.gif、meinv3.gif、我的3.gif、meinvjoy.jpg等。)以/image/ folder下的meinv开头。但是。meinv & rdquo在文件夹& ldquo下joymienv.jpg & rdquo因为没有& ldquomeinv & rdquo因此,在开始的时候,抢夺是不被禁止的。虽然是书面的不允许:/image/meinv&rdquo。这条命令,但搜索引擎可能仍然抓取& ldquojoymienv.jpg & rdquo该文件不符合预期的抓取禁令meinv & rdquo文件夹下所有文件的用途。

3.3机器人协议的编写策略

理解以上规则后,让我们来谈谈机器人的写作策略。

我们允许或禁止抓取的内容应该结合搜索引擎优化来决定。这些内容主要包括:

1、网站隐私内容;

2.不参与排名的内容,如& ldquo成员& rdquo文件。模板& rdquo文件、数据库文件、插件文件等。;

3.中文链接/路径,死链接,垃圾网页,重复网页。

结合以上知识,我们将分析上述网站的robots.txt协议。

Txt。

淘宝使用用户代理来定义许多蜘蛛,包括百度、谷歌、必应蜘蛛等。

对于百度蜘蛛,请使用& ldquo允许:/文章& rdquo该命令允许百度蜘蛛抓取带有文章前缀的文件,因为它们使用& ldquo/article & rdquo;允许爬网的文件是以文章开头的文件或文件夹,可以是/article/ directory、article1、article2、articlelist和其他文件。

以下内容:允许:/osthml&rdquo。& ldquo允许:/张文& rdquo实现的功能和允许:/文章& rdquo一样的,不再赘述。

使用& ldquo不允许:/product/& rdquo;禁止抢夺产品& rdquo文件夹下的所有文件不禁止抓取非& ldquo产品& rdquo乐队& ldquo在文件产品下字符文件(如productlist.excel、product100.png和其他文件夹中的其他文件)。

使用& ldquo不允许:/& rdquo;该命令禁止百度抓取网站根目录下的所有文件。这意味着淘宝屏蔽了百度的搜索引擎。

其他搜索引擎的以下命令相似,将不予分析。

& ldquo# & rdquo这个数字是什么意思?& ldquo# & rdquo该符号表示注释。这一行代码对蜘蛛的捕获没有影响。

使用-代理:*(定义所有搜索引擎蜘蛛)

允许:/表示允许检索网站根目录下的所有文件。

该机器人协议与没有机器人协议的网站具有相同的效果。

在机器人协议写好之后,它可以根据需要上传到网站的根目录。

读完上面的内容,你已经知道如何写机器人协议了吗?你自己做吧。

4.知识扩展:不遵从和不允许的区别

不跟随和不允许都是& ldquo面具& rdquo角色,两者有什么区别?

(1)它用于不同的目的

Nofollow通常用于禁止传递链接的权重,例如。www.moonseo/contact”·雷尔。不跟随& rdquo>。联系我们。,这是告诉搜索引擎不要跟踪这个链接,权重不会传递到这个链接,使权重更加集中。

Txt的禁止:/contact/,是禁止蜘蛛抓取目录文件夹和所有文件夹,也就是说,禁止抓取和记录。

(2)动作范围不同,全站和当前页面不同

Nofollow是超链接的一个属性。它仅对当前链接有效,但对没有添加Nofollow的其他链接无效。当在元标签中使用Nofollow时,它的最大范围是当前页面上的所有链接。

“不允许”的作用范围是当前网站的一个链接,不管它出现在哪个页面上,所以当你需要禁止一个链接、一个页面甚至一个文件夹被抓取时,你需要清楚地确定影响的范围。

不允许和不跟随是最容易混淆的。如果使用不当,可能会导致你的网站在你不知情的情况下屏蔽蜘蛛。例如,如果您想禁止搜索引擎包含某个页面,建议使用“不允许”。如果你只是不想让页面给某个链接以权重,比如评论列表上的超链接,你可以使用Nofollow。当站外有一个指向你的网站的链接,而你的网站robots.txt使用“不允许”时,那么这个外部链接的价值将会大大降低,特别是新的站必须小心使用。

支持Ctrl+Enter提交