培训导师张学宁的课程发表时间:2022-02-14 10:20:07
有些网站内容中包含一些站长不想让蜘蛛抓取的url或文件,也可以直接屏蔽。对于屏蔽蜘蛛,用到的一般都 比较少。robots文件的写法这一点应该是比较重要的了。如果写错了想屏蔽的没成功,想被抓取的却写进去自 己不能及时发现可就亏大了。首先我们要知道两个标签,Allow和Disallow,一个是允许,一个是不允许,它 的作用相比大家也都能理解。User-agent: Disallow: 或者 User-agent:Allow:这两段内容表示的都是允许抓 取所有,实际上屏蔽url和文件用到的是Disallow标签,除非你的网站只有几条想要被抓取采用Allow标签。这 个User-agent:后面跟的就是蜘蛛名称,大家对主流的搜索引擎蜘蛛名称应该比较熟悉。下面以搜搜蜘蛛为 例:Sosospider。当我们想屏蔽搜搜蜘蛛的时候:User-agent: sosospiderDisallow:大家可以发现这个屏蔽 蜘蛛跟上面允许相比只是多了一个“”,其含义就起了翻天覆地的变化,所以在书写的时候要千万注意,可不能 因为多写个斜杠屏蔽了蜘蛛自己却不知道。 |