可可网络
专注效果,用心服务
电话

免费服务热线

19925363846

二维码
使用Robots文件管理指导搜索引擎蜘蛛的网站捕获。

来源: 2021-02-05

使用Robots文件管理指导搜索引擎蜘蛛的网站捕获。
几年前,搜索引擎手动编辑想要填写表格、注册网站和搜索网站的关键词的过程随着搜索引擎网络爬虫或网络蜘蛛的出现而改变。本文对robots相关内容进行详细介绍。
什么是搜索引擎蜘蛛?
搜索引擎蜘蛛是一个自动程序,它沿着从一个网页到另一个网页的链接在网络上爬行,索引内容并将其添加到数据库中。也就是说,只要网站上有其他网站上搜索引擎已经知道的链接,随着时间的推移就会找到。网站上的链接越多,这种情况发生的越快。
不幸的是,这些蜘蛛可以访问非常密集的网站。这是因为加载每个页面和文件对数据库进行目录。蜘蛛虚拟专用数据库负载太大,会给访问者带来问题。为了帮助解决这些负载问题,有一种标准化的方法,就是将名为robots.txt的文件放置在网站根目录中,以控制这些爬行动物的行为。但是,没有强制遵守此文件的内容。因此,大部分web搜索引擎爬行动物都会跟随它,但有些爬行动物可能不会。

Robots.txt文件具有特定的格式。请参考以下示例。
用户代理:Google  bot
Disallow: /images
Allow:/images/metadata
Crawl-delay: 2
Sitemap: /sitemap.xml
要按顺序查看每个命令行,请执行以下操作:
首先从“用户代理”(User-agent)行开始。机器人或web浏览器使用用户代理来识别自己,各种搜索引擎爬虫将拥有自己的用户代理。遵循“User-agent”命令的所有其他命令仅对指定的用户代理有效。带有星号(*)的用户代理被认为是指所有用户代理。在示例文件中,该指令与谷歌启动搜索引擎蜘蛛程序相关。
Disallow命令用于通知搜索引擎未加载的目录或文件。请注意,搜索引擎蜘蛛不加载文件,但如果跟踪链接,搜索结果中将列出该文件。因此,不能用于防止页面出现在搜索结果中。Disallow可能是所有搜索引擎蜘蛛支持的唯一指南。因此,此示例不允许爬网/图像目录。
使用Allow命令可以指定搜索引擎蜘蛛可以加载的禁止目录中的文件或目录。不是所有的搜索引擎蜘蛛都支持这个指令,但大部分蜘蛛都支持。在此示例中,蜘蛛可以加载位于/images/metadata目录中的文件。下面的说明是“crowl-delay”。惠州网站以秒为单位提供蜘蛛加载下一页之前等待的数字。是降低蜘蛛速度的最好方法。除了网站上几乎没有页面外,数字可能不会太高。这是因为蜘蛛极大地限制了每天可以加载的页数。
最后,“站点地图”命令可以将蜘蛛引导到网站的XML网站地图文件,并为网站建立索引。
搜索引擎蜘蛛控制
您可以在Robots.txt中填充尽可能少的用户代理,以控制站点访问方式。对于所有蜘蛛,从用户代理区域开始,然后为特定蜘蛛添加单独的部分是有意义的。因为网站可能会出现问题。创建Robots.txt后,必须测试它是否有效。如果语法中出现输入错误或拼写错误,蜘蛛可以忽略正在设置的规则。幸运的是,有很多测试它的工具和谷歌提供的测试工具等主要搜索引擎。