谷歌开源robots.txt：使其成为一项互联网标准-嘉技的专栏

谷歌开源robots.txt：使其成为一项互联网标准

2019-07-03 10:30:37栏目：默认栏目 IP属地：IP未知

来源：云头条

谷歌希望让Robots Exclusion Protocol（机器人排除协议）成为一项互联网标准。

谷歌现向开源社区发布robots.txt，希望有一天这个系统能成为一项稳定的互联网标准。

周一，这个技术巨头概述了开源Robots Exclusion Protocol（REP）的举措——REP更广为人知的叫法是robots.txt，同时开源了其匹配的C ++库。

REP是网站管理员为试图访问网站的代码明确其行为的一种方式。最初的开发者Martijn Koster发现，他的网站被爬虫程序（crawler）所淹没，于是为了减轻服务器的压力，他在1994年开发了初版标准。

命令可以嵌入到文本文件中，该文本文件决定了爬虫程序的行为以及是否允许爬虫程序访问域名。

然而，REP并没有成为一项官方标准，因此自上世纪90年代以来，解读该协议的方式迥然不同，它也没有及时更新以适应的现代使用场合。

谷歌的三名研究人员Henner Zeller、Lizzi Harvey和Gary Illyes在博文中称：“自问世以来，REP就没有加以更新，以适应今天的极端情况。对于网站所有者来说，这个问题颇具挑战性，因为模糊的事实上的标准使得很难正确地编写规则。我们希望帮助网站所有者和开发者在互联网上营造令人惊叹的体验，而不是为如何控制爬虫程序而操心。”

谷歌现在已经创建了REP文档草案，并已将提案提交给互联网工程任务组（IETF），该组织负责推广自愿的互联网标准。

该草案并未改变Koster最初于1994年制定的规则，但确实扩展了面向现代网站的robots.txt解析和匹配功能，比如除了HTTP外还加入了FTP和CoAP。

此外，谷歌已提议应解析robots.txt文件的前500千字节（kibibyte），以减轻服务器负载，并且还可以实现24小时的最大缓存时间，以防止网站被索引请求所淹没。

谷歌目前正就规则草案征求反馈意见。

谷歌补充道：“我们在努力为互联网创建者提供控制权，以便告诉我们他们想要为谷歌机器人程序（Googlebot）提供多少信息，进而可以在搜索结果中合法地出现，我们要确保我们做好这一点。”

Github：https://github.com/google/robotstxt