谷歌开源robots.txt:使其成为一项互联网标准
2019-07-03 10:30:37
  • 0
  • 0
  • 0

来源:云头条

谷歌希望让Robots Exclusion Protocol(机器人排除协议)成为一项互联网标准。

谷歌现向开源社区发布robots.txt,希望有一天这个系统能成为一项稳定的互联网标准。

周一,这个技术巨头概述了开源Robots Exclusion Protocol(REP)的举措——REP更广为人知的叫法是robots.txt,同时开源了其匹配的C ++库。

REP是网站管理员为试图访问网站的代码明确其行为的一种方式。最初的开发者Martijn Koster发现,他的网站被爬虫程序(crawler)所淹没,于是为了减轻服务器的压力,他在1994年开发了初版标准。

命令可以嵌入到文本文件中,该文本文件决定了爬虫程序的行为以及是否允许爬虫程序访问域名。

然而,REP并没有成为一项官方标准,因此自上世纪90年代以来,解读该协议的方式迥然不同,它也没有及时更新以适应的现代使用场合。

谷歌的三名研究人员Henner Zeller、Lizzi Harvey和Gary Illyes在博文中称:“自问世以来,REP就没有加以更新,以适应今天的极端情况。对于网站所有者来说,这个问题颇具挑战性,因为模糊的事实上的标准使得很难正确地编写规则。我们希望帮助网站所有者和开发者在互联网上营造令人惊叹的体验,而不是为如何控制爬虫程序而操心。”

谷歌现在已经创建了REP文档草案,并已将提案提交给互联网工程任务组(IETF),该组织负责推广自愿的互联网标准。

该草案并未改变Koster最初于1994年制定的规则,但确实扩展了面向现代网站的robots.txt解析和匹配功能,比如除了HTTP外还加入了FTP和CoAP。

此外,谷歌已提议应解析robots.txt文件的前500千字节(kibibyte),以减轻服务器负载,并且还可以实现24小时的最大缓存时间,以防止网站被索引请求所淹没。

谷歌目前正就规则草案征求反馈意见。

谷歌补充道:“我们在努力为互联网创建者提供控制权,以便告诉我们他们想要为谷歌机器人程序(Googlebot)提供多少信息,进而可以在搜索结果中合法地出现,我们要确保我们做好这一点。”

Github:https://github.com/google/robotstxt

 
最新文章
相关阅读