Спецификация robots.txt изменилась. Google опубликовал обновленный список.
Опубликовано: Июль, 2019
На протяжении 25 лет протокол исключения роботов (REP) является одним из самых основных и важных компонентов Интернета. Это позволяет владельцам веб-сайтов частично или полностью исключать автоматические клиенты от доступа к своим сервисам.
В 94-м году Мартином Костером был создан первоначальный стандарт. Это случилось после того, как сканеры «завалили» его собственный сайт. В дальнейшем стандарт получил развитие до настоящего вида Robots Exclusion Protocol (REP). REP был принят поисковыми системами его цель – облегчить владельцам веб-сайтов управление их серверными ресурсами.
REP никогда не носил статус официального интернет-стандарта. Такая ситуация усложняла работу веб-мастеров, так как неоднозначное положение REP затрудняло правильное написание правил.
На днях Google опубликовал обновленную документацию, касающуюся правил использования robots.txt, где отражен реальный 20-летний опыт работы веб-мастеров. По сути, в протоколе мало что изменилось с 1994 года. Расширение возможностей REP для современной сети касаются следующих пунктов:
современный robots.txt принимает любой протокол на основе URI;
- устранена дополнительная нагрузка на серверы за счет определения максимального размера файла;
- установлено максимальное время кэширования, равное 24 часам. Это позволяет владельцам веб-сайтов обновлять robots.txt в любое время без перегрузки сканеров дополнительными запросами;
- отменено использование отживших себя систем, типа Ajax;
- обновлена расширенная форма Бэкуса-Наура, что дает лучшие возможности определения синтаксиса robots.txt;
- новое понятие «групп» лаконичнее и короче. Разработчики добавили пример для пустой группы;
- неполные или неточные запросы распознаются как ошибка сервера;
- раздел «Язык требований» больше не существует;
- понятие «записи» заменено на «строки» или «правила».
Изменения в спецификации файла robots.txt пока не отражены в русскоязычной версии документа Google.