Помощь Googlebot стучится в директории с изображениями. Что делать?

Тема в разделе "PrestaShop", создана пользователем evgenij.sobolev, 25 май 2019.

Метки:
Информация :
Приветствую гость, обрати внимание! Темы которые закреплены в разделах, в скором времени будут откреплены. Правила раздела PrestaShop

(Не актуальные темы) Каталоги:Модули PrestaShop 1.7Модули PrestaShop 1.5 - 1.6Шаблоны PrestaShop 1.7Шаблоны PrestaShop 1.5 - 1.6
(Не актуальные темы) Поиск / Запросы:Модули PrestaShop 1.7Модули PrestaShop 1.5 - 1.6Шаблоны PrestaShop 1.7Шаблоны PrestaShop 1.5 - 1.6
Полезная информация:Поддержка и помощь c PrestaShopУбираем ПрестаТраст, стучалки и прочую рекламуСовместные покупки модулей и шаблоновПеревод Prestashop и модулей
Модераторы: trace
  1. evgenij.sobolev

    evgenij.sobolev

    Регистр.:
    8 дек 2015
    Сообщения:
    214
    Симпатии:
    215
    Googlebot постоянно пытается сканировать директории, в которых расположены изображения:
    https://site.com/img/p/4/6/0/6/0/
    https://site.com/img/p/4/6/1/6/0/
    https://site.com/img/p5/6/0/3/0/
    И, получает 403 ошибку:
    Вот кусочек лога:
    Снимок.JPG
    На сайте, нигде нет таких ссылок.
    У кого-то есть такая же проблема? Или это у меня что-то не правильно работает?
     
  2. scspe

    scspe

    Регистр.:
    1 фев 2015
    Сообщения:
    293
    Симпатии:
    234
    Ну не прям чтобы ломится, но в логах есть немного. Правда, Яша.
    /var/log/httpd/domains/mysite.log
    В robots.txt папка img/ не запрещена. Поэтому стремление понятно.

    Само фото, если из админки товара открывать, то оно открывается: https://mysite.com/img/p/3/4/1/3/3873.jpg
    А Гугл уже пытается идти по иерархии вверх. А как узнал он - думать надо.

    Если хранятся старые логи, то можно посмотреть когда, и что главное - когда впервые, он получил доступ прямому адресу изображения. Хорошо если так, а то вдруг был доступ к директории. Просто если он ломится, то у него в базе есть эти адреса и он стремится их проверять на изменения. Теперь, чтобы убрать из его базы это все, поможет только редирект: ко мне он щимится на адреса товаров, которые были в 2010 году. Пришлось 15000 редиректов скормить, теперь перестал щимится. Не уверена, если снять редиректы, то не попытается снова ли нащупать 404-тых мешок. :D

    Вполне, что очень давно был доступ ко всей структуре /img/p/...
    Главное что сейчас доступа нет. Осталось понять почему и когда он был. В моём случае несколько десятков попыток Яндекса, но тупо на картинку. Хотя сейчас всё сделано через медисерверы, а открывает он по старым адресам, без медиасервера. То есть нечто старое мурыжит.

    Это если я все правильно понимаю.

    Но существует и другой вариант. Кто-то слил ссылки на ваши картинки, чтобы Гугл наложил санкции за ошибки. Хоть и говорят, что ошибки не влияют, но опыт с 15000 редиректами мне говорит обратное.
     
    _sashok и evgenij.sobolev нравится это.
  3. evgenij.sobolev

    evgenij.sobolev

    Регистр.:
    8 дек 2015
    Сообщения:
    214
    Симпатии:
    215
    У меня в роботсе тоже не запрещена индексация. Да и нельзя ее запрещать...
    Да, верно. Прямые ссылки есть только в админке.
    В фронт-офисе все ссылки на изображения такого формата:
    https://site.com/17975-home_default/ava-spacy-av-1121-black.jpg
    Как гугл узнал о том, что есть ссылки формата /img/p/3/4/1/3/3873.jpg не понятно.
    Возможно, когда-то, из-за неправильной настройки и были открыты ссылки такого формата.
    Но, почему, в таком случае, он не пытается просканировать изображение? Ведь оно доступно по ссылке https://mysite.com/img/p/3/4/1/3/3873.jpg
    Он лезет именно по таким адресам: https://mysite.com/img/p/3/4/1/3/
     
  4. Darkkus

    Darkkus Постоялец

    Регистр.:
    21 фев 2012
    Сообщения:
    56
    Симпатии:
    13
    можно закрыть от поиска просто добавив в верхнюю папку (в img) index.html
     
  5. evgenij.sobolev

    evgenij.sobolev

    Регистр.:
    8 дек 2015
    Сообщения:
    214
    Симпатии:
    215
    Можно по подробнее?
    Имеется ввиду добавить index.html так, чтоб получился такой путь?
    https://mysite.com/img/index.html

    Как именно этот метод должен сработать?
     
  6. Darkkus

    Darkkus Постоялец

    Регистр.:
    21 фев 2012
    Сообщения:
    56
    Симпатии:
    13
    робот получит ответ 200 и по идее дальше не будет стучаться.
     
    evgenij.sobolev нравится это.
  7. evgenij.sobolev

    evgenij.sobolev

    Регистр.:
    8 дек 2015
    Сообщения:
    214
    Симпатии:
    215
    Сейчас в /img есть index.php
    Я так понимаю, что эфект должен быть тот же самый.
    Если перейти по ссылке https://site.com/img/index.php идет переадресация на главную страницу
     
  8. Darkkus

    Darkkus Постоялец

    Регистр.:
    21 фев 2012
    Сообщения:
    56
    Симпатии:
    13
    Мда вообще этого эффекта мы и добивались, чтобы скрыть остальные папки от поисковых ботов. просто в других движках это помогает, в некоторых залит файл index.php в других index.html это скрывает вообще многое для постороних глаз.
     
    evgenij.sobolev нравится это.
  9. evgenij.sobolev

    evgenij.sobolev

    Регистр.:
    8 дек 2015
    Сообщения:
    214
    Симпатии:
    215
    У меня тоже есть подозрение, что эти ошибки негативно влияют.
    В GSC они отображаются:

     
  10. evgenij.sobolev

    evgenij.sobolev

    Регистр.:
    8 дек 2015
    Сообщения:
    214
    Симпатии:
    215
    index.php есть только в /img и /img/p
    А вот дальше по структуре папок уже нет.
    Положить в каждую папку index.php ?