Контекст (Бизнес-задача / Проблема): Партнер, владеющий спортивным новостным порталом, обратился с критической проблемой: редакция полностью потеряла возможность публиковать свежие материалы. Базовая диагностика показала, что дисковое пространство сервера заполнено на 99%. Анализ логов выявил, что виновниками были не живые читатели, а агрессивное нашествие ИИ-ботов (GPTBot, ClaudeBot, Applebot) и SEO-краулеров (SemrushBot, AhrefsBot). Их непрерывный парсинг страниц провоцировал генерацию гигантских объемов кэша, что привело к исчерпанию ресурсов диска, CPU и RAM, полностью парализовав бизнес-процессы редакции.
Архитектура и Реализация (Решение): Для устранения инцидента мы предложили три варианта:
Быстро и почти бесплатно: прямая блокировка ботов.
Долго и дорого: глубокая ручная оптимизация системы.
Надежно и оптимально: развертывание Nginx Reverse Proxy с микрокэшированием (Microcaching) и ограничением количества соединений с одного IP.
Партнер выбрал первый вариант для немедленного восстановления работы портала без лишних затрат. Мы спарсили логи, выявили самых “прожорливых” User-Agent, заблокировали им доступ на уровне веб-сервера и принудительно очистили директории кэша.
# 1. Блокировка агрессивных ботов в .htaccess для снижения нагрузки
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|SemrushBot|AhrefsBot|Amazonbot|ClaudeBot|Bytespider|Applebot|MJ12bot|DotBot|PetalBot|Baiduspider) [NC]
RewriteRule ^.* - [F,L]
# 2. Удаление накопившегося мусорного кэша, забившего диск
find /var/www/example.com/cache/ -type f -delete
# 3. Проверка успешной очистки директории (вывод должен быть 0)
find /var/www/example.com/cache/ -type f | wc -l
Бизнес-результат (Ценность): Точечная блокировка проблемного трафика позволила мгновенно освободить более 11 ГБ дискового пространства. Хотя сами попытки обращений от ботов не исчезнут моментально, сервер начал отдавать им код 403, что кардинально снизило утилизацию процессора, оперативной памяти и дисковой подсистемы. Партнер избежал вынужденного и дорогостоящего апгрейда серверов, а редакция смогла вернуться к публикации новостей в течение нескольких минут. Через два дня запланирован контрольный срез аналитики для подтверждения стабильности.
