Как определить, являются ли посетителями вашего сайта люди, сканеры или чатгпт

Как определить, являются ли посетителями вашего сайта люди, сканеры или чатгпт

31 июля 2025 г.

Введение

Анализ журнала веб -сайтов имеет решающее значение для понимания моделей трафика, определения угроз безопасности и оптимизации пользовательского опыта. С ростом прокатров и ботов ИИ различие между автоматизированным и человеческим трафиком становится все более важным для веб -мастеров и аналитиков.

Общие форматы журнала

Apache Common Format (CLF)

127.0.0.1 - - [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326

Apache комбинированный формат журнала

127.0.0.1 - - [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

Формат журнала Nginx

192.168.1.1 - - [25/Dec/2023:10:00:13 +0000] "GET / HTTP/1.1" 200 612 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"

Пользовательские агенты AI BOT и шаблоны журнала

Поисковые системы

Google Bots

Тип бота

Пользовательский агент

Пример шаблона журнала

Googlebot

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

66.249.66.1 - - [01/Jan/2024:12:00:00 +0000] "GET /robots.txt HTTP/1.1" 200 145 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Google Images

Googlebot-Image/1.0

66.249.66.2 - - [01/Jan/2024:12:01:00 +0000] "GET /image.jpg HTTP/1.1" 200 25630 "-" "Googlebot-Image/1.0"

Google Mobile

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

66.249.66.3 - - [01/Jan/2024:12:02:00 +0000] "GET /mobile-page HTTP/1.1" 200 1024 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (compatible; Googlebot/2.1)"

Бинг Боты

Тип бота

Пользовательский агент

Пример шаблона журнала

Бингбот

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

40.77.167.1 - - [01/Jan/2024:12:03:00 +0000] "GET /sitemap.xml HTTP/1.1" 200 2048 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

Предварительный просмотр Bing

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) BingPreview/1.0b

40.77.167.2 - - [01/Jan/2024:12:04:00 +0000] "GET /preview-page HTTP/1.1" 200 5120 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ BingPreview/1.0b"

ИИ контент -сканеры

Openai/Chatgpt

Тип бота

Пользовательский агент

Пример шаблона журнала

Chatgpt-user

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); ChatGPT-User/1.0

20.169.168.1 - - [01/Jan/2024:12:05:00 +0000] "GET /article.html HTTP/1.1" 200 8192 "-" "Mozilla/5.0 AppleWebKit/537.36; ChatGPT-User/1.0"

Gptbot

GPTBot/1.0 (+https://openai.com/gptbot)

20.169.168.2 - - [01/Jan/2024:12:06:00 +0000] "GET /content HTTP/1.1" 200 4096 "-" "GPTBot/1.0 (+https://openai.com/gptbot)"

Антропический Клод

Тип бота

Пользовательский агент

Пример шаблона журнала

Клод-Уэб

Claude-Web/1.0

52.88.245.1 - - [01/Jan/2024:12:07:00 +0000] "GET /research-paper HTTP/1.1" 200 16384 "-" "Claude-Web/1.0"

Claudebot

ClaudeBot/1.0 (+https://www.anthropic.com/claudebot)

52.88.245.2 - - [01/Jan/2024:12:08:00 +0000] "GET /terms-of-service HTTP/1.1" 200 2048 "-" "ClaudeBot/1.0"

Другие ползулки ИИ

Услуга

Пользовательский агент

Пример шаблона журнала

Недоумение

PerplexityBot/1.0 (+https://docs.perplexity.ai/docs/perplexitybot)

44.208.132.1 - - [01/Jan/2024:12:09:00 +0000] "GET /knowledge-base HTTP/1.1" 200 12288 "-" "PerplexityBot/1.0"

You.com

YouBot/1.0 (+https://about.you.com/youbot)

34.102.136.1 - - [01/Jan/2024:12:10:00 +0000] "GET /faq HTTP/1.1" 200 3072 "-" "YouBot/1.0"

Meta ai

FacebookBot/1.0 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)

31.13.24.1 - - [01/Jan/2024:12:11:00 +0000] "GET /social-content HTTP/1.1" 200 6144 "-" "FacebookBot/1.0"

Образец журнала пользователей человека

Настольные браузеры

Браузер

Пользовательский агент

Пример шаблона журнала

Хром (Windows)

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36

192.168.1.100 - - [01/Jan/2024:14:30:25 +0000] "GET /homepage HTTP/1.1" 200 25600 "https://google.com/search" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/120.0.0.0"

Firefox (macO)

Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:120.0) Gecko/20100101 Firefox/120.0

192.168.1.101 - - [01/Jan/2024:14:31:15 +0000] "GET /about HTTP/1.1" 200 18432 "https://duckduckgo.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:120.0) Firefox/120.0"

Сафари (macO)

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Safari/605.1.15

192.168.1.102 - - [01/Jan/2024:14:32:45 +0000] "GET /products HTTP/1.1" 200 22528 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) Safari/605.1.15"

Мобильные браузеры

Устройство/браузер

Пользовательский агент

Пример шаблона журнала

iPhone Safari

Mozilla/5.0 (iPhone; CPU iPhone OS 17_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Mobile/15E148 Safari/604.1

10.0.1.50 - - [01/Jan/2024:15:20:10 +0000] "GET /mobile HTTP/1.1" 200 15360 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 17_1 like Mac OS X) Safari/604.1"

Android Chrome

Mozilla/5.0 (Linux; Android 14; SM-G998B) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36

10.0.1.51 - - [01/Jan/2024:15:21:30 +0000] "GET /app HTTP/1.1" 200 19456 "https://m.google.com/" "Mozilla/5.0 (Linux; Android 14; SM-G998B) Chrome/120.0.0.0"

Ключевые шаблоны идентификации

Характеристики бота

  • Запрос шаблонов: Последовательный, систематический ползание
  • Время ответа: Последовательные интервалы между запросами
  • Продолжительность сеанса: Короткие сессии, без поведения просмотра
  • JavaScript: Ограниченное или нет выполнения JavaScript
  • Печенье: Часто отключают или игнорируют
  • Рефератель: Обычно пустые или из поисковых систем

Человеческие характеристики

  • Запрос шаблонов: Случайное, разнообразное поведение просмотра
  • Время ответа: Переменные интервалы, паузы для чтения
  • Продолжительность сеанса: Более длинные сеансы с несколькими просмотрами страниц
  • JavaScript: Полное выполнение JavaScript
  • Печенье: Принято и поддерживается на протяжении сеансов
  • Рефератель: Различные источники, включая социальные сети, прямые ссылки

Команды анализа и сценарии

Базовый анализ журналов с Grep

# Find all bot traffic
grep -i "bot\|crawler\|spider" access.log

# Find Google bot traffic
grep "Googlebot" access.log

# Find AI crawler traffic
grep -i "gptbot\|claude\|perplexity" access.log

# Count requests by user agent
awk '{print $12 " " $13 " " $14}' access.log | sort | uniq -c | sort -nr

# Find top IP addresses
awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -20

Расширенный анализ с AWK

# Analyze request patterns by hour
awk '{print substr($4,14,2)}' access.log | sort | uniq -c

# Calculate average session length
awk '{print $1, $4}' access.log | sort | uniq | wc -l

# Find suspicious rapid-fire requests
awk '{print $1, $4}' access.log | sort | uniq -c | awk '$1 > 100'

Таблица анализа журналов: сравнение трафика BOT с человеком

Показатель

AI боты

Поисковые боты

Человеческие пользователи

Запрос

1-10 Req/Sec

0,1-2 req/с

0,01-0,5 Треб./Сек

Продолжительность сеанса

<1 минута

1-5 минут

5-30 минут

Страницы за сеанс

5-50

10-100

2-15

Поддержка JavaScript

Ограничен

Нет/ограничен

Полный

Принятие печенья

Редкий

Никто

Стандартный

Рефератель шаблон

Пусто/прямой

Пусто/поиск

Разнообразно

Распределение кода состояния

В основном 200

200, 404, 301

200, 404, 403

Время между запросами

Последовательный

Полурегулярный

Нерегулярный

Как использовать это для анализа ИИ для SEO

Понимание ползания бота ИИ для стратегии SEO

Боты ИИ становятся все более важными для SEO, поскольку они помогают обучать языковые модели и функции поиска Power AI. Понимание их поведения может информировать вашу стратегию SEO и оптимизацию контента.

SEO -преимущества анализа бота искусственного искусства

1. Оптимизация обнаружения контента

Следите за тем, какие страницы AI -ботов чаще всего заполняют:

  • Высокое содержание: Страницы, ползанные несколькими ботами ИИ, указывают на ценный контент
  • Пробелы в контенте: Страницы, игнорируемые ботами ИИ, могут нуждаться в оптимизации
  • Эффективность ползания: Определите, получают ли боты ваши самые важные страницы
# Find most crawled pages by AI bots
grep -i "gptbot\|claude\|perplexity" access.log | awk '{print $7}' | sort | uniq -c | sort -nr | head -20

2. Анализ видимости поиска ИИ

Отслеживайте поведение бота ИИ, чтобы улучшить видимость в результатах поиска на основе AI:

Служба ИИ

SEO последствия

Анализ фокус

Chatgpt/Gptbot

Контент, используемый для обучения и ответов

Мониторинг глубины и частоты ползания

Клод

ИСПРАЖНЕНИЯ И АНАЛИЗАЦИИ

Отслеживать, какие типы контента предпочтительнее

Недоумение

Интеграция поиска в реальном времени

Анализировать доступ к странице, связанный с запросом

You.com

Поисковая оптимизация

Мониторинг шаблонов индексации

3. Сигналы качества контента

Боты ИИ часто сосредоточены на высококачественном авторитетном контенте:

# Analyze AI bot crawling patterns by content type
grep -i "gptbot\|claude\|perplexity" access.log | grep -E "\.(html|php)$" | awk '{print $7}' | sed 's/.*\///' | sort | uniq -c

Стратегии оптимизации SEO на основе анализа бота искусственного интеллекта

1. Оптимизация структуры контента

Боты ИИ предпочитают хорошо структурированный контент. Проанализируйте их схемы ползания, чтобы оптимизировать:

  • Направление иерархии: Обеспечить правильную структуру H1-H6
  • Длина контента: Мониторинг, какая длина статьи привлекает больше внимания ИИ
  • Внутреннее связывание: Отслеживать, как AI боты следуют за внутренними ссылками

2. Технический SEO для Clawlers AI

# Check if AI bots are accessing key SEO pages
echo "Robots.txt access by AI bots:"
grep -i "gptbot\|claude\|perplexity" access.log | grep "robots.txt"

echo "Sitemap access by AI bots:"
grep -i "gptbot\|claude\|perplexity" access.log | grep "sitemap"

3. Анализ свежести контента

Следите за тем, как быстро AI Bots обнаруживают новый контент:

Показатель

Метод анализа

SEO Insight

Время открытия

Время между публикацией и первым визитом AI BOT

Эффективность распределения контента

Частота ползания

Как часто AI Bots Revisit обновленного контента

Содержание сигналов свежести

Обновление распознавание

Поведение бота после обновлений контента

Эффективность обнаружения изменений

ИИ поведение поведения для SEO

Анализ предпочтений контента

# Analyze which content types AI bots prefer
grep -i "gptbot\|claude\|perplexity" access.log | awk '{print $7}' | grep -E "(blog|article|guide|tutorial|research)" | sort | uniq -c | sort -nr

Анализ шаблона полки

Мониторинг схемы ползания бота ИИ, чтобы понять:

  • Пиковые времена ползания: Когда боты AI наиболее активны
  • Глубина ползания: Как глубоко в структуре вашего сайта они идут
  • Длина сеанса: Сколько контента они потребляют за визит

Рекомендации SEO на основе анализа бота искусственного интеллекта

1. Оптимизация контент -стратегии

  • Страницы с высоким уровнем AI-RACLED: Они указывают
  • Низкие страницы AI-RACRED: Может потребоваться улучшение контента или лучшая внутренняя связь
  • Игнорируемые разделы: Рассмотрим реструктуризацию или улучшение качества контента

2. Техническая реализация

# Monitor AI bot response codes for technical issues
grep -i "gptbot\|claude\|perplexity" access.log | awk '{print $9}' | sort | uniq -c | sort -nr

Общие коды ответа и их последствия для SEO:

  • 200 ОК: Успешный доступ к контенту
  • 404 не найден: Разбитые ссылки, влияющие на обнаружение ИИ
  • 403 запрещено: Ограничения доступа, ограничивающие ползание ИИ
  • 301/302 перенаправления: Изменения структуры URL

3. Конкурентный анализ

Сравните закономерности ползания бота с помощью:

  • Отраслевые конкуренты: Концентрация внимания к вашему контенту
  • Типы контента: Определите, какие форматы системы ИИ предпочитают
  • Тематические области: Понять интерес искусственного интеллекта по разным предметам

Измерение успеха SEO с помощью анализа бота искусственного интеллекта

Ключевые показатели производительности (KPI)

КПИ

Метод измерения

Значение SEO

AI CRAWLAGE

Процент страниц, ползая AI ботами

Обнаружение контента

Частота ползания

Среднее время между визитами бота ИИ

Контент свежесть восприятие

Глубина содержания

Средние страницы на сеанс AI BOT

Эффективность структуры сайта

Частота ошибок

Процент ответов 4xx/5xx на боты AI

Техническое здоровье SEO

Ежемесячный шаблон отчетности

#!/bin/bash
# Monthly AI Bot SEO Report
echo "=== AI Bot SEO Analysis Report ==="
echo "Period: $(date +'%B %Y')"
echo ""

echo "1. AI Bot Traffic Volume:"
grep -i "gptbot\|claude\|perplexity" access.log | wc -l

echo "2. Most Crawled Content:"
grep -i "gptbot\|claude\|perplexity" access.log | awk '{print $7}' | sort | uniq -c | sort -nr | head -10

echo "3. Technical Issues:"
grep -i "gptbot\|claude\|perplexity" access.log | grep -E " (4[0-9][0-9]|5[0-9][0-9]) " | awk '{print $9}' | sort | uniq -c

Этот подход анализа AI BOT помогает оптимизировать вашу стратегию SEO, понимая, как системы ИИ взаимодействуют с вашим контентом, что приводит к лучшей видимости в результатах поиска на основе искусственного интеллекта и улучшению обнаружения контента.

Рекомендации для анализа журналов

1. Регулярный мониторинг

  • Настройка автоматизированных сценариев для работы почасовой или ежедневной
  • Мониторинг необычных пиков трафика
  • Отслеживать новые или неизвестные пользовательские агенты

2. Анализ IP -адреса

  • Поддерживать белый список известных хороших ботов
  • Блок подозрительных IP, показывающих поведение, похожее на бот
  • Используйте данные геолокации для дополнительного контекста

3. Реализация ограничивающей ставки

  • Внедрить различные пределы ставок для ботов против людей
  • Используйте прогрессивные задержки для повторных запросов
  • Рассмотрим капчу для подозрительного движения

4. Задержание и хранение журнала

  • Сохранить журналы не менее 30 дней для анализа
  • Сжатие старых журналов для сохранения хранилища
  • Рассмотрим централизованную регистрацию для нескольких серверов

Заключение

Эффективный анализ журнала веб -сайтов требует понимания различных моделей ботов ИИ, сканеров поисковых систем и людей. Реализуя надлежащий мониторинг, анализ сценариев и механизмы обнаружения, веб -мастера могут лучше управлять своим трафиком, улучшить безопасность и оптимизировать пользовательский опыт. Регулярный анализ этих моделей помогает поддерживать здоровый баланс между разрешением полезного трафика бота, предотвращая при этом злоупотребление и обеспечивая оптимальную производительность для посетителей человека.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE