Начало работы с ручным обнаружением контента

Начало работы с ручным обнаружением контента

5 апреля 2022 г.

Понимание Robots.txt, Favicon, Sitemap.xml, заголовков HTML и стека Framework


Для начала мы должны спросить в контексте безопасности веб-приложений, что такое контент? Файл, видео, фотография, резервная копия или функция веб-сайта — все это примеры контента. Когда мы используем термин «обнаружение контента», мы не имеем в виду вещи, которые сразу бросаются в глаза на веб-сайте; это все остальное, что не предназначалось для всеобщего обозрения. Это содержимое может быть скрыто в коде или находиться на отдельном сервере (что требует дополнительных действий для его извлечения). Примерами могут быть что угодно: от страниц или порталов для использования сотрудниками до предыдущих версий веб-сайта, файлов резервных копий, документов по конфигурации системы и панелей администрирования.


Во многих случаях обнаружение контента является необходимым шагом в общем процессе тестирования безопасности веб-приложений. Обнаружив контент, не предназначенный для публичного просмотра, мы можем лучше понять, как работает приложение, и выявить потенциальные уязвимости. Существует множество методов, которые можно использовать для обнаружения контента, каждый из которых имеет свои преимущества и недостатки.


Существует три основных метода поиска контента на веб-сайте: вручную, автоматически и с помощью OSINT (Open-Source Intelligence). В этом посте мы сосредоточимся на ручном определении контента. На веб-сайте есть несколько мест, где мы можем найти дополнительные материалы для начала работы.


Роботы.txt


Файл robots.txt — это файл, в котором указывается, какие страницы вашего сайта должны или не должны отображаться в результатах поиска, а также какие поисковые системы могут сканировать сайт. Нет ничего необычного в том, что определенные разделы веб-сайта блокируются в результатах поиска. Эти страницы могут быть такими областями, как интерфейсы администрирования или файлы, предназначенные для клиентов веб-сайта. Таким образом, файл предоставляет нам список сайтов, которые владельцы сайта не хотят, чтобы мы обнаружили в качестве тестеров на проникновение.


Фавикон


Фавикон — это небольшое изображение, которое появляется на вкладке браузера рядом с названием веб-сайта. Он также отображается в адресной строке при наведении курсора на название веб-сайта. Фавикон может быть полезным индикатором контента на веб-сайте.


Когда веб-сайт разрабатывается с использованием фреймворка, значок установщика может оставаться на вкладке браузера. Если разработчик веб-сайта не заменит его пользовательским, это может указать, какую платформу они используют.


OWASP размещает базу данных стандартных значков фреймворка, которую вы можете использовать для сверки с целевым фавиконом (база данных фавикона). Мы можем использовать внешние источники, чтобы узнать больше о стеке фреймворка после того, как мы его идентифицировали.


Карта сайта.xml


Карта сайта — это файл, в котором перечислены все страницы сайта. Его можно использовать в качестве инструмента для обнаружения контента, поскольку он предоставляет обзор всего контента на сайте. Файлы Sitemap особенно полезны, когда вы пытаетесь определить, какие разделы веб-сайта заблокированы файлом robots.txt. Доступ к файлу sitemap.xml можно получить, добавив /sitemap.xml к URL-адресу веб-сайта.


HTML-заголовки


Заголовки HTML могут быть ценным источником информации для обнаружения контента. Они содержат метаданные о странице, включая заголовок, описание, ключевые слова, программное обеспечение веб-сервера и, возможно, используемый язык программирования/скриптов. Например, веб-сервер представляет собой NGINX версии 1.18.0 и использует PHP версии 7.4.3, а сервер базы данных — MySQL 5.7 (но работает на отдельном порту). Используя эту информацию, мы можем обнаружить уязвимые версии используемого программного обеспечения.


Мы можем показать заголовки HTML с помощью команды curl для веб-сервера, используя переключатель -v для создания подробного режима и предоставления заголовков:


завиток http://ip -v


Стек фреймворка


После того, как мы определили используемую систему управления контентом (CMS), мы можем продолжить исследование, чтобы узнать о стеке фреймворка. Стек фреймворка относится к набору программного обеспечения, используемого для работы веб-сайта. Обычно он включает веб-сервер, CMS и базу данных. Часто стек фреймворка раскрывается в заголовках HTML веб-сайта. Оттуда мы можем обнаружить еще больше информации, такой как функции программного обеспечения и другую информацию, которая может привести нас к дополнительным материалам.


Заключение


В этом посте мы рассмотрели некоторые методы ручного обнаружения контента. Мы увидели, как использовать файл robots.txt, значок значка, sitemap.xml и заголовки HTML для начала работы. Мы также рассмотрели, как определить используемую систему управления контентом (CMS) и изучить стек фреймворка. Эти методы могут быть полезны в наших усилиях по сбору дополнительной информации о веб-сайте.


Также опубликовано [Здесь] (https://deepboltzer.codes/getting-started-with-manual-content-discovery)



Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE