Публичные веб-данные для бизнеса: общие проблемы и способы их решения
10 января 2023 г.Общедоступные веб-данные — это мощный инструмент для компаний, работающих с данными, которые хотят получить уникальную информацию о бизнесе или создать новые продукты. Веб-данные, полученные из общедоступных онлайн-источников, могут использоваться в различных целях, например для сбора инвестиционной аналитики, подбора персонала на основе данных и привлечения потенциальных клиентов.
Количество компаний, использующих веб-данные, растет, и всем им приходится сталкиваться с одинаковыми проблемами на этом пути.
В этой статье я расскажу о наиболее распространенных проблемах с веб-данными и поделюсь практическими советами по их преодолению.
Проблемы с общедоступными веб-данными
Качество данных
Начнем с самой распространенной проблемы при работе с общедоступными веб-данными — качества. Обычно организации используют веб-данные для двух целей: для создания новых продуктов или получения информации. Оба этих варианта использования требуют точных и надежных данных. Его качество можно измерить по различным параметрам, в том числе описанным ниже.
* Точность. Если данные точны, они подлинны, правильны и доступны. * Полнота. Полные записи данных содержат все точки данных с заполненными значениями. Если некоторые значения в конкретном наборе данных отсутствуют, это может исказить результаты анализа. * Последовательность. Согласованные данные не содержат противоречивой информации или нелогичных записей данных, что означает, что одни и те же данные совпадают везде, где вы их храните. Одной из причин возникновения противоречивых данных является ввод данных разными пользователями. * Своевременность. Своевременность означает, что данные свежие и актуальные. * Единообразие. Если данные неоднородны, некоторые записи имеют разные единицы измерения, например, градусы Фаренгейта и цельсия. Однородность определяется согласованностью этих единиц измерения. * Уникальность. Уникальные данные являются оригинальными и не имеют дубликатов.
Я рекомендую вам использовать эти параметры для оценки данных, с которыми вы работаете, и для поддержки операций с данными, которые последовательно гарантируют, что вы используете данные и управляете ими наилучшим образом.
Также важно работать с опытными поставщиками данных, которые могут подтвердить соблюдение передовых методов для обеспечения качества данных. Даже если это неясно до того, как вы начнете работать с данными от нового поставщика, в конечном итоге отсутствие внимания к конкретным аспектам качества данных станет для вас более заметным, как только вы начнете тестировать его.
Отсутствие ноу-хау в компании
Для работы с общедоступными веб-данными требуются определенные ресурсы, в том числе квалифицированный персонал. Но что часто упускается из виду, так это то, что нанять группу данных или техническую команду, способную обрабатывать веб-данные, недостаточно. Вам нужно знать, как анализировать данные и применять полученные результаты в своей стратегии, а это касается и других команд.
Согласно исследованию, отсутствие аналитических ноу-хау в компании — задача номер один при внедрении больших данных. С этой проблемой сталкивались более половины компаний, участвовавших в этом исследовании.
Чтобы не оказаться в такой ситуации, необходимо изучить, какие заинтересованные стороны участвуют в работе с веб-данными в вашей компании в разных командах и на разных уровнях. Обеспечьте наличие соответствующих учебных ресурсов для тех, у кого нет определенных навыков.
Управление большими объемами данных
Для работы с веб-данными требуются решения, подходящие для управления большими объемами данных. В своей недавней статье о о подготовке к работе я рассказал о различных типах решений для хранения данных. с общедоступными веб-данными.
Вот некоторые сложные аспекты управления большими объемами данных, с которыми я столкнулся на своем опыте:
* Хранение и доступ к историческим данным * Поиск эффективного способа анализа данных * Согласование темпов бизнеса с возможностями вашей системы
Давайте углубимся в одну тему, которая коррелирует со всеми пунктами, которые я упомянул выше, — технические вопросы, которые неизбежно связаны с бизнес-целями.
При работе с большими данными одним из наиболее важных аспектов управления данными является скорость обработки запросов системой. Для сравнения: простой запрос, например фильтрация конкретных данных, может занять несколько часов.
Допустим, компания находится на этапе исследовательского анализа — группа данных пытается отфильтровать, рассчитать и выполнить другие действия с новыми данными, чтобы определить, как их использовать для получения наилучших результатов. Даже этот первоначальный анализ может занять несколько дней из-за медленной обработки запросов.
Помимо быстрой обработки запросов, еще одной неотъемлемой частью работы с общедоступными веб-данными является хранение — где и как вы храните данные. Различные проблемы возникают просто из-за того, как вы храните свои данные — где вы их храните, сколько они стоят, как быстро вы можете получить к ним доступ и т. д.
Долгое время наиболее распространенным подходом в компаниях было управление обработкой запросов и хранением данных с помощью системы хранилища данных.
Хранилище данных — это централизованная система данных, объединяющая большие объемы обработанных данных в согласованную интегрированную систему. Со временем он создает библиотеку исторических записей данных, которую можно извлечь для анализа.
Однако есть несколько проблем, связанных с этим подходом:
* Высокая стоимость обслуживания * Медленные процессы * Трудно масштабировать
Из-за проблем, перечисленных выше, за последние несколько лет многие компании, работающие с большими объемами данных, решили перейти на другой тип архитектуры данных, который знакомит нас с двумя другими терминами: озером данных и хранилищем данных.
Озеро данных — это репозиторий, который является централизованным. Он позволяет хранить и обрабатывать структурированные и неструктурированные данные в больших объемах. Основное различие между озером данных и хранилищем данных заключается в том, что озеро состоит из отдельных слоев хранения и обработки данных. Такое разделение озер данных дает компаниям больше гибкости и возможностей для масштабирования операций с данными.
Более продвинутая система, которая становится все более популярной, — это data Lakehouse. Озеро данных — это относительно новая концепция открытой архитектуры данных, которая сочетает в себе экономичность, гибкость и масштабируемость озер данных и возможности управления транзакциями, предлагаемые хранилищем. Различные элементы этих двух систем делают хранилища данных надежными, быстрыми и экономичными.
Если вы думаете о том, чтобы начать работать с общедоступными веб-данными или столкнулись с проблемами управления данными в уже существующей операции с большими данными, рассмотрите возможность изучения преимуществ перехода от хранилища данных к хранилище данных.
Отсутствие исторических данных
Исторические данные полезны для множества вариантов использования. Вот несколько примеров:
* Построение прогностических моделей * Бэктестинг и анализ * Оценка эффективности компании
Однако есть две причины, по которым исторические данные могут вызывать затруднения. Во-первых, поиск поставщиков данных, которые предлагают высококачественные исторические веб-данные, требует времени и усилий.
Хорошее качество в данном случае относится к полным и точным данным, что означает, что данные должны собираться в течение определенного периода без расхождений.
Вторая причина заключается в том, что поддерживать большие объемы исторических данных на вашей стороне может быть сложно и дорого из-за хранилища, о котором я говорил ранее.
Есть два способа преодолеть проблемы, связанные с историческими данными. Самый простой вариант — работать с надежными поставщиками данных, которые предлагают исторические данные по запросу.
Другой вариант — хранить исторические данные самостоятельно. Если вы решите хранить исторические данные, наиболее эффективными будут следующие методы:
* Сохраняйте только те данные, которые вам нужны (без дубликатов, неактуальных полей и другой информации); * Хранить данные в небольших файлах (по возможности обработанные данные вместо необработанных данных); * Выберите удобное решение для хранения, которое подходит для ваших нужд хранения и доступа к историческим данным; * Пересмотрите свое решение хранить исторические данные. Время от времени вы должны проверять свои внутренние процессы, связанные с данными, чтобы убедиться, что они по-прежнему соответствуют вашим бизнес-целям, включая потребность в исторических данных.
Нет единого источника правды
Компании строят модели данных на основе необработанных общедоступных веб-данных, чтобы извлекать нужные им сигналы, такие как инвестиционные возможности или понимание того, как работают конкуренты.
Создавая модель данных на основе такой информации, как фирмографические данные или данные о перемещении кадров между компаниями, вы предполагаете, что определенные точки данных сигнализируют о чем-то важном для вашего бизнеса.
Например, вы можете предположить, что компания успешно развивается, если количество вакансий значительно увеличилось, а общее количество сотрудников осталось прежним.
Если вы используете общедоступные веб-данные для извлечения этих идей, это обычно означает, что в необработанном формате эти данные не имеют никакого контекста. Таким образом, результат зависит от того, как вы обрабатываете текстовые или числовые значения на основе определенных фильтров, как вы интерпретируете данные и т. д.
Проще говоря, вы придаете смысл этим данным и решаете, что они означают. Вот почему важно проверять и подтверждать, что определенные сигналы, извлеченные из данных, подтверждают гипотезу.
Все эти вещи могут повлиять на то, какие идеи вы получаете из этого. Вот почему так важно выбрать подходящие источники для вашей гипотезы, проверить ее и использовать те, которые подходят для вашего варианта использования.
Данные по отдельным отраслям и регионам
Ценным источником общедоступных веб-данных являются профессиональные сети, такие как LinkedIn, которые содержат информацию о компаниях и специалистах.
Например, информация о специалистах, такая как их опыт работы, образование и навыки, полезна для поиска конкретных талантов на высокоэффективных должностях, инвестиционных исследований и мониторинга конкуренции.
Однако данные из самых популярных профессиональных сетей по-прежнему не охватывают конкретные отрасли, например требующие ручного труда (строительство, сфера услуг и т. д.)
На данный момент ни один столь же крупный и популярный источник, как LinkedIn, не имеет такого большого объема общедоступных веб-данных, охватывающих эти отрасли. Есть несколько похожих источников, но масштаб данных, которые они предлагают, значительно отличается от данных о сотрудниках в таких секторах, как технологии.
Наличие миллионов свежих записей данных о сотрудниках в этих отраслях откроет еще больше возможностей для поиска талантов, исследования рынка и других вариантов использования.
Более того, каждый общедоступный веб-источник данных более распространен в определенном регионе, чем другие. Что касается LinkedIn, то в эту профессиональную сеть входят участники более чем из 200 стран, но наибольшей популярностью она пользуется в США, где проживает более 328 миллионов человек. Таким образом, около 36 % взрослого населения США используют LinkedIn.
Для сравнения, с более чем 80 миллионами пользователей участники из Индии составляют вторую по величине аудиторию страны в LinkedIn.
Однако по сравнению с охватом в США это число невелико, учитывая, что в Индии проживает более 1,38 млрд человек.
Хорошей новостью является то, что число пользователей таких источников, как LinkedIn, растет в разных регионах и странах. Возьмем в качестве примера Сингапур. Пользователи LinkedIn в Сингапуре увеличились на 600 000 за последние три года .
Свободные текстовые поля
Поля с произвольным текстом усложняют анализ общедоступных веб-данных, поскольку сложно построить модель анализа данных на основе пользовательского пользовательского текста. В некоторых случаях нет необходимости использовать свободные текстовые поля при анализе данных, но обычно они составляют довольно большую часть наборов данных.
Чем длиннее текстовое поле, тем сложнее сопоставить прогнозируемые параметры ввода для извлечения значения. Однако можно извлечь информацию на основе определенных ключевых слов с помощью НЛП (обработка естественного языка).
С технической точки зрения NLP добавляет еще один уровень сложности в анализ веб-данных. Тем не менее, он также может быть очень полезен для тех, кто может его использовать.
Я рекомендую добавить НЛП в список необходимых навыков при планировании создания или расширения ваших данных и технических групп, поскольку обработка естественного языка по прогнозам, приобретет еще большее значение в будущем.
Заключительные мысли
Работа с общедоступными веб-данными сопряжена с некоторыми трудностями, связанными с различными частями этого процесса, но преимущества перевешивают трудности.
Хотя сложно найти универсальное решение для всех этих проблем, две вещи помогают компаниям справляться с ними.
Во-первых, внимание уделяется этапу тестирования, что предотвращает серьезные ошибки.
И второй — открыт для пересмотра того, как вы работаете с общедоступными веб-данными. Пересмотр некоторых из ваших предыдущих решений поможет вам открыть для себя новые инструменты, освоить новые навыки и оптимизировать процессы, связанные с данными. Чем больше мы работаем с большими объемами данных, тем лучше мы знаем, как делать это эффективно.
Также опубликовано здесь
Оригинал