Высокоуровневое объяснение типов данных для лиц, принимающих решения

Высокоуровневое объяснение типов данных для лиц, принимающих решения

17 декабря 2022 г.

В этой статье я расскажу о различных типах данных. Как некоторые из вас, возможно, знают, данные можно разбить на разные типы. Одна из таких категорий очень полезна при построении конвейера машинного обучения на основе структуры данных. Это выглядит следующим образом:

  • Структурированные данные
  • Полуструктурированные данные
  • Неструктурированные данные.

В чем разница между этими типами данных?

structured data, semi-structured data, and unstructured data

Структурированные данные

Этот термин относится к данным, которые организованы в табличном формате или в чем-то вроде реляционной базы данных, которая организует данные в нескольких таблицах, которые затем могут быть объединены. Таким образом, структурированные данные представляют собой самый простой тип данных для работы. Например, если ваши данные хранятся в базе данных SQL, то большинству специалистов по данным будет довольно легко получить доступ к базе данных, а затем извлечь из данных информацию.

При этом не все базы данных одинаковы. Некоторые базы данных могут быть организованы очень плохо, другие базы данных могут быть организованы очень легко в использовании. Но при прочих равных условиях со структурированными данными легко работать.

Если вы внимательно изучите, как создаются конвейеры машинного обучения, вам всегда нужны структурированные данные. Таким образом, даже если у вас есть данные в произвольном формате, алгоритмы крадут, обрабатывают эти данные, а затем преобразуют их в структурированный формат.

examples of different types of data

Полуструктурированные данные

json file

Этот термин относится к данным, которые не полностью организованы, но и не дезорганизованы. Хорошим примером этого являются HTML, JSON и XML. Для тех из вас, кто знаком с HTML или JSON, если вы не знакомы, очень легко найти JSON в Google и посмотреть пример того, как выглядит файл JSON. Вы очень быстро увидите, что JSON, кажется, следует какой-то структуре, и то же самое для HTML. Вы видите что-то похожее на код, но опять же, JSON или HTML не полностью структурированы, поэтому они не организованы в таблице.

Файл HTML или Смежный файл может сильно отличаться от другого файла HTML или JSON. Это означает, что у разработчиков этих файлов есть определенные свободы, и это может усложнить работу с ними.

Как специалисты по данным собирают данные из разных источников?

Исследователь данных должен будет извлечь информацию из частично структурированных данных, а затем преобразовать ее в табличный формат. Проблема здесь в том, что обычно есть много способов сделать это. И этот шаг данных может занять довольно много времени в зависимости от типа данных и того, как они организованы.

В общем, я не большой поклонник полуструктурированных данных. Лично я, как специалист по данным, предпочитаю структурированные данные. Однако, как и большинство специалистов по данным, полуструктурированные данные очень полезны в таких областях, как социальные сети. Социальные сети полны текстовых данных, данных изображений, видеоданных и форматов данных, таких как JSO, позволяющих нам хранить эти данные вместе с метаинформацией.

Итак, вы можете сохранить видео, скажем, а затем вы можете сохранить, кто создал это видео, прокомментировать это видео и т. д. Это проще сделать с помощью JSON, чем, например, с помощью SQL. Поэтому полуструктурированные форматы стали так популярны в последние десять лет. Полуструктурированные данные часто идут рука об руку с отсутствием баз данных SQL и большими данными.

Неструктурированные данные

Этот термин относится к данным, в которых явно отсутствует структура. Например, набор данных, состоящий только из изображений, видео или аудио, является примером неструктурированного набора данных. Таким образом, информация в неструктурированном наборе данных не соответствует ранее существовавшей модели данных. И это усложняет работу, потому что кому-то, возможно, придется просмотреть все данные и понять, являются ли некоторые данные потенциально зашумленными или имеют какие-то другие проблемы, которые помешают успешному построению конвейера машинного обучения.< /p>

В большинстве случаев неструктурированные данные в реальном мире обычно встречаются в двух ситуациях. Это либо какой-то набор открытых данных, либо соревнование по машинному обучению, где кто-то курирует неструктурированный набор данных, и вы должны использовать эти данные и попытаться предсказать, кто на фотографии изображен — люди или животные, насколько это возможно. Или другой случай, когда вы можете столкнуться со структурированными данными, — это когда стратегия данных не была разработана, и каким-то образом компания получила структурированные данные вместо полуструктурированных данных. Потому что на самом деле в большинстве сценариев мы ожидаем увидеть эти данные вместе с некоторой метаинформацией, например, когда появилось это видео, кто его разместил, если мы говорим о социальных сетях.

Как ученый обрабатывает данные такого типа?

Я ожидаю, что в большинстве случаев большая часть данных должна быть частично структурирована. Все еще бывают случаи, когда данные могут быть просто неструктурированными, потому что мы мало что можем с этим поделать. Например, в службе поддержки может быть набор данных, состоящий из вопросов и ответов, и вы хотите создать бота на основе этих вопросов и ответов, чтобы он мог автоматически давать ответы на различные запросы.

Что ж, в этом случае, вероятно, вы мало что можете сделать для структурирования данных. Так или иначе, вам придется получить неструктурированный набор данных. Но неструктурированные данные, даже если они сложны, довольно часто все же могут быть успешно проанализированы.

В большинстве случаев мы используем глубокое обучение. Существуют алгоритмы глубокого обучения для обработки таких данных. Глубокое обучение очень успешно работает с такими данными, как аудиоданные, данные естественного языка, изображения и тому подобное.

Заключение

Это краткий обзор различных типов данных, с которыми вы можете столкнуться в бизнесе. Мы говорили о структурированных данных, полуструктурированных данных и неструктурированных данных. Структурированные данные обычно являются легкой добычей для бизнеса. И в идеале, как бизнес, вы хотите иметь стратегию данных, которая гарантирует, что большая часть ваших данных хранится в структурированном формате. Причина в том, что это значительно упрощает жизнь специалистам по обработке и анализу данных, и они смогут уделять больше времени важным задачам, а не просто анализу данных.

Структурированные данные и неструктурированные данные схемы начали расти в последние 10-15 лет. В конце концов, это эпоха больших данных. Но в большинстве случаев вы должны попытаться превратить структурированные данные и полуструктурированные данные. И снова полуструктурированные данные — сложная тема из-за типа базы данных, которую вам нужно выбрать, и того, как вы должны организовать различные поля и для какой цели.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE