75 историй о наборах данных, которые стоит узнать

75 историй о наборах данных, которые стоит узнать

10 января 2024 г.

Давайте узнаем о наборах данных из этих 75 бесплатных историй. Они упорядочены по времени чтения, созданного на HackerNoon. Посетите /Learn Repo, чтобы найти самые читаемые истории о любой технологии.

1. 15 лучших наборов данных для автономного вождения

A2D2, ApolloScape и Berkeley DeepDrive являются одними из лучших наборов данных для автономного вождения, доступных сегодня.

2. API веб-скрапинга для извлечения данных: руководство для принципов

Может быть, вам удастся создать отдельный API для интеграции данных социальных сетей и защиты данных без обработки в базе данных анализа на месте? Определенно, что такое API, как использовать веб-скрейпинг и что можно войти в систему с ней. Отголоски и перспективы.

3. 10 лучших наборов данных фондового рынка для машинного обучения

Для тех, кто хочет создавать прогнозные модели, в этой статье будут представлены 10 наборов данных о фондовом рынке и криптовалютах для машинного обучения.

4. Эволюция парадигмы производства данных в ИИ

Долгосрочный успех продукта на основе искусственного интеллекта зависит от наличия инфраструктуры для масштабируемой, гибкой и экономичной маркировки данных для его обучения.

5. Сбор данных из 1,1 млн комментариев от кураторов Hacker News

В этом тесте мы используем сбор данных из 1,1 млн комментариев Hacker News с числовыми полями из https://zenodo.org/record/45901.

6. 10 крупнейших наборов данных изображений для компьютерного зрения

Данные очень важны при построении моделей компьютерного зрения, и это 10 крупнейших наборов данных для компьютерного зрения.

7. 20 лучших наборов данных изображений для машинного обучения и компьютерного зрения

Компьютерное зрение позволяет компьютерам понимать содержание изображений и видео. Цель компьютерного зрения – автоматизировать задачи, которые может выполнять зрительная система человека.

8. Искусство рассказывания историй о данных: как сделать ваши данные эффективными

Данные повсюду: независимо от того, выбираете ли вы новое место для своего бизнеса или выбираете цвет для рекламы, данные — это невидимый советчик, который помогает принимать эффективные решения. Благодаря большому количеству ресурсов на выбор, данные с каждым днем ​​становятся все более доступными. Но как только они собраны, возникает один неизбежный вопрос: как мне превратить эти данные в идеи, на основе которых можно действовать?

9. 10 лучших наборов данных об обнимающихся лицах для построения моделей НЛП

Hugging Face предлагает решения и инструменты для разработчиков и исследователей. В этой статье рассматриваются лучшие наборы данных обнимающихся лиц для построения моделей НЛП.

10. Как эта открытая база данных помета спасет планету

Приложение Litterati существует уже пару лет на iOS + Android. За это время приложение скачали более 100 тысяч человек и стали частью глобальной команды, которая занимается краудсорсинговой очисткой Земли.

В то время люди имели доступ только к тем данным, которые сами генерировали.

11. Сортировка онлайн-данных с помощью веб-скрапинга [101]

Как можно сортировать онлайн-данные?

12. 6. Работа на дому по сбору и аннотированию данных ИИ

Для цифровых кочевников, студентов колледжей, родителей, сидящих дома, и всех, кто ищет удаленную работу, в этой статье представлены вакансии онлайн/дистанционной работы, которые доступны сегодня в области сбора данных ИИ и аннотирования данных.

13. Введение в универсальный инструмент обработки данных: еженедельное обновление 1

Если вы еще не слышали об Universal Data Tool, это веб- или настольная программа с открытым исходным кодом для совместной работы, создания и редактирования наборов текстовых, графических, видео- и аудиоданных с метками и аннотациями. Вы можете начать работу с Universal Data Tool на сайте Universaldatatool.com

14. Проведение выходных с GraphQL

Вы когда-нибудь испытывали зуд, который невозможно почесать? Если да, то ты почувствуешь мою боль. Несколько дней назад все было хорошо, я с удовольствием писал код (!) и регулярно проводил стендапы. Накануне выходных мне позвонил начальник и поделился этой проблемой.

15. Как анализ данных помогает раскрыть правду о коронавирусе

Сегодня мы все напуганы новым заразным коронавирусом, передающимся воздушно-капельным путем (2019-nCoV). Даже если это небольшой кашель или невысокая температура, это может лежать в основе летаргического симптома. Однако какова настоящая правда?

16. 10 лучших наборов данных классификации изображений для проектов машинного обучения

Чтобы помочь вам создавать модели распознавания объектов, модели распознавания сцен и многое другое, мы составили список лучших наборов данных для классификации изображений. Эти наборы данных различаются по объему и величине и могут подходить для различных случаев использования. Кроме того, наборы данных были разделены на следующие категории: медицинская визуализация, сельское хозяйство и распознавание сцены и другие.

17. Что такое сбор веб-данных?

Все, что вам нужно знать, чтобы автоматизировать, оптимизировать и оптимизировать процесс сбора данных в вашей организации!

18. 14 лучших наборов табличных данных для практики визуализации данных

В этой статье основное внимание уделяется 14 лучшим наборам данных в виде таблиц для практики визуализации данных, что важно для бизнес-аналитиков и специалистов по обработке данных.

19. Искусственный интеллект не ровня природной глупости

Ленивое введение в искусственный интеллект для информационной безопасности.

20. Как большие данные и искусственный интеллект будут идти рука об руку?

Появление технологий играет неизбежную роль в бизнесе. Это радикально меняет способы совместной работы людей в организации. Обе эти технологии произвели революцию во всех аспектах нашей жизни. Эти технологии создают культуру, в которой сотрудничество ИТ-руководителей и предприятий приводит к реализации преимуществ всех сгенерированных данных.

21. 17 наборов данных об открытой преступности для проектов по науке о данных и машинному обучению

Для тех, кто хочет проанализировать уровень или тенденции преступности в определенной области или периоде времени, мы составили список из 16 лучших наборов данных о преступности, доступных для публичного использования.

22. Создайте веб-приложение, управляемое данными, без серверной части

За последние пару десятилетий функциональность веб-сайтов значительно возросла - от простых целевых страниц, предоставляющих простую статическую рекламу, до сложных прогрессивных веб-приложений, функциональность которых близка к нативным приложениям, включая авторизацию пользователей, отслеживание местоположения, работу с Bluetooth и автономный режим.

23. 12 лучших предустановленных наборов данных R, обычно используемых для статистического анализа

Программирование на R в основном используется в статистическом анализе и машинном обучении. В этой статье рассматриваются лучшие предустановленные наборы данных R, обычно используемые для статистического анализа.

24. МОДЕЛЬНО-ЦЕНТРИЧЕСКИЕ и ДАННЫЕ ПОДХОДЫ в машинном обучении

Машинное обучение – это область искусственного интеллекта (ИИ) и информатики, в которой основное внимание уделяется использованию данных и алгоритмов для имитации того, как учатся люди.

25. Охота за данными: создание набора данных компьютерного зрения для безопасности дорожного движения

В этой статье я хотел бы поделиться собственным опытом разработки умной камеры для велосипедистов с продвинутым алгоритмом компьютерного зрения

26. 13 лучших наборов данных для практики Power BI

В 2022 году Gartner назвал Microsoft Power BI лидером платформ бизнес-аналитики и аналитики. Это 13 лучших наборов данных для практики Power BI.

27. Кодирование категориальных данных для алгоритмов машинного обучения

Кодирование – это метод, используемый для преобразования категориальных данных в числовые представления, чтобы их можно было использовать в алгоритмах машинного обучения.

28. Что следует учитывать при поиске вакансий в области науки о данных

Существует большой спрос на специалистов по данным, представляющих благоприятную для сообщества динамику рынка. В большей степени, чем ваши коллеги из других профессий, вы сможете оценить компанию по тому, что она может вам предложить, а не просто быть тем, кого оценивают. Итак, на что следует обращать внимание при сравнении и оценке ролей в области науки о данных? Вот список некоторых общеизвестных факторов, а также некоторых менее обсуждаемых, которые помогут вам в вашей оценке.

29. 10 лучших наборов данных Reddit для НЛП и других проектов машинного обучения

В этом посте я хотел поделиться списком наборов данных Reddit, который получил большую популярность в социальных сетях, когда был впервые опубликован.

30. 10 лучших наборов данных для геопространственной аналитики (открытый и публичный доступ)

Ученые используют геопространственную аналитику для создания визуализаций, таких как карты, графики и картограммы. Это лучшие общедоступные наборы данных для геопространственной аналитики.

31. Как помочь исследованию болезней с помощью диаграммы биомедицинских знаний

Создание диаграммы биомедицинских знаний с использованием общедоступных наборов данных для более эффективного исследования заболеваний и моделирования биомедицинских данных.

32. Что такое аналитика данных и как ее можно использовать

ЧТО ТАКОЕ АНАЛИТИКА ДАННЫХ?

33. Альтернативы парсингу веб-страниц с помощью Python

Действительно ли Python — самый простой и эффективный способ парсинга веб-сайта? Есть и другие варианты. Узнайте, какой из них лучше для вас!

34. Шесть способов эффективной визуализации данных с помощью Tableau

Таблица

35. 10 лучших наборов данных Keras для создания и обучения моделей глубокого обучения

В этой статье рассматриваются лучшие наборы данных Keras для создания и обучения моделей глубокого обучения, доступные разработчикам и исследователям по всему миру.

36. 14 открытых наборов данных для классификации текста в машинном обучении

Наборы данных классификации текста используются для категоризации текстов на естественном языке в соответствии с содержанием. Например, подумайте о классификации новостных статей по темам или классификации рецензий на книги на основе положительных или отрицательных отзывов. Классификация текста также полезна для определения языка, организации обратной связи с клиентами и обнаружения мошенничества. Хотя этот процесс занимает много времени, если выполнять его вручную, его можно автоматизировать с помощью моделей машинного обучения. Результат экономит время компаний, а также предоставляет ценные данные.

37. 11 наборов данных Torchvision для компьютерного зрения, которые вам нужно знать

С помощью наборов данных torchvision разработчики могут обучать и тестировать свои модели машинного обучения для решения ряда задач, таких как классификация изображений и обнаружение объектов.

38. Объединение наборов данных из разных временных масштабов

Одна из самых сложных ситуаций в машинном обучении — это когда вам приходится иметь дело с наборами данных, поступающими из разных временных масштабов.

39. Введение в парсинг веб-страниц без кода

Парсинг веб-страниц сломал барьеры программирования, и теперь его можно выполнять гораздо проще и легче, не используя ни единой строки кода.

40. Как отслеживать ключевые слова на форуме с помощью Python и AWS Lambda

Создавая ScrapingBee, я всегда каждый день просматриваю различные форумы, чтобы помочь людям ответить на вопросы, связанные с парсингом веб-страниц, и пообщаться с сообществом.

41. 8 лучших наборов данных о поведении человека для машинного обучения

Поведение человека описывает, как люди взаимодействуют, и в этой статье мы рассмотрим 8 лучших наборов данных о поведении человека для машинного обучения.

42. 20 лучших наборов данных PyTorch для построения моделей глубокого обучения

PyTorch завоевал репутацию платформы, ориентированной на исследования, и это лучшие наборы данных PyTorch для построения моделей глубокого обучения, доступные на сегодняшний день.

43. Набор данных и увеличение данных для обнаружения и распознавания лиц

Когда дело доходит до создания приложения искусственного интеллекта (ИИ), ваш подход должен быть в первую очередь данными, а не приложением.

44. Глубокое погружение в AI-транскодер Facebook

Чуть больше недели большинство из вас слышали, что исследовательская группа Facebook по искусственному интеллекту (FAIR) разработала нейронный транскомпилятор, который преобразует код с языков программирования высокого уровня, таких как C++, Python, Java, Cobol, в другой язык, используя «неконтролируемый перевод». Традиционный подход заключался в токенизации исходного языка и преобразовании его в абстрактное синтаксическое дерево (AST), которое транскомпилятор мог использовать для перевода на целевой язык по выбору, на основе рукописных правил, определяющих переводы, например абстрактные или контекстные. не потеряно.

45. Более 15 частых вопросов о парсинге веб-страниц

Ранее опубликовано по адресу https://www.octoparse.es/blog/15-preguntas-frecuentes-sobre-web-scraping

.

46. Является ли каталог данных незаменимым инструментом для корпорации?

Чтобы понять концепцию каталога данных, нам необходима оценка основ, составляющих этот процесс, на элементарном уровне. На самой элементарной стадии лежит идея устройства и порядка вещей.

47. Представляем набор данных Holopix50k для сверхвысокого разрешения изображений

Оценка глубины и сверхразрешение стереоизображения — хорошо известные задачи в области компьютерного зрения. Чтобы помочь исследователям получить высококачественные обучающие данные для решения этих задач, ведущий в отрасли поставщик оборудования для светового поля Leia Inc. использовал свое приложение для социальных сетей Holopix™ для создания Holopix50k, крупнейшего в мире набора данных стереоизображений «в дикой природе».< /п>

48. 7 эффективных способов работы с небольшим набором данных

В реальных условиях у вас часто есть только небольшой набор данных для работы. Модели, обученные на небольшом количестве наблюдений, имеют тенденцию переобучаться и давать неточные результаты. Узнайте, как избежать переобучения и получать точные прогнозы, даже если доступных данных недостаточно.

49. Топ-10 лучших инструментов для очистки веб-страниц и данных

Извлечение данных имеет множество форм и может быть сложным. От предотвращения блокировки вашего IP-адреса до обхода капч, правильного анализа исходного кода, Chrome без заголовков для рендеринга JavaScript, очистки данных и последующего создания данных в удобном формате — требуется много усилий. собирал данные из сети более 8 лет. Мы использовали веб-скрейпинг для отслеживания цен других поставщиков услуг бронирования отелей. Таким образом, когда наш конкурент снижает свои цены, мы получаем уведомление о снижении наших цен от наших веб-парсеров cron.

50. Топ-3 набора данных о лицах и как с ними работать

Набор данных изображений содержит специально отобранные цифровые изображения, предназначенные для обучения, тестирования и оценки искусственного интеллекта (ИИ) или машинного обучения (МО)

51. 11 лучших наборов данных об изменении климата для проектов в области науки о данных

Данные являются центральной частью дебатов об изменении климата. Используя наборы данных об изменении климата в этом списке, многие ученые, работающие с данными, создали визуализации и модели для измерения и отслеживания изменений температуры поверхности, уровня морского льда и многого другого. Многие из этих наборов данных были обнародованы, чтобы люди могли внести свой вклад и добавить ценную информацию о том, как меняется климат и его причины.

52. Непрерывное понижение разрешения InfluxDB — оптимизируйте свою TSDB сегодня

Введение

53. 10 лучших наборов открытых данных для линейной регрессии

На Hacker Noon я поделюсь некоторыми из моих самых эффективных статей по машинному обучению. Эта статья о наборах данных, созданных для задач регрессии или линейной регрессии, неоднократно поддерживалась на Reddit и десятки раз распространялась на различных платформах социальных сетей. Надеюсь, ученые, работающие с данными Hacker Noon, тоже найдут это полезным!

54. Переход от озер данных к океанам

Агрегация в озера данных — это решение сегодняшнего дня — но являются ли объединенные источники решением завтрашнего дня?

55. Как удалить информацию о продукте с помощью Python & Модуль BeautifulSoup из списков Amazon [Учебное пособие]

Введение

56. 10 лучших наборов данных для анализа временных рядов

Чтобы понять, как определенный показатель меняется со временем, и спрогнозировать будущие значения, мы рассмотрим 10 лучших наборов данных для анализа временных рядов.

57. 10 библиотек таблиц данных для JavaScript

Таблицы — полезный инструмент для визуализации, организации и обработки данных в JavaScript. Чтобы начать их использовать, вам необходимо скачать бесплатную библиотеку или библиотеку по разумной цене. Вот список из 10 полезных, функциональных и надежных JS-библиотек, которые помогут вам работать с таблицами.

58. 15 лучших наборов данных чат-ботов для проектов НЛП

Эффективному чат-боту требуется огромное количество обучающих данных, чтобы быстро решать запросы пользователей без вмешательства человека. Однако основным узким местом в разработке чат-ботов является получение реалистичных, ориентированных на задачи диалоговых данных для обучения этих систем на основе машинного обучения.

59. Сбор наборов данных о продуктах питания с помощью машинного обучения

Существенная часть команды машинного обучения моей компании работает с различными наборами данных о пищевых продуктах, и мы тратим много времени на поиск, объединение или пересечение различных наборов данных, чтобы получить данные, которые нам нужны и которые мы можем использовать в нашей работе. Учитывая, что это может помочь кому-то еще, я решил собрать все полезные наборы данных в одном месте.

60. Болевые точки масштабирования науки о данных

При построении модели машинного обучения масштабирование данных в машинном обучении является наиболее важным элементом посредством предварительной обработки данных. Масштабирование может выявить разницу между моделью плохого машинного обучения и более сильной моделью.

61. 5 миллионов изображений лиц для обучения модели распознавания лиц

Эта статья о наборах данных для распознавания лиц — одна из моих самых популярных статей, которые я изначально написал об AI Lionbridge. Я рад поделиться этим с сообществом Hacker Noon!

62. Каннада-MNIST: новый набор данных рукописных цифр в городе ML

TLDR:

63. Вот почему мы создали золотую жилу наборов данных крипторынков с открытым исходным кодом

Как запустить распределенный анализ данных для получения и обработки данных рынка криптовалют с нулевыми затратами.

64. 20 лучших наборов данных Twitter для проектов машинного обучения

Исследователям ИИ зачастую очень сложно собрать данные из социальных сетей для машинного обучения. К счастью, одним из бесплатных и доступных источников данных социальных сетей является Twitter.

65. Создание правильно работающего конвейера обработки данных

Простой, автоматизированный и повторяемый способ проверить, действительно ли ваше решение для обработки данных делает именно то, для чего оно предназначено.

66. 15 наборов данных Excel для начинающих аналитиков данных

Excel — незаменимый инструмент для манипулирования данными, их визуализации и статистического анализа. Это 15 наборов данных Excel для начинающих аналитиков данных.

67. Что такое большие данные? Понимание бизнес-использования аналитики больших данных

Аналитика больших данных может применяться для любого бизнеса, чтобы увеличить его доходы и конверсии, а также выявить типичные ошибки.

68. Прогнозирование пола на основе данных мобильного приложения

Создайте модель прогнозирования пола на основе списка установленных приложений на мобильном устройстве.

69. К моменту ImageNet для преобразования речи в текст: глубокое погружение

Преобразование речи в текст (STT), также известное как автоматическое распознавание речи (ASR), имеет долгую историю и за последнее десятилетие добилось поразительного прогресса. В настоящее время часто считается, что только крупные корпорации, такие как Google, Facebook или Baidu (или местные государственные монополии в области русского языка), могут предоставить готовые к использованию решения «в дикой природе».

70 . Создайте бота для алгоритмической торговли без комиссий с помощью ежеквартальных отчетов о доходах с помощью машинного обучения [Полное руководство]

Введение

71. Начало работы с визуализацией данных: создание модуля точечной диаграммы JavaScript

Диаграммы рассеяния — отличный способ визуализировать данные. Данные представлены в виде точек на декартовой плоскости, где координаты x и y каждой точки представляют собой переменную. Эти диаграммы позволяют исследовать взаимосвязь между двумя переменными, обнаруживать выбросы в наборе данных, а также выявлять тенденции. Это один из наиболее часто используемых методов визуализации данных, и он обязательно должен быть в вашем арсенале визуализации данных!

72. 10 лучших наборов данных на африканских языках для проектов по науке о данных

Список наборов данных африканских языков со всего Интернета, которые можно использовать в многочисленных задачах НЛП.

73. Представляем простой модуль для анализа файлов CSV

Эта ветка Slogging, созданная Артуром Ткаченко, появилась на официальном канале #programming slogging и была отредактирована для удобства чтения.

74. Распространение многоразовых инструментов моделирования данных на основе SQL и сервисов DataOps

Возрождение СУБД на базе SQL

75. Как освоить DSL запросов Elasticsearch

Фото Евгения Черкасского на Unsplash

Спасибо, что ознакомились с 75 самыми читаемыми историями о наборах данных на HackerNoon.

Посетите репозиторий /Learn, чтобы найти самые читаемые статьи о любой технологии.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE