Изучение коэффициента подобия Жаккара
2 марта 2023 г.В этой статье я намерен дать простое и краткое объяснение индекса Жаккара. Это мера сходства между двумя наборами информации. Коэффициент подобия Жаккара был создан Гроувом Карлом Гилбертом в 1884 году, и с тех пор он нашел множество разнообразных применений, от поведенческих исследований до к стабильности кластеров одноклеточных, явно проходящих через NPL.
Чтобы полностью понять эту концепцию, вам может понадобиться немного изучить теорию множеств, или, если вы разработчик SQL, ее можно интерпретировать как меру внутреннего соединения.
Я знаю, что такие темы могут показаться скучными, но оставайтесь со мной.
Мы начнем работу с Python, определив два набора после загрузки библиотек.
# libraries
import matplotlib.pyplot as plt
import matplotlib_venn as venn
GroupA = {1, 2, 3}
GroupB = {3, 4, 5}
Для просмотра диаграмм Венна мы используем библиотеку matplotlib_venn
venn.venn2([GroupA, GroupB], set_labels=('Group A','GroupB'))
plt.show()
# Intersection method
#
Intersection = GroupA.intersection(GroupB)
print("Intersection of GroupA and GroupB:", Intersection)
Пересечение групп A и GroupB: {3}
Теперь мы можем видеть, как пересечение двух наборов данных находится в «3». Затем мы переходим к расчету индекса Жаккара по следующей формуле:
Это выражение можно концептуально интерпретировать как:
Jaccard = Intersection / ( GroupA + GroupB - Intersection )
Jaccard = 1 / ( 3 + 3 - 1)
Jaccard = 1/5
Jaccard = 0.2
В python конкретный код может быть:
# specific code
#
len(Intersection) / ( len(GroupA) + len(GroupB) - len(Intersection) )
Конечно, обычно вам нужно сравнить список элементов, затем вам нужно сделать цикл в исходном списке, чтобы сравнить каждую запись списка сравнения.
Я делаю небольшой код для этого. вы можете просматривать, наслаждаться и вносить исправления. Всегда пожалуйста!
Ресурсы
версия для ноутбука этого текста< /p>
Также опубликовано здесь
Оригинал