Как найти меру сходства

Коэффициент сходства (также мера сходства, индекс сходства) — безразмерный показатель сходства сравниваемых объектов. Также известен под названиями «мера ассоциации», «мера подобия» и др.

Применяется в биологии для количественного определения степени сходства биологических объектов (участков, районов, отдельных фитоценозов, зооценозов и т. п.). Также применяются в географии, социологии, распознавании образов, поисковых системах, сравнительной лингвистике, биоинформатике, хемоинформатике, при сравнении строк и др.

В более широком смысле говорят о мерах близости к которым относятся: меры разнообразия, меры концентрации (однородности), меры включения, меры сходства, меры различия (в том числе расстояния), меры совместимости событий, меры несовместимости событий, меры взаимозависимости, меры взаимонезависимости. Теория мер близости находится в стадии становления и потому существует множество различных представлений о формализации отношений близости.

Большинство коэффициентов нормированы и находятся в диапазоне от 0 (сходство отсутствует) до 1 (полное сходство). Сходство и различие взаимодополняют друг друга (математически это можно выразить так: Сходство = 1 − Различие).

Коэффициенты сходства можно условно разделить на три группы в зависимости от того, какое число объектов рассматривается:

  • унарные — рассматривается один объект. В эту группу входят меры разнообразия и меры концентрации.
  • бинарные — рассматривается два объекта. Это наиболее известная группа коэффициентов.
  • n-арные (многоместные) — рассматривается n объектов. Эта группа наименее известна.

Унарные коэффициенты[править | править код]

При изучении биологических объектов широко используются меры изменчивости как отдельных признаков, так и частот распределения случайных величин. В простейшем случае инвентаризационное (в пределах изучаемой биосистемы) разнообразие можно оценить видовым богатством, или числом видов.

Наиболее часто используются меры разнообразия[1] (коэффициент вариации, индексы параметрического семейства Реньи, включая индекс Шеннона; индексы семейства Хилла; индексы Маргалефа, Глизона и др.). Реже используются дополняющие их меры концентрации (например, семейство мер Колмогорова, мера диссонанса Розенберга).

Бинарные коэффициенты[править | править код]

Это наиболее используемые в биологии и географии коэффициенты[2]. Самый первый коэффициент сходства был предложен П. Жаккаром (Jaccard) в 1901 г.[3] : K_{J}={frac  {c}{a+b-c}}, где а — количество видов на первой пробной площадке, b — количество видов на второй пробной площадке, с — количество видов, общих для 1-й и 2-й площадок.
Впоследствии в самых различных областях науки предлагались различные коэффициенты (меры, индексы) сходства. Наибольшее распространение получили (обозначения те же):

Известна альтернативная система обозначений для таблицы сопряжённости  2 times 2 от Р. Р. Сокала (Sokal) и П.Снита (Sneath)[10][11]:

Присутствие вида на 1-м участке Отсутствие вида на 1-м участке
Присутствие вида на 2-м участке a b
Отсутствие вида на 2-м участке c d

где а — количество видов, встречаемых на обеих площадках; b — количество видов, встреченных на первой пробной площадке, но без учёта встречаемости общих видов; с — количество видов, встреченных на второй пробной площадке, но без учёта встречаемости общих видов.

Эта таблица создает большую путаницу. Её часто путают с похожей статистической таблицей сопряженности  2 times 2 ; обозначения таблицы Сокала-Снита путают с классическими обозначениями (см. выше); почти всегда не учитывают того факта, что таблица рассматривает только вероятности.
В процессе математической формализации объектов и связей между ними возникла универсальная теоретико-множественная запись для коэффициентов сходства. Впервые такого рода запись появляется в работах А. С. Константинова[12], М. Левандовского и Д. Винтер[13]. Так, коэффициент сходства Жаккара может быть записан следующим образом:

 K_J = frac{n(A cap B)}{n(A) + n(B) - n(A cap B)} или  K_J = frac{n(A cap B)}{n(A cup B)}.

Наиболее простым коэффициентом сходства является мера абсолютного сходства, которая по сути является числом общих признаков двух сравниваемых объектов:  n(A cap B) [14]. При нормировке этой меры значения меры сходства заключены между 0 и 1 и коэффициент известен как «мера процентного сходства» при использовании относительных единиц измерения (в процентах) и как меры пересечения в промежуточных расчетах относительных мер сходства (например, за рубежом известна как мера Ренконена [15]).

В 1973 году Б. И. Сёмкиным была предложена общая формула на основе формулы среднего Колмогорова, объединяющая большую часть известных коэффициентов сходства в непрерывный континуум мер[16][17]:

 K_{tau,eta} (A,B) =  left ( frac{K_tau^eta (A;B) + K_tau^eta (B;A)}{2} right )^frac{1}{eta} ,

где  K_tau, (A;B) =  frac{K_0 (A;B)}{1 + tau - tau K_0 (A;B)} ;  K_tau, (B;A) =  frac{K_0 (B;A)}{1 + tau - tau K_0 (B;A)} ; K_0 (A;B) = frac{conv(A,B)}{S(B)}; K_0 (B;A) = frac{conv(A,B)}{S(A)};  -1 < tau < mathcal {1} ;  - mathcal {1} < eta < + mathcal {1} . Например, значения  [ tau , eta ] для вышеприведённых коэффициентов имеют следующий вид: [1,-1] (коэффициент Жаккара); [0,-1] (коэффициент Серенсена); [0,1] (коэффициент Кульчинского); [0,0] (коэффициент Отиаи); [0,  + mathcal {1} ] (коэффициент Шимкевича-Симпсона); [0, - mathcal {1} ] (коэффициент Браун-Бланке). Обобщающая формула позволяет определить классы эквивалентных и неэквивалентных коэффициентов[18], а также предотвратить создание новых дублирующих коэффициентов.

Специфическим типом коэффициентов сходства являются меры включения. Это несимметричные меры ( K_tau^eta (A;B) и  K_tau^eta (B;A) ), которые показывают степень сходства (включение) одного объекта относительно другого. Более привычные (симметричные) коэффициенты близости можно получить путём осреднения двух взаимодополняющих несимметричных мер включения, то есть каждой симметричной мере сходства соответствуют две определённые несимметричные меры сходства. Например, для меры Сёренсена это  K(A;B) = frac{n(A cap B)}{n(A)} и  K(B;A) = frac{n(A cap B)}{n(B)} ), а для меры Жаккара это  K(A;B) = frac{n(A cap B)}{2n(A) - n(A cap B)} и  K(B;A) = frac{n(A cap B)}{2n(B) - n(A cap B)} . В общем, две несимметричные меры включения лучше оценивают сходство объектов чем одна усреднённая симметричная мера сходства.

Спорным и неоднозначным является вопрос о сравнении объектов по весовым показателям. В экологии это показатели, учитывающие обилие. Наиболее последовательными схемами формализации таких типов являются схема Б. И. Сёмкина на основе дескриптивных множеств и схема А.Чао (Chao) с основанными на обилии индексами (abundance-based indices)[19]. Также в зарубежной литературе устоялось представление индексах на основе инцидентности (incidence-based index), то есть индексах для булевых данных типа присутствие/отсутствие (presence/absence) признака. По сути, и те и другие могут быть описаны как частные случаи дескриптивных множеств.

Дискуссионными остаются сравнение случайных событий (например, встречаемость) и информационных показателей. В схеме формализации отношений близости Б. И. Сёмкина предлагается выделять ряд аналитических интерпретаций для различных отношений близости: множественная, дескриптивная, вероятностная, информационная.
Формально принадлежность к мерам сходства определяется системой аксиом (здесь E — произвольное множество):

  1.  K (A, B) geqslant 0;  forall A, B mathcal {2} E (неотрицательность);
  2.  K (A, B) = K (B, A);  forall A, B mathcal {2} E (симметричность);
  3.  K (A, B) geqslant K (A, A);  forall A, B mathcal {2} E («целое больше части»);
  4.  K (A, B) leqslant K (A, A) + K (B, B);  forall A, B mathcal {2} E (субаддитивность).

Системы аксиом для мер сходства предлагали: А. Реньи[20], Ю. А. Воронин[21][22], А.Тверски[23], А. А. Викентьев, Г. С. Лбов[24], Г. В. Раушенбах[25], Б. И. Сёмкин[26][27] и др.

Как правило, совокупность мер близости представляют в виде матриц типа «объект-объект». Это, например, матрицы сходства, матрицы расстояний (в широком смысле — различия), матрицы совместных вероятностей, матрицы информационных функций. Большинство из них могут быть построены на основе: абсолютных или относительных мер, а они в свою очередь могут быть симметричными или несимметричными (последние часто называются мерами включения).

Многоместные коэффициенты[править | править код]

Такого рода коэффициенты используются для сравнения серии объектов. К ним относятся: среднее сходство Алёхина, индекс биотической дисперсии Коха, коэффициент рассеяния (дисперсности) Шенникова, мера бета-разнообразия Уиттекера [28], мера гомотонности и двойственная ей мера гетеротонности Миркина-Розенберга, коэффициент сходства серии описаний Сёмкина. В зарубежной литературе меры этого типа встречаются под названиями: многомерные коэффициенты, n-мерные коэффициенты, multiple-site similarity measure, multidimensional coefficient, multiple-community measure [29][30][31]. Наиболее известный коэффициент был предложен Л.Кохом[32]:

 K (X_1,..., X_n ) = frac{T - S}{(n - 1) S} ,

где  T = sum^{n}_{i=1} {n (X_i)} , то есть сумма числа признаков каждого из объектов;  S = n (X_1 cup ... cup X_n) , то есть общее число признаков;  X_1 , ..., X_n  — совокупность n множеств (объектов).

Программное обеспечение для расчёта мер[править | править код]

Как правило, расчёт мер близости производится в модуле кластерного анализа программы. Наиболее часто используют Statistica, но в соответствующем модуле меры сходства не представлены совсем, только расстояния. В SPSS (PASW Statistics) предлагается расчёт ряда мер сходства (меры Охаи, Жаккара, Сокала-Снита, Кульчинского, симметричная Дайса). Малых программ для расчёта мер близости и последующего графического представления зависимостей существует огромное количество[33][34]. Меры сходства же представлены крайне редко и в основном в специализированных программах для биологов[35]: Graphs, NTSYS, BIODIV, PAST, причём даже там их крайне мало (обычно только мера Жаккара и иногда мера Сёренсена). Также можно отметить TurboVEG и IBIS[36], в основе которых лежит база данных с модулями обработки, причём в программе IBIS реализовано наибольшее количество мер близости, используемых в настоящее время в биологии, географии и прочих областях.

См. также[править | править код]

  • Метрическое пространство
  • Биоразнообразие
  • Задача классификации
  • Кластерный анализ
  • Взаимная информация
  • Условная вероятность
  • Биоценометрия
  • Мера схожести строк[en]*

Примечания[править | править код]

  1. Magurran A.E. Measuring biological diversity. — Oxford, UK.: Blackwell Publishing, 2004. — 256 p.
  2. Песенко Ю. А. Принципы и методы количественного анализа в фаунистических исследованиях Архивная копия от 20 декабря 2014 на Wayback Machine. — М.: Наука, 1982. — 287 с.
  3. Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241—272.
  4. Sörensen T. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content // Kongelige Danske Videnskabernes Selskab. Biol. krifter. Bd V. № 4. 1948. P. 1-34.
  5. Kulczinsky S. Zespoly róslin w Pienach // Bull. intern. acad. polon. sci. lett. Cl. sci. math. natur. Ser. B. 1927. S. 2. P. 57-203.
  6. Ochiai A. Zoogeographical studies on the soleoid fishes found Japan and its neighboring regions. (недоступная ссылка) II // Bull. Jap. Soc. sci. Fish. 1957. V. 22. № 9. P. 526—530. (Аннотация на англ. Основной текст статьи на яп.)
  7. Szymkiewicz D. Une contribution statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. № 3. P. 249—265.
  8. Simpson G.G. Holarctic mammalian faunas and continental relationship during the Cenozoic // Bull. Geol. Sci. America. 1947. V. 58. P. 613—688.
  9. Braun-Blanquet J. Pflanzensoziologie Grundzüge der Vegetationskunde. — Berlin: Verlaq von Julius springer, 1928. — 330 s.
  10. Sokal R.R., Sneath P.H.A. Principles of numerical taxonomy Архивная копия от 5 марта 2016 на Wayback Machine. — San Francisco: London: Freeman, 1963. — 359 p.
  11. Sneath P.H.A., Sokal R.R. Numerical taxonomy: The principles and practices of numerical classification Архивная копия от 5 марта 2016 на Wayback Machine. — San-Francisco: Freeman, 1973. — 573 p.
  12. Константинов А. С. Использование теории множеств в биогеографическом и экологическом анализе // Усп. соврем. биол. 1969. Т. 67. вып. 1. С 99-108.
  13. Levandowsky M., Winter D. Distance between sets Архивная копия от 5 марта 2016 на Wayback Machine // Nature. 1971. V.234. № 5323. P. 34-35.
  14. Ковалевская В. Б., Погожев И. Б., Погожева (Кусургашева) А. П. Количественные методы оценки степени близости памятников по процентному содержанию массового материала // Советская археология. 1970. № 3. С. 26-39.
  15. Renkonen O. Statististisch-ökologische Untersuchungen über die terrestrische Käferwelt finischen Bruchmoore // Acta zool. Soc. zool.-bot. fenn. «Vanamo». 1938. V. 6. fasc. 1. P. 1-231.
  16. Сёмкин Б. И. Дескриптивные множества и их приложения // Исследование систем. Т. 1. Анализ сложных систем. Владивосток: ДВНЦ АН СССР, 1973. С. 83-94.
  17. Сёмкин Б. И. Теоретико-графовые методы в сравнительной флористике Архивная копия от 5 марта 2016 на Wayback Machine // В кн.: Теоретические и методологические проблемы сравнительной флористики: Материалы 2-го рабочего совещания по сравнительной флористике. — Неринга: 1983. — С. 149—163.
  18. Сёмкин Б. И., Двойченков В. И. Об эквивалентности мер сходства и различия Архивная копия от 5 марта 2016 на Wayback Machine // Исследование систем. Т. 1. Анализ сложных систем. Владивосток: ДВНЦ АН СССР, 1973. С 95-104.
  19. Chao A, Chazdon RL, Colwell RK, Shen TJ. Abundance-based similarity indices and their estimation when there are unseen species in samples Архивная копия от 4 сентября 2012 на Wayback Machine // Biometrics. 2006. № 62. P.361-371.
  20. Rényi A. On measures of dependence (недоступная ссылка) // Acta Math. Acad. Scien. Hung. 1959. V.10. № 3-4. P. 441—451.
  21. Воронин Ю. А. Введение мер сходства и связи для решения геолого-геофизических задач // Докл. АН СССР. 1971. Т. 139. № 5. С. 64-70.
  22. Воронин Ю. А. Начала теории сходства. — Новосибирск: Наука. Сиб. отд-ние, 1991. — 128 с.
  23. Tversky A. Features of similarity // Psychological Review. 1977. V.84. № 4. P. 327—352.
  24. Викентьев А. А., Лбов Г. С. О метризациях булевой алгебры предложений и информативности высказываний экспертов // Докл. АН. Информатика. 1998. Т. 361. № 2. С. 174—176.
  25. Раушенбах Г. В. Меры близости и сходства // Анализ нечисловой информации о социологических исследованиях. М.: Наука, 1985. С. 169—203.
  26. Сёмкин Б. И., Горшков М. В. Система аксиом симметричных функций двух переменных и меры, измеряющие отношения сходства различия, совместимости и зависимости для компонентов биоразнообразия Архивная копия от 16 декабря 2018 на Wayback Machine // Вестник ТГЭУ. 2008. № 4. С. 31-46.
  27. Сёмкин Б. И., Горшков М. В. Аксиоматическое введение мер сходства, различия, совместимости и зависимости для компонентов биоразнообразия в многомерном случае // Вестник КрасГАУ. 2009. № 12. С. 18-24.
  28. R. H. Whittaker. Vegetation of the Siskiyou Mountains, Oregon and California (англ.) // Ecological Monographs. — 1960-07. — Vol. 30, iss. 3. — P. 279–338. — ISSN 1557-7015 0012-9615, 1557-7015. — doi:10.2307/1943563.
  29. Chao A., Hwang W.H., Chen Y.C., Kuo C.Y. Estimating the number of shared species in two communities Архивная копия от 25 апреля 2012 на Wayback Machine  (недоступная ссылка с 13-05-2013 [3643 дня] — история) // Statistica Sinica. 2000. № 10. P. 227—246.
  30. Baselga A., Jiménez-Valverde A., Niccolini G. A multiple-site similarity measure independent of richness Архивная копия от 5 марта 2016 на Wayback Machine // Biol. Lett. 2007. № 3. P. 642—645.
  31. Diserud O.H., Ødegaard F. A multiple-site similarity measure (недоступная ссылка) // Biol. Lett. 2007. № 3. P. 20-22.
  32. Koch L.F. Index of biotal dispersity // Ecology. 1957. V. 38. № 1. P. 145—148.
  33. http://www.biometrica.tomsk.ru/list/other.htm Архивная копия от 16 января 2012 на Wayback Machine Статистические ресурсы Интернета
  34. http://evolution.genetics.washington.edu Архивная копия от 18 апреля 2022 на Wayback Machine Программы для филогенетических расчётов на Интернет-портале Вашингтонского университета
  35. Новаковский А. Б. Обзор программных средств, используемых для анализа геоботанических данных // Растительность России. 2006. № 9. С. 86-95.
  36. Зверев А. А. Информационные технологии в исследованиях растительного покрова. — Томск: ТМЛ-Пресс, 2007. −304 с.

Метрики сходства и расстояния для науки о данных и машинного обучения


  Перевод


  Ссылка на автора


В предыдущая статья о системах рекомендаций мы несколько раз упоминали концепцию «мер сходства». Зачем? Потому что в Рекомендационных системах как алгоритмы контентной фильтрации, так и алгоритмы совместной фильтрации используют определенную меру сходства, чтобы найти, насколько равны два вектора пользователей или элементов между ними. Таким образом, в конце, мера сходства не больше, чем расстояние между векторами.

Примечание: помните, что вся моя работа, включая специальный репозиторий с применением всего этого контента и больше о Системах Рекомендаций, доступна в моем Профиль GitHub ,

В любом типе алгоритма наиболее распространенной мерой подобия является нахождение косинуса угла между векторами, то есть сходства косинусов. Предположим, что A – это список фильмов с рейтингом пользователя, а B – список фильмов с рейтингом пользователя B, тогда сходство между ними можно рассчитать как:

Математически косинусное сходство измеряет косинус угла между двумя векторами, спроецированными в многомерном пространстве. При построении в многомерном пространстве косинусное сходство фиксирует ориентацию (угол) каждого вектора, а не величину. Если вы хотите получить величину, вместо этого вычислите евклидово расстояние.

Сходство по косинусу выгодно, потому что даже если два одинаковых документа находятся далеко друг от друга на евклидовом расстоянии из-за размера (например, одно слово, появляющееся много раз в документе, или пользователь, часто видящий один фильм), они все равно могут иметь меньший угол между ними. Чем меньше угол, тем выше сходство.

Возьмите следующий пример из www.machinelearningplus.com:

На изображении выше показано количество появлений слов «sachin», «dhoni» и «cricket» в трех показанных документах. В соответствии с этим мы могли бы построить эти три вектора, чтобы легко увидеть разницу между измерением косинуса и евклидова расстояния для этих документов:

Теперь, регулярное косинусное сходство по определению отражает различия в направлении, но не в местоположении. Следовательно, использование метрики косинусного сходства не учитывает, например, разницу в рейтингах пользователей. Скорректированное косинусное сходство компенсирует этот недостаток путем вычитания среднего рейтинга соответствующего пользователя из каждой пары с равным рейтингом и определяется следующим образом:

Давайте возьмем следующий пример из Stackoverflow, чтобы лучше объяснить разницу между косинусом и скорректированным сходством косинусов:

Предположим, пользователь дает оценки в 0 ~ 5 для двух фильмов.

Интуитивно мы бы сказали, что у пользователей b и c одинаковые вкусы, и a довольно сильно отличается от них. Но регулярное косинусное сходство говорит нам неверную историю. В подобных случаях вычисление скорректированного косинусного сходства даст нам лучшее понимание сходства между пользователями.

Кстати, в нашем предыдущая статья о Системах Рекомендаций мы представили следующую функцию, чтобы найти скорректированное косинусное сходство:

from scipy import spatialdef adjusted_cos_distance_matrix(size, matrix, row_column):
distances = np.zeros((size,size))
if row_column == 0:
M_u = matrix.mean(axis=1)
m_sub = matrix - M_u[:,None]
if row_column == 1:
M_u = matrix.T.mean(axis=1)
m_sub = matrix.T - M_u[:,None]
for first in range(0,size):
for sec in range(0,size):
distance = spatial.distance.cosine(m_sub[first],m_sub[sec])
distances[first,sec] = distance
return distances

И вы можете использовать эту функцию очень просто, просто кормя:

  1. «Матрица»: это просто исходная матрица рейтингов, просмотров или того, что вы измеряете между пользователями и элементами вашего бизнеса
  2. «Row_columns»: указывает 1, если вы будете измерять расстояния между столбцами, и 0 для расстояний между рядами
  3. «Размер»: для желаемого размера результирующей матрицы. То есть при поиске сходства пользователей или элементов это будет просто количество пользователей или элементов. Таким образом, если у вас есть 500 уникальных пользователей, вы получите матрицу расстояний 500×500

Возьмите следующий пример в качестве ссылки:

user_similarity = adjusted_cos_distance_matrix(n_users,data_matrix,0)
item_similarity = adjusted_cos_distance_matrix(n_items,data_matrix,1)

Наконец, давайте кратко рассмотрим некоторые другие методы, которые можно использовать для вычисления подобия для систем рекомендаций, но также и для любого другого алгоритма на основе расстояния в машинном обучении:

  • Евклидово расстояние: похожие элементы будут лежать в непосредственной близости друг от друга, если они нанесены в n-мерном пространстве.

  • Корреляция Пирсона или корреляционное сходство: он говорит нам, насколько тесно связаны два элемента. Чем выше корреляция, тем выше сходство.

  • Средняя квадратическая разница: о нахождении среднего квадрата расхождения между рейтингами пользователей. MSE уделяет больше внимания наказанию за большие ошибки.

А потом:

Где | 𝐼𝑢𝑣 | это просто количество предметов, оцененных как пользователями 𝑢, так и 𝑣.

Примеры схожести между пользователем и пользователем

Давайте кратко вспомним, как работает совместная фильтрация на примере нашего предыдущая вступительная статья о системах рекомендаций: предположим, мне нравятся следующие книги: «Слепой убийца» и «Джентльмен в Москве». И моему другу Матиасу нравятся «Слепой убийца» и «Джентльмен в Москве», а также «Там, где поют кроады». Похоже, у нас с Матиасом одинаковые интересы Таким образом, вы, вероятно, могли бы подтвердить, что я хотел бы «Где поют кроады», хотя я этого не читал. И это именно логика, лежащая в основе совместной фильтрации, за исключением того, чтоВы можете сравнивать пользователей между ними, а также сравнивать предметы,

Давайте наглядно представим разницу между вычислительным использованием пользователей и подобий элементов в системе рекомендаций:

Сходство пользователя и пользователя

Схожесть предметов

Теперь, понимая это, давайте проиллюстрируем некоторые из мер, которые мы представили, на следующих примерах от нашего друга из Аналитика Видхья, что я нашел особенно очевидным для сходства пользователя и пользователя и элемента:

  • Сходство пользователя и пользователя

Изображение и пример взяты из аналитики Vidhya

Изображение и пример взяты из аналитики Vidhya

Здесь у нас есть матрица рейтинга фильмов пользователя. Чтобы понять это на практике, давайте найдем сходство между пользователями (A, C) и (B, C) в приведенной выше таблице. Обычные фильмы с рейтингом A и C – это фильмы x2 и x4, а под B и C – фильмы x2, x4 и x5. Зная это, давайте найдем корреляцию Пирсона или подобие корреляции:

Корреляция между пользователем A и C больше, чем корреляция между B и C. Следовательно, пользователи A и C имеют большее сходство, и фильмы, которые нравятся пользователю A, будут рекомендованы пользователю C, и наоборот.

  • Схожесть предметов

Изображение и пример взяты из аналитики Vidhya

Здесь средний рейтинг элемента – это среднее значение всех оценок, присвоенных конкретному элементу (сравните его с таблицей, которую мы видели при фильтрации пользователей). Вместо того, чтобы находить сходство пользователя и пользователя, мы находим сходство элемент-элемент. Для этого сначала нужно найти таких пользователей, которые оценили эти элементы и на основе оценок вычисляется сходство между элементами. Давайте найдем сходство между фильмами (x1, x4) и (x1, x5). Обычные пользователи, которые оценили фильмы x1 и x4, являются A и B, в то время как пользователи, которые оценили фильмы x1 и x5, также являются A и B.

Сходство между фильмами x1 и x4 больше, чем сходство между фильмами x1 и x5. Поэтому, исходя из этих значений подобия, если какой-либо пользователь ищет фильм x1, ему будет рекомендован фильм x4 и наоборот.

Ну, это пока все о Рекомендационных системах. Тем не менее, помните, что показатели сходства и метрики расстояния появляются в машинном обучении как очень фундаментальная концепция. Поэтому я надеюсь, что вы нашли этот контент полезным не только для повышения производительности вашего Рекомендатора;)

Если вам понравился этот пост, не забудьте проверить некоторые из моих последних статей, например 10 советов, как улучшить свои навыки прорисовки, 6 любительских ошибок, которые я допустил, работая с разделением поезда-теста или Соскоб в сети за 5 минут, Все они и многое другое доступно в мой средний профиль,

Связаться также …

  • LinkedIn: https://www.linkedin.com/in/gferreirovolpi/
  • GitHub: https://github.com/gonzaferreiro (где весь мой код доступен)

Увидимся в следующем посте!

Приветствия.

Макеты страниц

МЕРЫ СХОДСТВА

Теперь, когда задача выбора переменных и преобразования данных обсуждены, можно познакомиться с наиболее известными коэффициентами сходства. Как уже отмечалось, существует четыре их вида: коэффициенты корреляции; меры расстояния; коэффициенты ассоциативности и вероятностные коэффициенты сходства. Каждый из этих видов имеет свои достоинства и недостатки, которые следует рассматривать прежде, чем будет принято решение использовать один из них. Хотя все четыре вида мер сходства широко применялись специалистами в численной таксономии и в биологии, лишь коэффициенты корреляции и расстояния получили широкое распространение в области социальных наук. Поэтому мы уделим больше внимания этим двум типам мер.

Коэффициенты корреляции

Коэффициенты корреляции, часто называемые угловыми мерами ввиду их геометрической интерпретации, — самый распространенный тип сходства в области социальных наук. Наиболее известным является смешанный момент корреляции, предложенный Карлом Пирсоном. Первоначально использованный в качестве метода определения зависимости переменных, он был применен в количественной классификации при вычислении корреляции между объектами. В связи с этим коэффициент вычисляется следующим образом:

где — значение переменной для объекта; среднее всех значений переменных объекта, а — число переменных.

Для такого метода берутся переменные, измеренные по шкалам отношений или шкалам интервалов, а в случае бинарных данных он преобразуется в известный -коэффициент. Значение коэффициента корреляции изменяется от —1 до +1, причем значение нуль указывает, что между объектами нет связи. Поскольку при вычислении среднего для каждого объекта суммирование производится по всем переменным этого объекта, то стандартные критерии значимости для здесь не имеют ясного смысла.

Часто говорят, что коэффициент корреляции оценивает форму в том смысле, что он нечувствителен к различиям в величине переменных, используемых для вычисления коэффициента. Как отметил Уильямс (1971), коэффициент Пирсона чувствителен только к форме из-за неявной нормировки каждого обекта по всем переменным. Это свойство особенно важно для приложений к таким отраслям науки, как психология, социология и антропология, в которых данные часто описываются в терминах профилей. Формально профиль определяется просто как вектор значений признаков объекта, графически изображаемый в виде ломаной линии. Например, данные MMPI-теста, использованные в нашей работе, часто изображают так, чтобы для каждого индивида получилась ломаная — профиль (см. рис. 1).

Рис. 2. Профили данных MMPI-теста

Одним из главных недостатков коэффициента корреляции как меры сходства, является то, что он чувствителен к форме за счет снижения чувствительности к величине различий между переменными. Кронбах и Глезер (1953) впервые показали, что сходство между профилями определяют следующие три элемента: форма, т. е. спуски и подъемы ломаной линии для всех переменных; рассеяние, т. е. дисперсия значений переменных относительно их среднего; поднятие (уровень или сдвиг), т. е. среднее значение для объекта по всем переменным. Чувствительность коэффициента корреляции Пирсона лишь к форме означает, что два профиля могут иметь корреляцию и все же не быть идентичными (т. е. профили объектов не проходят через одни и те же точки).

На рис. 2 показаны два профиля данных для MMPI-теста; один изображен сплошной линией, а другой — пунктирной. Формы их одинаковы. Хотя корреляция между этими двумя профилями равна +1,0, они все же не совпадают, потому что один из них приподнят. Таким образом, высокая корреляция между профилями будет наблюдаться, когда измерения одного из профилей будут линейно зависеть от измерений другого. Следовательно, при использовании коэффициента корреляции теряется некоторая информация, что может привести к неверным результатам, если не будет учтено влияние рассеяния и поднятия профиля.

Коэффициент корреляции имеет и другие недостатки. Он часто не удовлетворяет неравенству треугольника, и, как многие указывали, корреляция, вычисленная этим способом, не имеет статистического смысла, поскольку среднее значение определяется по совокупности всевозможных разнотипных переменных, а не по совокупности объектов. Смысл «среднего» по разнотипным переменным далеко не ясен.

Несмотря на эти недостатки, коэффициент широко использовался в приложениях кластерного анализа. Хаммер и Каннингхем (1981) показали, что при правильном применении кластерного метода коэффициент корреляции превосходит другие коэффициенты сходства, так как позволяет уменьшить число неверных классификаций. Парадоксально, но ценность корреляции заключается именно в том, что она не зависит от различий между переменными из-за рассеяния и сдвига. Существенную роль в успехе работы Хаммера и Каннингхема сыграло, однако, то, что исследователи смогли понять, что им нужен именно коэффициент формы, поскольку они считали, что влияние рассеяния и сдвига данных объясняется лишь субъективизмом критиков, а не недостатками, присущими этим классификациям.

Меры расстояния

Меры расстояния пользуются широкой популярностью. На практике их лучше бы называть мерами несходства; для большинства используемых коэффициентов большие значения соответствуют большему сходству, в то время как для мер расстояния дело обстоит наоборот. Два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю. Меры расстояния обычно не ограничены сверху и зависят от выбора шкалы (масштаба) измерений. Одним из наиболее известных расстояний является евклидово расстояние, определяемое как

где расстояние между объектами i и значение переменной для объекта.

Чтобы избежать применения квадратного корня, часто величина расстояния возводится в квадрат, на что обычно указывает обозначение . Как и следовало ожидать, это выражение называют «квадратичным евклидовым расстоянием».

Можно определить и другие виды расстояния. Так, хорошо известной мерой является манхеттенское расстояние, или «расстояние городских кварталов» (city-block), которое определяется следующим образом:

Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского, которые можно найти по формуле

Существуют расстояния, не являющиеся метриками Минковского, и наиболее важное из них — расстояние Махаланобиса которое также носит название обобщенного расстояния (Mahalane-bis, 1936). Эта метрика определяется выражением

где — общая внутригрупповая дисперсионно-ковариационная матрица, — векторы значений переменных для объектов . В отличие от евклидовой и метрик Минковского, эта метрика с помощью матрицы дисперсий-ковариаций связана с корреляциями переменных. Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклидову расстоянию.

Несмотря на важность евклидовой и других метрик, они имеют серьезные недостатки, из которых наиболее важный состоит в том, что оценка сходства сильно зависит от различий в сдвигах данных. Переменные, у которых одновременно велики абсолютные значения и стандартные отклонения, могут подавить влияние переменных с меньшими абсолютными размерами и стандартными отклонениями. Более того, метрические расстояния изменяются под воздействием преобразований шкалы измерения переменных, при которых не сохраняется ранжирование по евклидову расстоянию. Чтобы уменьшить влияние относительных величин переменных, обычно перед вычислением расстояния нормируют переменные к единичной дисперсии и нулевому среднему. Как уже отмечалось, такое преобразование данных может вызвать затруднения.

Скиннер (1978) для вычисления сходства данных, представляемых профилями, предложил совместно использовать корреляцию и евклидово расстояние.

При этом можно определить, какой из факторов (форма, сдвиг или дисперсия) делает вклад в оценку сходства. Метод Скиннера похож на метод, предложенный Гуэртином (1966), согласно которому сначала, взяв за основу форму, с помощью корреляции создаются однородные группы объектов, а затем каждая из этих групп с помощью меры расстояния разбивается на подгруппы со схожими сдвиговыми и дисперсионными характеристиками (Skinner, 1978). Однако в методе Скиннера строится сложная функция сходства, которая объединяет расстояние и корреляцию в вычислительной процедуре, осуществляющей минимизацию ошибки измерения при оценке сходства профилей.

Поскольку в прикладном анализе данных часто возникает необходимость в нормировке, полезно рассмотреть небольшой пример, показывающий влияние нормировки на коэффициенты корреляции и расстояния. В качестве данных были взяты четыре профиля MMPI-теста. Каждому из этих профилей соответствует больной с сильной психопатологией.

В качестве исходной меры сходства для профилей был взят смешанный момент корреляции Пирсона. Результаты приведены в следующей матрице:

В верхней треуголыной части матрицы приведены значения корреляции, которые показывают, что все четыре профиля имеют очень схожие формы, а профили С и D даже почти идентичны . В нижней треугольной части матрицы показаны ранги, полученные в результате упорядочения по величине значений сходства от наибольшего (1) к наименьшему (6). Необходимость в ранговом упорядочении будет объяснена ниже.

После вычисления евклидовых расстояний получается матрица:

Заметьте, как различаются масштабирования коэффициентов расстояния и коэффициентов корреляции. Вспомните, что абсолютные значения коэффициентов расстояния не имеют смысла. Однако и здесь обнаруживается сходство пациентов С и хотя не ясно, насколько хорошим является значение 144). Общая картина сходства кажется почти одинаковой и для корреляции, и для расстояния, но существуют и различия. В частности, при использовании корреляции в качестве меры сходства наименее похожими оказались пациенты Однако евклидова метрика показывает, что наименее схожими являются пациенты

Чтобы внести еще большую путаницу, предположим, что мы решили нормировать данные. (Нормировка была действительно выполнена на основе статистики для всего множества данных, состоящего из 90 объектов). Если для оценки сходства четырех профилей после нормировки используется смешанный момент корреляции, то матрица сходства принимает вид

Обратите внимание, как различаются коэффициенты корреляции для нормированных и ненормированных данных. Для ненормированных данных , а для нормированных . В обоих случаях — наименьшая величина в матрице, но для нормированных данных величина коэффициента корреляции показывает, что между пациентами А и С нет никакого сходства, в то время как для ненормированных данных абсолютное значение корреляции свидетельствует, что пациенты Л и С довольно похожи.

Наконец, в нижеприведенной матрице несходства показаны евклидовы расстояния между пациентами в случае нормированных данных:

Снова величины изменяются в зависимости от того, нормированы или нет данные. Однако поскольку значение коэффициента евклидова расстояния не имеет естественного смысла, постольку эти изменения не очень важны. Что действительно важно, так это относительное изменение. Наиболее драматическим моментом является то, что коэффициент евклидова расстояния для нормированных данных показывает, что пациенты Л и Б — пара с наибольшим сходством, между тем, как три другие матрицы сходства указывают на то, что наиболее похожие пациенты — это С и D.

В заключение важно отметить, что все четыре матрицы порождают разные ранжирования коэффициентов сходства. Это замечание важно, так как оно показывает, что выбор коэффициента сходства и преобразования данных может плохо повлиять на соотношения, содержащиеся в итоговой матрице сходства.

Коэффициенты ассоциативности

Коэффициенты ассоциативности применяются, когда необходимо установить сходство между объектами, описываемыми бинарными переменными.

Легче всего рассмотреть эти коэффициенты, обратившись к -таблице ассоциативности, в которой 1 указывает на наличие переменной, а 0 — на ее отсутствие.

Было предложено большое число таких коэффициентов, а поэтому нереально пытаться дать исчерпывающее описание всей совокупности этих мер. В основном коэффициенты ассоциативности были впервые определены в биологии, хотя, вероятно, некоторые, наиболее простые из них были найдены и в ряде других отраслей науки. Лишь небольшое число мер подверглось широкой проверке, многие вышли из употребления из-за свойств сомнительного характера. Более подробно об этом см. (Sneath and Sokal, 1973; Clifford and Stephenson, 1975; Everitt, 1980). Однако существуют три меры, которые широко используются и заслуживают специального рассмотрения. Это — простой коэффициент совстречаемости, коэффициент Жаккара и коэффициент Гауэра.

Простой коэффициент совстречаемости имеет вид

где S — сходство между двумя объектами, которое меняется в пределах от 0 до 1. Как отмечают Снит и Сокэл (1973), этот коэффициент нелегко преобразовать в метрику. Тем не менее большие усилия были направлены на то, чтобы установить приблизительные доверительные пределы. Один из небольшого числа таких методов отмечает Гудолл (1967). Этот коэффициент учитывает также и одновременное отсутствие признака у обоих объектов (как указано в клетке d матрицы ассоциативности).

Коэффициент Жаккара, определенный следующим образом

не учитывает одновременного отсутствия признака при вычислении сходства (клетка d не рассматривается). Подобно простому коэффициенту совстречаемости он изменяется от 0 до 1. Коэффициент Жаккара широко применялся в биологии при необходимости рассмотрения так называемых негативных пар (с одновременным отсутствием признака). Как заметили биологи, используя простой коэффициент совстречаемости, некоторые объекты оказываются в значительной степени схожими главным образом за счет того, что им обоим не свойственны некоторые признаки, а не за счет наличия общих характеристик. В противоположность этому коэффициент Жаккара принимает в расчет лишь те признаки, которые характерны хотя бы для одного из объектов.

Во многих областях социологических наук не стоит вопрос об учете негативных пар, но такая проблема возникает в археологии Если предмет не был найден в захоронении, то его отсутствие может быть обусловлено либо культурными традициями, либо естественными процессами распада и изнашивания.

Было бы неправильно давать оценку сходства двух захоронений исходя из отсутствия и них какого-то предмета, если невозможно узнать, какое из двух возможных объяснений действительно имеет место.

Рассмотрим шесть точек из множества данных о захоронениях, чтобы кратко проиллюстрировать различия между простым коэффициентом совстречаемости и коэффициентом Жаккара:

Возьмем объекты 1 (ребенок, мужской пол, неэлитарное общественное положение — РМН) и 8 (подросток, мужской пол, неэлитарное общественное положение — ПМН). Матрица ассоциативности общих признаков для двух объектов размерностью 2х2 имеет вид

Другими словами, эти объекты имеют только один общий предмет. Одиако четыре предмета отсутствуют в обоих захоронениях. Таким образом,

Тем не менее

Иначе говоря, в то время как простой коэффициент совстречаемости показывает, что объекты РМН и ПМН достаточно схожи, из величины коэффициента Жаккара следует, что такого сходства нет. Полная матрица сходства размерностью 6×6 в случае простого коэффициента совстречаемости имеет вид

В случае коэффициента Жаккара полная матрица сходства принимает следующий вид:

Как видим, эти матрицы довольно похожи. Например, они показывают, что объекты ПЖЭ, ВМЭ и ВЖЭ (недетские элитарные захоронения) имеют наибольшее сходство. Однако существуют и различия. Два детских захоронения (объекты РМН и РЖЭ) согласно коэффициенту Жаккара совсем не имеют сходства, но, судя по простому коэффициенту совстречаемости, они сравительно похожи.

Другой характерной чертой этих матриц является число «совпадений». В случае простого коэффициента совстречаемости имеется пять пар объектов, для которых и пять пар, для которых На самом деле среди пятнадцати клеток матрицы сходства размерностью 6х6 только в пяти есть неповторяющиеся значения S. Как мы позже покажем, некоторые кластерные методы не годятся для матриц сходства, у которых так много «совпадений».

Коэффициент Гауэра — единственный в своем роде, так как при оценке сходства допускает одновременное использование переменных, измеренных по различным шкалам. Коэффициент был предложен Гауэром (1971) и имеет вид

где — весовая переменная, принимающая значение 1, если сравнение объектов по признаку k следует учитывать, и 0 — в противном случае; — «вклад» в сходство объектов, зависящий от того, учитывается ли признак k при сравнении объектов . В случае бинарных признаков если признак k отсутствует у одного или обоих сопоставляемых объектов (Everitt, 1980). Для так называемых негативных переменных 0. Понятно, что если все данные — двоичные, то коэффициент Гауэра сводится к коэффициенту Жаккара.

Чтобы показать, как работает этот коэффициент, расширим множество данных о захоронениях, добавив два новых признака: рост (измеренный в сантиметрах; это количественная переменная) и величину энергетических затрат, связанных с погребением (измеренных по порядковой шкале с рангами 1, 2 и 3 или соответственно низкие, средние и высокие). Матрица сходства для четырех объектов примет вид

Для двоичных данных вычисляется в соответствии со следующей системой подсчета:

Для порядковых данных равно 1, если сравниваемые значения равны, и 0 — в противном случае. Наконец, для количественных данных имеет место уравнение

где — значение переменной для объекта размах значений этой переменной (разность между максимальным и минимальным значениями). В результате итоговую матрицу сходства для четырех объектов можно представить как

Кроме возможности работать с разнотипными данными, у коэффициента есть еще несколько привлекательных особенностей. Например то, что его метрические свойства и гибкость дают возможность после простого изменения системы бинарных весов при оценке сходства учитывать и негативные пары. К сожалению, коэффициент Гауэра можно редко найти в пакетах прикладных программ по кластерному анализу, так как он практически не применяется в области социальных наук.

Вероятностные коэффициенты сходства

Радикальное отличие коэффициентов этого типа от описанных выше заключается в том, что, по сути дела, сходство между двумя объектами не вычисляется. Вместо этого мера такого типа прилагается непосредственно к исходным данным до их обработки. При образовании кластеров вычисляется информационный выигрыш (по определению Шеннона) от объединения двух объектов, а затем те объединения, которые дают минимальный выигрыш, рассматриваются как один объект. Другой особенностью вероятностных мер является то, что они пригодны лишь для бинарных данных. До сих пор не было разработано ни одной схемы использования меры этого вида для качественных и количественных переменных. Вероятностные коэффициенты сходства еще не нашли своего применения в социальных науках, но уже в течение десятилетия ими широко пользуются специалисты по численной таксономии и экологии. Более подробно об этом см. (Sneath and Sokal, 1973; Clifford and Stephenson, 1975).

1

Оглавление

  • ФАКТОРНЫЙ АНАЛИЗ: СТАТИСТИЧЕСКИЕ МЕТОДЫ И ПРАКТИЧЕСКИЕ ВОПРОСЫ
  • I. ВВЕДЕНИЕ
  • ОБЗОР ОСНОВ ФАКТОРНОГО АНАЛИЗА
  • ОСНОВНЫЕ АЛГОРИТМЫ И МЕТОДЫ
  • II. МЕТОДЫ ВЫДЕЛЕНИЯ ПЕРВОНАЧАЛЬНЫХ ФАКТОРОВ
  • ГЛАВНЫЕ КОМПОНЕНТЫ, СОБСТВЕННЫЕ ЗНАЧЕНИЯ И ВЕКТОРА
  • МЕТОДЫ ФАКТОРНОГО АНАЛИЗА
  • Метод наименьших квадратов
  • Метод максимального правдоподобия
  • Альфа-факторный анализ
  • АНАЛИЗ ОБРАЗОВ
  • III. МЕТОДЫ ВРАЩЕНИЯ
  • ГЕОМЕТРИЧЕСКИЙ МЕТОД ВРАЩЕНИЯ, ПРОСТАЯ СТРУКТУРА И ВТОРИЧНЫЕ ОСИ
  • МЕТОДЫ ОРТОГОНАЛЬНОГО ВРАЩЕНИЯ: КВАРТИМАКС, ВАРИМАКС И ЭКВИМАКС
  • МЕТОДЫ КОСОУГОЛЬНОГО ВРАЩЕНИЯ
  • ВРАЩЕНИЕ С ИСПОЛЬЗОВАНИЕМ ЦЕЛЕВОЙ МАТРИЦЫ
  • IV. ЕЩЕ О ПРОБЛЕМЕ ОПРЕДЕЛЕНИЯ ЧИСЛА ФАКТОРОВ
  • КРИТЕРИИ ЗНАЧИМОСТИ
  • КРИТЕРИИ, ОСНОВАННЫЕ НА СОБСТВЕННЫХ ЧИСЛАХ
  • КРИТЕРИЙ, ОСНОВАННЫЙ НА ВЕЛИЧИНЕ ДОЛИ ВОСПРОИЗВОДИМОЙ ДИСПЕРСИИ
  • КРИТЕРИИ ОТСЕИВАНИЯ
  • КРИТЕРИИ ИНТЕРПРЕТИРУЕМОСТИ И ИНВАРИАНТНОСТИ
  • V. ВВЕДЕНИЕ В КОНФИРМАТОРНЫЙ ФАКТОРНЫЙ АНАЛИЗ
  • ЧИСЛО ЭМПИРИЧЕСКИХ ОГРАНИЧЕНИИ ДЛЯ ФАКТОРНОЙ МОДЕЛИ
  • Степень эмпирического подтверждения или надежность
  • ДРУГАЯ КОНЦЕПЦИЯ ЭМПИРИЧЕСКОГО ПОДТВЕРЖДЕНИЯ: ВЫБОРОЧНАЯ АДЕКВАТНОСТЬ
  • КОНФИРМАТОРНЫИ ФАКТОРНЫЙ АНАЛИЗ
  • Сравнение факторных структур
  • VI. ФАКТОРНОЕ ШКАЛИРОВАНИЕ
  • ВЫБОРОЧНЫЙ РАЗБРОС И РАЗЛИЧНЫЕ КРИТЕРИИ КАЧЕСТВА ОЦЕНОК
  • НЕСКОЛЬКО ОБЩИХ ФАКТОРОВ И ДОПОЛНИТЕЛЬНЫЕ СЛОЖНОСТИ
  • НЕПОЛНЫЕ ФАКТОРНЫЕ ШКАЛЫ
  • ЗНАЧЕНИЯ ГЛАВНЫХ КОМПОНЕНТ
  • ПРИМЕЧАНИЕ
  • VII. КРАТКИЕ ОТВЕТЫ НА ЧАСТО ВОЗНИКАЮЩИЕ ВОПРОСЫ
  • ИСПОЛЬЗОВАНИЕ КОРРЕЛЯЦИОННЫХ ЛИБО КОВАРИАЦИОННЫХ МАТРИЦ
  • КРИТЕРИИ ЗНАЧИМОСТИ И УСТОЙЧИВОСТЬ ФАКТОРНЫХ РЕШЕНИЙ
  • ДРУГИЕ СТАТИСТИЧЕСКИЕ ВОПРОСЫ
  • СПЕЦИАЛЬНАЯ ЛИТЕРАТУРА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ
  • ДИСКРИМИНАНТНЫЙ АНАЛИЗ
  • I. ВВЕДЕНИЕ
  • КОГДА ИСПОЛЬЗУЕТСЯ ДИСКРИМИНАНТНЫИ АНАЛИЗ — ОСНОВНЫЕ ПРЕДПОЛОЖЕНИЯ
  • НЕСКОЛЬКО ПРИМЕРОВ ИЗ ОБЛАСТИ СОЦИАЛЬНЫХ НАУК
  • БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ
  • II. ПОЛУЧЕНИЕ КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЫХ ФУНКЦИИ
  • ЧИСЛО КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЫХ ФУНКЦИЯ
  • ПОЛУЧЕНИЕ КОЭФФИЦИЕНТОВ КАНОНИЧЕСКОЙ ДИСКРИМИНАНТНОЙ ФУНКЦИИ
  • КОЭФФИЦИЕНТЫ V
  • НЕСТАНДАРТИЗОВАННЫЕ КОЭФФИЦИЕНТЫ
  • III. ИНТЕРПРЕТАЦИЯ КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЫХ ФУНКЦИИ
  • ДВУХКООРДИНАТНЫЕ ГРАФИКИ
  • ОДНОКООРДИНАТНЫЕ ГРАФИКИ
  • СТАНДАРТИЗОВАННЫЕ КОЭФФИЦИЕНТЫ
  • СТРУКТУРНЫЕ КОЭФФИЦИЕНТЫ
  • СКОЛЬКО ФУНКЦИЙ НАДО УЧИТЫВАТЬ
  • IV. ПРОЦЕДУРЫ КЛАССИФИКАЦИИ
  • УЧЕТ АПРИОРНЫХ ВЕРОЯТНОСТЕЙ, ИЛИ ЦЕНА ОШИБОЧНОЙ КЛАССИФИКАЦИИ
  • КЛАССИФИКАЦИЯ с помощью КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЫХ ФУНКЦИИ
  • ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ОБЛАСТЕЙ
  • КЛАССИФИКАЦИОННАЯ МАТРИЦА
  • ОБОСНОВАНИЕ С ПОМОЩЬЮ РАЗБИЕНИЯ ВЫБОРКИ
  • V. ПОСЛЕДОВАТЕЛЬНЫЙ ОТБОР ПЕРЕМЕННЫХ
  • КРИТЕРИИ ОТБОРА
  • МИНИМАЛЬНЫЕ УСЛОВИЯ ПРОВЕДЕНИЯ ОТБОРА
  • ПРИМЕР ИСПОЛЬЗОВАНИЯ ПРОЦЕДУРЫ ПОСЛЕДОВАТЕЛЬНОГО ОТБОРА
  • VI. ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ
  • ДРУГИЕ ПРОБЛЕМЫ
  • ЗАКЛЮЧЕНИЕ
  • ПРИМЕЧАНИЯ
  • ЛИТЕРАТУРА
  • КЛАСТЕРНЫЙ АНАЛИЗ
  • I. ВВЕДЕНИЕ
  • ИСПОЛЬЗОВАНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ
  • МНОЖЕСТВА ДАННЫХ, ИСПОЛЬЗУЕМЫХ В ПРИМЕРАХ
  • НЕСКОЛЬКО ПРЕДОСТЕРЕЖЕНИИ ОТНОСИТЕЛЬНО КЛАСТЕРНОГО АНАЛИЗА
  • II. МЕРЫ СХОДСТВА
  • ПОНЯТИЕ СХОДСТВА
  • ВЫБОР ПЕРЕМЕННЫХ
  • МЕРЫ СХОДСТВА
  • БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ
  • III. ОБЗОР МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА
  • ИЕРАРХИЧЕСКИЕ АГЛОМЕРАТИВНЫЕ МЕТОДЫ
  • ИТЕРАТИВНЫЕ МЕТОДЫ ГРУППИРОВКИ
  • ВАРИАНТЫ ФАКТОРНОГО АНАЛИЗА
  • ДРУГИЕ МЕТОДЫ
  • ОПРЕДЕЛЕНИЕ ЧИСЛА КЛАСТЕРОВ
  • СРАВНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ
  • БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ
  • IV. МЕТОДЫ ПРОВЕРКИ ОБОСНОВАННОСТИ РЕШЕНИЙ
  • ТЕСТЫ ЗНАЧИМОСТИ ДЛЯ ПРИЗНАКОВ, НЕОБХОДИМЫЕ ПРИ СОЗДАНИИ КЛАСТЕРОВ
  • ПОВТОРНАЯ ВЫБОРКА
  • ТЕСТЫ ЗНАЧИМОСТИ ДЛЯ ВНЕШНИХ ПРИЗНАКОВ
  • ПРОЦЕДУРЫ МОНТЕ-КАРЛО
  • V. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ КЛАСТЕРНОГО АНАЛИЗА И ЛИТЕРАТУРА ПО КЛАСТЕРИЗАЦИИ
  • ПАКЕТЫ СТАТИСТИЧЕСКИХ ПРОГРАММ, СОДЕРЖАЩИЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ
  • ПАКЕТЫ ПРОГРАММ КЛАСТЕРНОГО АНАЛИЗА
  • ПРОСТЫЕ ПРОГРАММЫ КЛАСТЕРНОГО АНАЛИЗА
  • ЛИТЕРАТУРА ПО КЛАСТЕРНОМУ АНАЛИЗУ
  • РЕКОМЕНДАЦИИ ПО СОСТАВЛЕНИЮ ОТЧЕТОВ ОБ ИССЛЕДОВАНИЯХ, ИСПОЛЬЗУЮЩИХ КЛАСТЕРНЫЙ АНАЛИЗ
  • ПРИМЕЧАНИЯ
  • ЛИТЕРАТУРА

В
кластерном анализе для количественной
оценки сходства объектов вводится
понятие метрики.
Сходство или различие
между классифицируемыми объектами
устанавливается в зависимости от
метрического расстояния между ними.
Если каждый объект описывается k
признаками, то он
может быть представлен как точка в
k-мерном
пространстве и сходство с другими
объектами будет определяться как
соответствующее расстояние. В кластерном
анализе используются различные меры
расстояния между объектами (метрики):

1) евклидово
расстояние:

;

(8.5)

2) взвешенное
евклидово расстояние:

;

(8.6)

3)
расстояние cityblock:

;

(8.7)

4)
расстояние Минковского:

и
др.,

(8.8)

где
dij
расстояние между
i
и j
объектами;

xik,
х
jk
значения k
переменной соответственно у i-го
и j-го
объектов;

wk
вес,
приписываемый k
переменной.

Пример
8.4.
Определить сходство
между предприятиями, если каждое из них
характеризуется тремя признаками: Х1
производство
продукции, млрд руб; X2

стоимость основных производственных
фондов, млрд руб.; X3

фонд заработной платы
промышленно-производственного персонала,
млрд руб. (табл. 8.5, 8.6).

Таблица
8.5.Матрица исходных данных

№ п/п

X1

X2

X3

1

32,5

40,3

3,5

2

38,4

46,8

4,3

3

16,7

25.7

2,0

4

42,3

44,0

4,5

Таблица
8.6.Матрица евклидовых расстояний

№ п/п

1

2

3

4

1

0

8,81

21,55

10,36

2

0

30,35

30,48

3

0

31,57

4

0

Оценка сходства
между объектами сильно зависит от
абсолютного значения признака и от
степени его вариации в совокупности.
Чтобы устранить подобное влияние на
процедуру классификации, можно значения
исходных переменных нормировать одним
из следующих способов:

;

;

;

.

Продемонстрируем
на нашем примере, как скажется нормирование
исходных переменных на мерах сходства
между объектами. Заменим xij
новыми значениями
zij,
полученными по формуле

,

(8.9)

и построим матрицу
стандартизованных значений признаков
и новую матрицу расстояний (табл.8.7,
8.8).

В
первой матрице расстояний (табл.8.6)
самыми «близкими» были объекты п1
и п2
(
d12=
8,81), а самыми «дальними»

объекты n3
и n4
(d34=
31,57). После нормирования значений исходных
переменных самыми «близкими» стали
объекты n2
и n4
(d24
= 0,56), а самыми «дальними»
объекты n2
и n3
(d23=13,2)
(табл. 8.7).

Таблица
8.7.Матрица стандартизованных
значений признаков

№ п/п

Z1

Z2

Z3

1

0,00205

0,13530

-0,10204

2

0,60718

0,93481

0,71429

3

-1,61846

-1,66052

-1,63215

4

1,00718

-0,59041

0,91837

Таблица
8.8. Матрица
расстояний

№ п/п

1

2

3

4

1

0

1,29

2,86

1,50

2

0

13,20

0,56

3

0

4,30

4

0

В
качестве меры сходства отдельных
переменных могут быть использованы
парные коэффициенты корреляции Пирсона.
Если исходные переменные являются
альтернативными признаками, т.е. принимают
только два значения, то в качестве меры
сходства можно использовать коэффициенты
ассоциативности.

Вопрос
о придании переменным соответствующих
весов должен решаться после проведения
исследователем тщательного анализа
изучаемой совокупности и
социально-экономической сущности
классифицирующих переменных. Веса
задаются пропорционально степени
важности переменных. Например, если для
классификации предприятий используются
переменные Х1
прибыль предприятия,
Х2
выработка продукции
на одного работающего, Х3
среднегодовая
стоимость основных производственных
фондов, то можно переменным задать веса
пропорционально их степени важности
для эффективности работы предприятия:

wx1=0,6;
wx2=0,3;
wx3=0,l.

Тогда евклидово
расстояние будет определяться по формуле

.

(8.10)

Выбор
меры расстояния и весов для классифицирующих
переменных
очень важный этап кластерного анализа,
так как от этих процедур зависят состав
и количество формируемых кластеров, а
также степень сходства объектов внутри
кластеров.

Если
алгоритм кластеризации основан на
измерении сходства между переменными,
то в качестве мер сходства могут быть
использованы:

  • линейные коэффициенты
    корреляции;

  • коэффициенты
    ранговой корреляции;

  • коэффициенты
    контингенции и т. д.

В зависимости от
типов исходных переменных выбирается
один из видов показателей, характеризующих
близость между ними.

Соседние файлы в папке Тер вер и мат стат

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

From Wikipedia, the free encyclopedia

“Similarity matrix” redirects here. For the linear algebra concept, see Matrix similarity.

In statistics and related fields, a similarity measure or similarity function or similarity metric is a real-valued function that quantifies the similarity between two objects. Although no single definition of a similarity exists, usually such measures are in some sense the inverse of distance metrics: they take on large values for similar objects and either zero or a negative value for very dissimilar objects. Though, in more broad terms, a similarity function may also satisfy metric axioms.

Cosine similarity is a commonly used similarity measure for real-valued vectors, used in (among other fields) information retrieval to score the similarity of documents in the vector space model. In machine learning, common kernel functions such as the RBF kernel can be viewed as similarity functions.[1]

Use of different similarity measure formulas[edit]

Different types of similarity measures exist for various types of objects, depending on the objects being compared. For each type of object there are various similarity measurement formulas.[2]

There are many various options available when it comes to finding similarity between two data points, some of which are a combination of other similarity methods. Some of the methods for similarity measures between two data points include Euclidean distance, Manhattan distance, Minkowski distance, and Chebyshev distance. The Euclidean distance formula is used to find the distance between two points on a plane, which is visualized in the image below. Manhattan distance is commonly used in GPS applications, as it can be used to find the shortest route between two addresses. When you generalize the Euclidean distance formula and Manhattan distance formula you are left with the Minkowski distance formula, which can be used in a wide variety of applications.

Similarity between two data points

Image shows the path of calculation when using the Euclidean distance formula

  • Euclidean distance
  • Manhattan distance
  • Minkowski distance
  • Chebyshev distance

For comparing strings, there are various measures of string similarity that can be used. Some of these methods include edit distance, Levenshtein distance, Hamming distance, and Jaro distance. The best-fit formula is dependent on the requirements of the application. For example, edit distance is frequently used for natural language processing applications and features, such as spell-checking. Jaro distance is commonly used in record linkage to compare first and last names to other sources.

Similarity between strings

  • Edit distance
  • Levenshtein distance
  • Lee distance
  • Hamming distance
  • Jaro distance

When comparing probability distributions the Mahalanobis distance formula, Bhattacharyya distance formulas, and the Hellinger distance formula are all very powerful and useful. The Mahalanobis distance formula is commonly used in statistical analysis. It measures the distance between two probability distributions that have different means and variances. This makes it useful for finding outliers across the datasets. The Bhattacharyya distance formula is generally used in image processing, comparing two probability distributions that represent different categories. For example, can be used to classify images based on their features. Hellinger distance is a powerful tool for text mining and classifying documents. Generally, it is used on probability distributions that represent the frequency of different words, allowing you to find similar documents.

Similarity between two probability distributions

  • Mahalanobis distance
  • Bhattacharyya distance
  • Hellinger distance

A set is a collection of items with no order or repetition. They are generally used to represent relationships or associations between objects or even people. The Jaacard index formula measures the similarity between two sets based on the number of items that are present in both sets relative to the total number of items. The Jaccard index is commonly used in recommendation systems and social media analysis. For example, could recommend a new application to download based on your previous downloads. The Sorensen similarity index also compares the number of items in both sets to the total number of items present but the weight for the number of shared items is larger. The Sorensen similarity index is commonly used in biology applications, measuring the similarity between two sets of genes or species.

Similarity between two sets

  • Jaccard index
  • Sorensen similarity index

Use in clustering[edit]

Clustering or Cluster analysis is a data mining technique that is used to discover patterns in data by grouping similar objects together. It involves partitioning a set of data points into groups or clusters based on their similarities. One of the fundamental aspects of clustering is how to measure similarity between data points.

Similarity measures play a crucial role in many clustering techniques, as they are used to determine how closely related two data points are and whether they should be grouped together in the same cluster. similarity measure can take many different forms depending on the type of data being clustered and the specific problem being solved.

One of the most commonly used similarity measures is the Euclidean distance, which is used in many clustering techniques including K-means clustering and Hierarchical clustering. The Euclidean distance is a measure of the straight-line distance between two points in a high-dimensional space. It is calculated as the square root of the sum of the squared differences between the corresponding coordinates of the two points. For example, if we have two data points {displaystyle (x1,y1)} and (x2,y2), the Euclidean distance between them is {displaystyle d=surd [(x2-x1)^{2}+(y2-y1)^{2}]}

Heatmap of HIST1 region, which is located on mouse chromosome 13 at the following coordinates: [21.7 Mb, 24.1 Mb].

Another commonly used similarity measure is the Jaccard index or Jaccard similarity, which is used in clustering techniques that work with binary data such as presence/absence data [3] or Boolean data; The Jaccard similarity is particularly useful for clustering techniques that work with text data, where it can be used to identify clusters of similar documents based on their shared features or keywords.[4] It is calculated as the size of the intersection of two sets divided by the size of the union of the two sets. {displaystyle J(A,B)={Abigcap B over Abigcup B}}

Similarities among 162 Relevant Nuclear Profile are tested using the Jaccard Similarity measure (see figure with heatmap). The Jaccard similarity of the nuclear profile ranges from 0 to 1, with 0 indicating no similarity between the two sets and 1 indicating perfect similarity with the aim of clustering the most similar nuclear profile.

Manhattan distance, also known as Taxicab geometry , is a commonly used similarity measure in clustering techniques that work with continuous data. It is a measure of the distance between two data points in a high-dimensional space, calculated as the sum of the absolute differences between the corresponding coordinates of the two points. {displaystyle leftvert x1-x2rightvert +leftvert y1-y2rightvert }

In spectral clustering, a similarity, or affinity, measure is used to transform data to overcome difficulties related to lack of convexity in the shape of the data distribution.[5] The measure gives rise to an {displaystyle (n,n)}-sized similarity matrix for a set of n points, where the entry (i,j) in the matrix can be simply the (reciprocal of the) Euclidean distance between i and j, or it can be a more complex measure of distance such as the Gaussian {displaystyle e^{-|s_{1}-s_{2}|^{2}/2sigma ^{2}}}.[5] Further modifying this result with network analysis techniques is also common.[6]

The choice of similarity measure depends on the type of data being clustered and the specific problem being solved. For example, working with continuous data such as gene expression data, the Euclidean distance or cosine similarity may be appropriate. If working with binary data such as the presence of a genomic loci in a nuclear profile, the Jaccard index may be more appropriate. Lastly, working with data that is arranged in a grid or lattice structure, such as image or signal processing data, the Manhattan distance is particularly useful for the clustering.

Use in recommender systems[edit]

Similarity measures are tools to develop recommender systems. It observes a user’s perception and liking of multiple items. On recommender systems, the method is using a distance calculation such as Euclidean Distance or Cosine Similarity to generate a similarity matrix with values representing the similarity of any pair of targets. Then, by analyzing and comparing the values in the matrix, it is possible to match two targets to a user’s preference or link users based on their marks. In this system, it is relevant to observe the value itself and the absolute distance between two values.[7] Gathering this data can indicate a mark’s likeliness to a user as well as how mutually closely two marks are either rejected or accepted. It is possible then to recommend to a user targets with high similarity to the user’s likes.

Recommender systems are observed in multiple online entertainment platforms, in social media and streaming websites. The logic for the construction of this systems is based on similarity measures.[8]

Use in sequence alignment[edit]

Similarity matrices are used in sequence alignment. Higher scores are given to more-similar characters, and lower or negative scores for dissimilar characters.

Nucleotide similarity matrices are used to align nucleic acid sequences. Because there are only four nucleotides commonly found in DNA (Adenine (A), Cytosine (C), Guanine (G) and Thymine (T)), nucleotide similarity matrices are much simpler than protein similarity matrices. For example, a simple matrix will assign identical bases a score of +1 and non-identical bases a score of −1. A more complicated matrix would give a higher score to transitions (changes from a pyrimidine such as C or T to another pyrimidine, or from a purine such as A or G to another purine) than to transversions (from a pyrimidine to a purine or vice versa).
The match/mismatch ratio of the matrix sets the target evolutionary distance.[9][10] The +1/−3 DNA matrix used by BLASTN is best suited for finding matches between sequences that are 99% identical; a +1/−1 (or +4/−4) matrix is much more suited to sequences with about 70% similarity. Matrices for lower similarity sequences require longer sequence alignments.

Amino acid similarity matrices are more complicated, because there are 20 amino acids coded for by the genetic code, and so a larger number of possible substitutions. Therefore, the similarity matrix for amino acids contains 400 entries (although it is usually symmetric). The first approach scored all amino acid changes equally. A later refinement was to determine amino acid similarities based on how many base changes were required to change a codon to code for that amino acid. This model is better, but it doesn’t take into account the selective pressure of amino acid changes. Better models took into account the chemical properties of amino acids.

One approach has been to empirically generate the similarity matrices. The Dayhoff method used phylogenetic trees and sequences taken from species on the tree. This approach has given rise to the PAM series of matrices. PAM matrices are labelled based on how many nucleotide changes have occurred, per 100 amino acids.
While the PAM matrices benefit from having a well understood evolutionary model, they are most useful at short evolutionary distances (PAM10–PAM120). At long evolutionary distances, for example PAM250 or 20% identity, it has been shown that the BLOSUM matrices are much more effective.

The BLOSUM series were generated by comparing a number of divergent sequences. The BLOSUM series are labeled based on how much entropy remains unmutated between all sequences, so a lower BLOSUM number corresponds to a higher PAM number.

See also[edit]

  • Affinity propagation
  • Latent space – Embedding of data within a manifold based on a similarity function
  • Similarity learning – Supervised learning of a similarity function
  • Self-similarity matrix
  • Semantic similarity – Natural language processing
  • Similarity (network science) – in network analysis, when two nodes (or other more elaborate structures) fall in the same equivalence class
  • Similarity (philosophy) – Relation of resemblance between objects
  • Statistical distance – Distance between two statistical objects
  • String metric – metric that measures the distance between two strings of text
  • tf–idf – Number that reflects the importance of a word to a document in a corpus
  • Recurrence plot, a visualization tool of recurrences in dynamical (and other) systems

References[edit]

  1. ^ Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). “A primer on kernel methods” (PDF). Kernel Methods in Computational Biology.
  2. ^ https://iq.opengenus.org/similarity-measurements/ “Different Types of Similarity measurements”
  3. ^ Chung, Neo Christopher; Miasojedow, BłaŻej; Startek, Michał; Gambin, Anna (2019). “Jaccard/Tanimoto similarity test and estimation methods for biological presence-absence data”. BMC Bioinformatics. 20 (S15): 644. doi:10.1186/s12859-019-3118-5. ISSN 1471-2105.
  4. ^ International MultiConference of Engineers and Computer Scientists : IMECS 2013 : 13-15 March, 2013, the Royal Garden Hotel, Kowloon, Hong Kong. S. I. Ao, International Association of Engineers. Hong Kong: Newswood Ltd. 2013. ISBN 978-988-19251-8-3. OCLC 842831996.{{cite book}}: CS1 maint: others (link)
  5. ^ a b Ng, A.Y.; Jordan, M.I.; Weiss, Y. (2001), “On Spectral Clustering: Analysis and an Algorithm”, Advances in Neural Information Processing Systems, MIT Press, 14: 849–856
  6. ^ Li, Xin-Ye; Guo, Li-Jie (2012), “Constructing affinity matrix in spectral clustering based on neighbor propagation”, Neurocomputing, 97: 125–130, doi:10.1016/j.neucom.2012.06.023
  7. ^ Bondarenko, Kirill (2019), Similarity metrics in recommender systems, retrieved 25 April 2023
  8. ^ Javed, Mahnoor (2020), “Using Cosine Similarity to Build a Movie Recommendation System”, Towards Data Science, retrieved 25 April 2023
  9. ^ States, D; Gish, W; Altschul, S (1991). “Improved sensitivity of nucleic acid database searches using application-specific scoring matrices”. Methods: A Companion to Methods in Enzymology. 3 (1): 66. CiteSeerX 10.1.1.114.8183. doi:10.1016/S1046-2023(05)80165-3.
  10. ^ Sean R. Eddy (2004). “Where did the BLOSUM62 alignment score matrix come from?” (PDF). Nature Biotechnology. 22 (8): 1035–6. doi:10.1038/nbt0804-1035. PMID 15286655. S2CID 205269887. Archived from the original (PDF) on 2006-09-03.
  • F. Gregory Ashby; Daniel M. Ennis (2007). “Similarity measures”. Scholarpedia. 2 (12): 4116. Bibcode:2007SchpJ…2.4116A. doi:10.4249/scholarpedia.4116.

Добавить комментарий