Методы кластерного анализа

Статью подготовил ведущий маркетолог-аналитик Воронов Валерий Иванович. Связаться с автором

Вернуться назад на Методы анализа

Не забываем поделиться:

Методы, представленные в модуле Обобщенные методы кластерного анализа программы схожи с алгоритмом k-средних, включенным в стандартные настройки модуля Кластерный анализ, и вы можете просмотреть раздел Кластеризация k-средних для основного обзора этих методов и их приложений. Назначение этих методов в основном определять кластеры в наблюдениях (или переменных), и для назначения этих наблюдений кластерам.

Типичный пример приложения такого типа анализа - маркетинговые исследования, в которых число связанных переменных поведения потребителя измеряется для больших выборок респондентов; цель изучения - определить "сегмент рынка", т.е. групп респондентов, каким-нибудь образом схожих друг с другом (для всех членов одного кластера) в сравнении с респондентами, которые "принадлежат к" другим кластерам. Вместе с идентификацией таких кластеров, представляет интерес определение различий между этими кластерами, т.е. специфики переменных или измерений, которыми различаются члены кластеров, и как.

Кластеризация k-средними. Классический алгоритм кластеризации k-средними стал общеизвестным благодаря Hartigan`у (1975; см. также Hartigan и Wong, 1978). Основная операция этого алгоритма относительно проста: заданное фиксированное число (желательное или гипотетическое) k кластеров, наблюдения сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.

Расширения и обобщения.

Методы, представленные в модуле Обобщенные методы кластерного анализа , расширяют эти основные приближения кластеризации тремя важными методами:

1. Вместо того чтобы задавать соответствие наблюдений кластерам так, чтобы максимизировать разницу в средних для непрерывных переменных, алгоритм кластеризации EM (поиск максимума) вычисляет вероятности членства в кластере, основываясь на одном или более вероятностном распределении. Цель алгоритма кластеризации - максимизировать вероятность полного правдоподобия данных, задаваемых в (последних) кластерах.
2. В отличие от классической реализации алгоритма кластеризации k-средними в модуле Кластерный анализ, алгоритмы k-средних и EM в модуле Обобщенные методы кластерного анализа могут быть применены равно для непрерывных и категориальных переменных.
3. Основное отличие алгоритма кластеризации k-средними в том, что вы должны указать число кластеров перед началом анализа (то есть, число кластеров должно быть априори известно); модуль Обобщенные методы кластерного анализа использует измененную схему v-кратной кросс-проверки (схожую с реализованной в модулях Деревья классификации, Общие модели деревьев классификации и регрессии, и Общие CHAID) для определения наилучшего числа кластеров по данным. Это расширение делает модуль Обобщенные методы кластерного анализа весьма полезным инструментом добычи данных для неконтролируемого обучения и распознавания образов.

Полный обзор различных методов кластеризации, в контексте добычи данных представлен в Witten и Frank (2000). Имеются также разделы модуля: Нейронные сети,Самоорганизующаяся карта Кохонена (СОКК) или сети Кохонена; эти архитектуры нейронных сетей могут применяться для схожих типов проблем, таких как методы, описанные в этом разделе. Однако методы EM кластеризации и кластеризации k-средними реализованные в этом модуле обычно быстрее и легче масштабируются на очень большие множества данных и аналитических проблем.

Неконтролируемое обучение против Контролируемого обучения

Важное различие в машинном обучении, также применимое к добыче данных, между контролируемым и неконтролируемым алгоритмами обучения. Раздел "контролируемое" обучение обычно применим в случаях, где текущая классификация уже выяснена и сохранена в тестовой выборке, и вы хотите построить модель для прогнозирования этой классификации (в новой тестовой выборке). Например, у вас может быть множество данных, содержащее информацию о том, кто из списка клиентов, направленных на специальное поощрение примет или не примет это предложение; цель классификационного анализа - построить модель для прогнозирования того, кто (из различных списков потенциальных клиентов) вероятно, ответит на такое же (или схожее) предложение в будущем. Можно просмотреть также описание методов к разделам Общие модели деревьев классификации и регрессии (GCRT), Общие CHAID модели (GCHAID), Анализ дискриминантных функций и Общие модели дискриминантного анализа (GDA), и Нейронные сети (см. Справка к системе) для изучения различных методов, используемых для построения или подгонки моделей по данным, где наблюдаются итоговые переменные (например, клиент ответил или не ответил на предложение).

Самое читаемое за неделю
Введение ковидных паспортов в 2021 году
Должен знать каждый: Сильное повышение штрафов с 2021 года за нарушение ПДД
Введение продуктовых карточек для малоимущих в 2021 году
Доллар по 100 рублей в 2021 году
Новая льготная ипотека на частные дома в 2021 году
Продление льготной ипотеки до 1 июля 2021 года
35 банков обанкротятся в 2021 году

Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!

Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!

Эти методы называются алгоритмы контролируемого обучения, так как обучение (подгонка моделей) "управляется" или "контролируется" наблюденными классификациями, записанными в файле данных.

При неконтролируемом обучении ситуация другая. Здесь итоговые переменные непосредственно не наблюдаются (не могут наблюдаться) Взамен мы хотим выявить некоторую "структуру" или кластеры данных, которые заведомо не могут наблюдаться. Например, у вас может иметься база данных на клиентов с различными демографическими индикаторами и переменными, потенциально важными для поведения потребителя.

Ваша цель - найти сегменты рынка, то есть группы наблюдений, сравнительно похожих друг на друга по некоторым переменным; задав однажды, вы можете затем определять, насколько хорошо достигается один или несколько кластеров при предоставлении определенных товаров или услуг, которые, по вашему мнению, могут иметь особую полезность или индивидуальную привлекательность в сегменте (кластере). Такой тип заданий называется алгоритмом неконтролируемого обучения, так как обучение (подгонка моделей) в этом случае не может управляться уже известной классификацией. Только после определения известных кластеров вы сможете начать задавать метки, например, основываясь на последующих наблюдениях (например, после определения одной группы клиентов как "молодые опасные воры"). Другие методы (отличные от кластеризации k-средними или EM), которые попадут в категорию алгоритмов неконтролируемого обучения: Факторный анализ, Главные компоненты и результаты анализа классификаций, Многомерное шкалирование, Анализ соответствий, Нейронные сети - Самоорганизующаяся карта Кохонена (СОКК) и т.д.

Алгоритм k-средних

Классический алгоритм k-средних описан в деталях в разделе Кластерный анализ; полный вводный курс и обзор можно найти в Hartigan и Wong (1978). Для повторения, базовый алгоритм кластеризации k-средними достаточно прост: Дано заданное пользователем фиксированное число кластеров k, перемещайте наблюдения в кластере для максимизации расстояния между центрами кластеров; центры кластеров обычно определяются вектором средних значений для всех (непрерывных) переменных в анализе.

Кластеризация категориальных переменных. Модуль Кластерный анализ включает реализацию классического алгоритма k-средних, который типично применим только к непрерывным переменным. В модуле Обобщенные методы кластерного анализа вы можете задать категориальные переменные для анализа. Вместо определения центра кластера для текущего кластера и переменной с помощью среднего соответствующей (непрерывной) переменной (для наблюдения в том же кластере), для категориальной переменной определяется одиночный класс (значение категориальной переменной), которому принадлежит большинство наблюдений этого кластера. Например, если текущий кластер анализа, включающий переменную Пол, содержит больше (>50%) мужчин, тогда центральное значение для этого кластера будет установлено Мужской.

Мера расстояний. Реализация алгоритма k-средних в модуле Кластерный анализ всегда будет вычислять кластерное расстояние, базируясь на простом (квадратичном) евклидовом расстоянии между кластерными центр идами (вектор значений для непрерывных переменных в анализе). В модуле Обобщенные методы кластерного анализа, у вас есть выбор различных мер расстояний для использования в анализе: евклидово, Квадрат евклидова, Манхэттенское и Чебышева.

Эти различные меры расстояний всегда вычисляются из нормализованных расстояний; смотрите также Различия между алгоритмами k-средних в обобщенных методах кластерного анализа и кластерным анализом (ниже). Отметьте, что для категориальных переменных, все расстояния могут быть только 0 (ноль) или 1 (один): 0, если класс, которому принадлежит соответствующее наблюдение, принадлежит в тоже время к классу, в котором встречается лучшая частота соответствующего кластера (см. предыдущий параграф), и 1, если он отличает от такого класса. Следовательно, за исключением расстояния Чебышева, различные меры расстояния для категориальных переменных, доступные в программе, приведут к идентичным результатам.

EM алгоритм

Тест "На сколько вы активны"
документ

Тест "Подходит ли Вам ваше место работы"
документ

Тест "На сколько важны деньги в Вашей жизни"
документ

Тест "Есть ли у вас задатки лидера"
документ

Тест "Способны ли Вы решать проблемы"

Тест "Для начинающего миллионера"
документ

Тест который вас удивит
документ

Семейный тест "Какие вы родители"
документ

Тест "Определяем свой творческий потенциал"
документ

Психологический тест "Вы терпеливый человек?"

EM алгоритм кластеризации детально разобран в Witten и Frank (2001). Базовое приближение и логика этого кластерного метода в следующем: Пусть вы измеряете одиночную непрерывную переменную в большой выборке наблюдений. Дальше, предположите, что выборка состоит из двух кластеров наблюдений с различными средними (и возможно с различным стандартным отклонением); в рамках каждой выборки, распределение значений для непрерывной переменной соответствует нормальному распределению.

Смешение распределений. Рисунок показывает два нормальных распределения с различными средними и различным стандартным отклонением и сумму двух распределений. Только смесь (сумма) двух нормальных распределений (различными средними и различным стандартным отклонением) должна быть выведена. Цель EM кластеризации - вычислить средние и стандартное отклонение для каждого кластера, так что правдоподобие наблюдаемых данных (распределения) максимально. С другой стороны, EM алгоритм пытается приблизить наблюдаемые распределения значений, основываясь на смеси различных распределений в различных кластерах.

Реализация EM алгоритма в модуле Обобщенные методы кластерного анализа позволяет вам выбирать (для непрерывных переменных) распределение: Нормальное, Логнормальное, и Пуассоновское. Вы можете выбрать различные распределения для различных переменных, и, таким образом, получить кластеры для смеси различных типов распределений.

Категориальные переменные. Реализация EM алгоритма в также может обрабатывать категориальные переменные. Программа сперва случайно задаст различные вероятности (точнее, веса) для каждого класса или категории каждого кластера; в последующих итерациях эти вероятности улучшаются (подгоняются) к максимальному правдоподобию данных, давая указанное число кластеров.

Классификационные вероятности вместо классификаций. Результаты EM кластеризации отличаются от таких же, вычисленных методом кластеризации k-средних: Позднее будут заданы наблюдения кластеров для максимизации расстояния между кластерами. EM алгоритм не вычисляет фактического назначения наблюдений кластерам, но вычисляет вероятности классификации. Другими словами, каждое наблюдение принадлежит каждому кластеру с определенной вероятностью.

Поиск верного числа кластеров: V-кратная кросс-проверка

Методы кластеризации, доступные в модуле Обобщенные методы кластерного анализа, специально оптимизированы и усовершенствованы для типичных приложений в добыче данных. Основное сравнение добычи данных - ситуация аналитического поиска полезных структур и "самородков" в данных, обычно безаприори устойчивых ожиданий того, что можно найти (контраст с гипотетически-тестовым приближением научного исследования). На практике аналитик обычно не знает наперед, сколько кластеров может быть в выборке. По этой причине, программа включает реализацию алгоритма V-кратной кросс-проверки для автоматического определения числа кластеров по данным.

Этот уникальный алгоритм весьма полезен во всех основных задачах "обучения распознавания". Для определения числа сегментов рынка в маркетинговых исследованиях, числа моделей индивидуальных затрат на изучение потребительского поведения, числа кластеров различных медицинских симптомов, числа различных типов (кластеров) документов в текстовой добыче, числа погодных моделей в метеорологических исследованиях, числа моделей отбраковки кремниевых вафель и т.д.

Алгоритм v-кратной кросс-проверки в приложении к кластеризации. Алгоритм v-кратной кросс-проверки детально описывается в контексте модулей Деревья классификации, Общие модели деревьев классификации и регрессии (GCRT), и Общие CHAID (см. Справка к системе ). Основная идея этого метода - разделить выборку на v частей или случайно вытащить (нарушив структуру) под выборки. Затем несколько типов анализов последовательно наложатся на наблюдения, принадлежащие к v-1 частям (обучающая выборка) и результаты анализов наложатся на выборку v (выборка или часть, не использующаяся при вычислении параметров, построения дерева, определения кластеров, и т.д.; то есть это - тестовая выборка) для вычисления индексов предсказательной точности. Результаты для v ответов собраны (усреднены) для одиночной выборки стабильности соответствующей модели, то есть обоснованности модели для прогнозирования нового наблюдения.

Как упомянуто ранее, кластерный анализ - метод неконтролируемого обучения, и мы не можем наблюдать (реальное) число кластеров по данным. Однако разумно заменить понятие (применимое к контролируемому обучению) "соответствие" на "расстояние": В общем, мы можем использовать метод V-кратной кросс-проверки для упорядочивания чисел кластеров, и наблюдать результаты среднего расстояния от наблюдений (в кросс-проверке тестовых выборок) до центров их кластеров (для кластеризации k-средними); для EM кластеризации, подходящим эквивалентом меры может стать среднее значение отрицательного (лог -) правдоподобия, вычисленного для наблюдений в тестовой выборке.

Здесь показаны результаты анализа множества широко известных данных, содержащих три кластера наблюдений (особенно, популярен файл данных Iris (Ирис) описанный Fisher, 1936, на который много ссылаются в литературе по дискриминантному анализу). Также показаны (в правом верхнем углу графика) результаты анализа нормально распределённых случайных чисел. "Реальные" данные (показанные слева) выражают характеристики шаблона график осыпи, где функция стоимости (в этом наблюдении, 2 раза лог-правдоподобие кросс-проверки данных дают вычисляемые параметры) быстро снижается, в то время как число кластеров растет, но затем (после 3 кластеров) выравнивается, и даже растет, пока данные пере подгоняются. С другой стороны, случайные числа показывают, что такой схемы не должно быть, на самом деле, существенного понижения функция стоимости вовсе нет, она быстро начинает расти вместе с ростом числа кластеров и процессом пере подгонки.

По этому рисунку легко видеть, насколько полезна схема v-кратной кросс-проверки, применимо к кластеризации k-средними и EM кластеризации при определении "верного" числа кластеров данных.

Реализация методов кластеризации в модуле Обобщенные методы кластерного анализа сильно расширяема, и эти методы могут быть использована даже для очень большого множества данных.