Мы показали, что задача построения кластеров не имеет однозначного решения. Из одной матрицы исходных наблюдений можно построить много вариантов разбиения анализируемых потребителей на кластеры. Выделенный набор кластеров служит основой для построения сегментной структуры рынка. Но созданные кластеры можно считать сегментами только после того, как кластеры подвергнуты анализу, и аналитик принял решение о том, что кластер можно рассматривать как сегмент.
Аналитик должен определить для каждого выделенного кластера его смысл в терминах анализируемых переменных сегментирования. Для этого необходимо установить, в чем состоит общность свойств потребителей из каждого выделенного кластера.
Но прежде всего аналитик должен убедиться, что выделенный кластер действительно содержит потребителей со схожими маркетинговыми свойствами. Создаваемые кластеры в понимании аналитика могут быть как «плохими», так и «хорошими». Однако это субъективные суждения. Для получения более строгих оценок качества выделяемых кластеров следует прибегнуть к формальным методам анализа кластеров.
Прежде чем будет принято решение о том, что выделенный кластер следует рассматривать как сегмент, необходимо выполнить «анализ кластера как совокупности схожих объектов». Для этого необходимо оценить математические параметры этой совокупности объектов.
Основное внимание должно быть уделено проверке схожести объектов, включенных в кластер. Анализ проводится с привлечением математических оценок кластеров. Обычно в основе расчета этих оценок лежат меры близости изучаемых объектов. Формальное определение параметров для описания кластеров мы дали в пункте «Параметры выделяемых кластеров». Заметим, что вопросы оценки экономических и маркетинговых параметров кластеров здесь мы не будем обсуждать.
Традиционно математические параметры кластеров рассчитываются на основе мер близости объектов друг к другу, близости объекта к центрам формируемых кластеров и т. д. Указанные оценки автоматически вычисляются при выполнении алгоритма кластеризации.
Следует сказать, что судить о том, пересекаются кластеры или нет, можно только в пределах принятого соглашения о параметре, которым измеряется кластер. Например, радиус кластера и его разброс (среднеквадратичное отклонение) могут иметь различные значения. Поэтому может возникнуть ситуация, когда кластеры по значению своих радиусов будут пересекаться, а по значению разброса — нет. Например, рассматриваемый объект в результате процесса кластеризации был отнесен к третьему сегменту. Однако по значению расстояния от этого объекта до сегментов видно, что он находится в радиусе действия сразу двух сегментов — первого и третьего. Так, расстояние от данного объекта до первого сегмента (0,476) меньше радиуса этого сегмента (0,656). Также и расстояние от объекта до третьего сегмента (0,308) меньше радиуса третьего сегмента (0,326). Поэтому если в качестве критерия размера кластера брать его радиус, то принадлежность объекта Consumer 019 первому или третьему кластеру находится под вопросом. Другими словами, первый и третий кластеры перекрываются, а объект Consumer 019 является спорным для этих кластеров. Однако если в качестве критерия размера кластеров брать среднеквадратичное отклонение (средний разброс) объектов в кластере, то объект Consumer 019 нельзя считать спорным (принадлежащим двум кластерам), и соответственно первый и третий кластеры нельзя считать перекрывающимися.
Для изучения структуры кластеров как совокупности точек, удаленных от центра кластеров, полезно выполнить статистический анализ удаленности объектов от центра кластера. Для этого необходимо построить распределение расстояния объектов от центра кластер.
При изучении качества группировки потребителей в кластере могут быть привлечены значения отдельных переменных сегментирования. Для анализа распределений переменной в кластерах (сегментах) привлекают классические параметры распределений — среднее, дисперсия, размах и т. д.
Дисперсионный анализ сегментов
Применение методов кластеризации к сегментированию основано на следующих двух предположениях:
Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!
Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!
Во-первых, считается, что по значениям переменных, которыми описываются свойства потребителей, можно выделить группы схожих потребителей. Эта гипотеза лежит в основе применения кластерных методов.
Во-вторых, считается, что на выделяемой группе (сегменте) можно достигнуть лучших маркетинговых результатов по продвижению продукции.
Маркетинговый результат оценивается по достигаемому уровню значений переменной сегментирования. Полагают, что показатель примет лучшее значение на сегменте, чем на группе такого же объема, но в которую потребители были бы включены произвольно, без учета мер близости друг к другу (случайная выборка).
Статистически обосновать указанные предположения можно с помощью однофакторного дисперсионного анализа.
Проверка результата кластеризации
Рассмотрим технологию проверки статистической значимости проведенной кластеризации. Результатом кластеризации являются группы схожих потребителей (кластеры). Различие между кластерами может быть оценено по отклонениям в средних значениях анализируемой переменной, которая участвовала в кластеризации. Оценка среднего для кластера вычисляется по всем потребителям, включенным в кластер.
Проверка различий между кластерами сводится к построению статистически обоснованного вывода об отклонениях между величинами средних значений по кластерам.
Можно предположить, что различия в оценках средних значений по каждому кластеру велики, так как метод кластеризации стремится выделить кластеры с максимальным отклонением средних. Однако эти отличия можно наблюдать не для всех переменных, участвующих в кластеризации. Вклад некоторых переменных в достижение различий между кластерами может быть незначительным. Поэтому при построении кластерной структуры целесообразно выделить набор переменных, которые оказывают заметное влияние на результаты кластеризации.
Итак, построим модель однофакторного дисперсионного анализа.
Для того чтобы не загромождать текст математическими выкладками, объясняющими основы дисперсионного анализа, мы отсылаем читателя к учебникам элементарной статистики и справочной литературы. Здесь же мы покажем схему применения этого метода к обсуждаемой проблеме.
Предположим, что в результате кластеризации было выделено несколько кластеров (сегментов).
Подвергнем изучению только одну переменную, по которой требуется оценить схожесть выделенных кластеров. Для каждого потребителя известно значение этой переменной.
Построим матрицу наблюдений для данного метода анализа. (Ее не следует путать с матрицей исходных данных, обрабатываемых алгоритмами кластеризации). Построенную матрицу будем исследовать методом однофакторного дисперсионного анализа. Пусть столбцы матрицы соответствуют кластерам (сегментам), а строки наблюдениям. Первоначально заполним первую строку матрицы. Наблюдения будем проводить следующим образом. Выберем из каждого кластера по одному потребителю. Для каждого выбранного потребителя выделим значение анализируемого параметра. Поместим это значение в формируемую матрицу, в столбец, соответствующий сегменту, из которого был выбран рассматриваемый потребитель.
Во вторую строку поместим значения оцениваемой переменной для следующих потребителей, выбираемых из сегментов. Выбор потребителей из сегментов проводим «без возврата», т. е. каждый потребитель рассматривается только единожды.
В том случае, когда из какого-либо сегмента выбраны все потребители, формируемый элемент столбца, который соответствует сегменту, оставляем пустым. Но заполнение строки матрицы продолжается по другим непустым сегментам.
Заполнение строк матрицы наблюдений продолжаем до тех пор, пока все потребители из всех сегментов не будут выбраны.
Для оценки результатов кластеризации при изучении выбранной переменной выполняется проверка «нулевой гипотезы» о том, что кластеры не отличаются друг от друга, т. е. средние значения переменной, вычисленные по кластерам, равны. В результате дисперсионного анализа мы должны либо принять эту гипотезу, либо опровергнуть ее.
Если гипотеза о «схожести» кластеров подтверждается, это означает, что в исследуемом множестве данных не обнаруживается кластерная структура и разбиение на кластеры по исследуемой переменной незначимо. Если же в результате дисперсионного анализа мы получим, что кластеры различаются, то этот результат подтвердит правильность нашего кластерного решения и обоснованность выбора переменной как анализируемого свойства при кластеризации потребителей. Проиллюстрируем выполнение проверки гипотезы о значимости различий в сегментах по одной переменной.
Предположим, мы разбили совокупность потребителей на кластеры. Проверим значимость найденных кластеров с помощью модели однофакторного дисперсионного анализа. Выберем переменную, по которой будем оценивать кластеры по их значимости, например «Бакалея».
Полная сумма квадратов и число степеней свободы определяются как суммы соответствующих величин внутри и между группами.
Для проверки нулевой гипотезы (о равенстве средних значений переменной по сегментам) вычислено значение F-статистики. Это значение необходимо сравнить с критическим значением F. Если значение F-статистики больше критического, то нулевая гипотеза о равенстве кластеров отвергается и делается вывод о статистически значимом влиянии анализируемой переменной на результаты выделения сегментов. Если значение F-статистики меньше критического, то нулевая гипотеза о равенстве сегментов принимается и делается вывод о незначительном влиянии переменной на выделение сегментов.
Проверка значимости экономических результатов на сегментах
Выше мы рассмотрели метод оценки различий между выделенными кластерами для переменных, по которым проводилась кластеризация. Точно такая же модель может быть применена и для определения статистической значимости экономического результата на выделяемых сегментах.
В отличие от классических подходов к анализу результатов кластеризации при сегментировании достигаемые результаты могут быть оценены не только значениями средних, дисперсии и т. д., которые вычисляются на группах потребителей, но и с помощью экономических показателей. Экономический показатель используется для расчета потенциала сегментов. Например, в качестве переменных сегментирования можно использовать свойства восприятия товаров и поведения потребителей, а в качестве экономического показателя можно применить, например, оценку денежных средств, которые может потратить потребитель на приобретение того или иного товара.
При оценке экономического параметра сегмента делается предположение о существовании зависимости экономического показателя от значения переменных, участвующих в кластеризации. Однако на практике достаточно сложно построить функциональную зависимость между переменными кластеризации и экономическим параметром потребителей. Поэтому для вычисления оценки сегментов проще воспользоваться значениями экономического показателя потребителей. Для этого следует предположить, что у потребителей из отдельных сегментов можно наблюдать значимые различия в величинах экономического показателя. Данное предположение может быть применено только после статистической проверки. Такая проверка необходима, так как на практике можно наблюдать ситуации, когда выделенные кластеры по переменным кластеризации различны между собой, а оценки экономического показателя потребителей из различных кластеров мало чем отличаются. Тогда модель однофакторного дисперсионного анализа строится для изучаемого экономического показателя. Заметим, что данный показатель как переменная сегментирования может и не участвовать в кластеризации.
Итак, мы рассмотрели технологию, с помощью которой можно убедиться, что выделенные кластеры (сегменты) представляют собой отличающиеся друг от друга группы потребителей. Кроме того, эта процедура позволяет понять, по каким переменным сегментирования можно наблюдать статистически значимое различие при анализе сегментов.
Анализ перекрытий сегментов
Пожалуй, можно без дополнительных оговорок утверждать, что главный темой изучения результатов кластеризации является анализ перекрытий кластеров/сегментов.
Причина появления перекрытий объясняется существующей неопределенностью, которую приходится преодолевать при кластеризации, когда следует выбрать кластер (сегмент) для изучаемого потребителя. Мы уже говорили, что для конкретного объекта могут быть определены расстояния от него до центров выделяемых кластеров. При этом сами кластеры как совокупности объектов оцениваются радиусами или значением среднего квадратичного отклонения объектов от центра кластера.
При кластеризации объект может быть включен только в один из кластеров, хотя он может находиться в пределах окружностей, построенных для нескольких кластеров.
Кластер для изучаемого объекта может быть найден по критерию, например, математической близости. Можно предположить, что альтернативный вариант размещения может быть установлен по критериям другой природы (по значению переменной, интерпретирующего критерия, экономического критерия и др.), и это размещение объекта может оказаться «лучше» в маркетинговом смысле. Пример такого улучшения кластеров мы покажем в пункте «Сжатие и интерпретация», в котором будет обсуждаться применение факторного анализа в технологии кластеризации.
Пример перекрытия наблюдается в различных видах. Так, перекрытие можно увидеть в трехмерном пространстве, где цветными точками изображаются потребители.
Можно сказать, что перекрытие кластеров — относительное понятие. Это означает, что перекрытие кластеров можно наблюдать только при некоторых выбранных переменных, ограничивающих пространство анализа.
Частотный анализ перекрытий сегментов
Для изучения перекрытий кластеров могут быть использованы статистические распределения объектов по кластерам. Анализ перекрывающихся участков распределений показывает частотную структуру этих перекрытий.
Совмещение распределений позволяет наблюдать перекрытия кластеров и оценить частоту значений переменной, по которым перекрываются кластеры. Заметим, что совместное изучение распределений переменной весьма близко к исследованию профилей сегментов (смотрите пункт «Профили сегментов»).
Качественный анализ перекрытий сегментов
При анализе экономических свойств сегментов изучению могут быть подвергнуты «экономические» параметры, которые оценивают потребителей, но которые не были использованы в кластеризации для распета мер близости.
Заметим, что для визуализации перекрытий сегментов по значению качественных показателей (экономических показателей) могут быть применены профили сегментов, которые мы будем рассматривать в пункте «Профили сегментов».
Борьба с перекрытиями сегментов
Обычно аналитик, который занимается кластеризацией в рамках общей проблемы сегментирования потребителей, не ограничивается только поиском кластеров в строго математическом смысле. Его задача шире. Ему необходимо выделить сегменты существующих или потенциальных покупателей. Поэтому после выполнения процедуры автоматической кластеризации аналитик может прибегнуть к перераспределению объектов между найденными кластерами.
Цель такого корректирующего перераспределения объектов состоит в нахождении таких кластеров, семантика которых могла бы быть интерпретирована в хорошо известных для аналитика терминах. Обычно хорошо известный аналитику потребитель переносится в тот кластер, экономический смысл которого соответствует знанию аналитика о рассматриваемом потребителе. Можно сказать, что через определение кластеров для хорошо известных потребителей аналитик выражает свое понимание рынка, а алгоритм кластеризации «учитывает» эти экспертные сведения и неопознанные объекты разносит по группам, формирование которых начато самим аналитиком.
Решая задачу сегментирования, аналитик может нарушить строгость математических мер близости во имя достижения конечной цели — выделения семантически значимых сегментов потребителей.
Чтобы избавится от перекрытий, аналитику следует прибегнуть к изучению причин их появления. Для этого полезно анализировать влияние отдельных переменных сегментирования. Для поддержки этого рода анализа могут быть применены диаграммы распределений объектов по кластерам. Этот анализ может быть проведен и с помощью профилей сегментов (смотрите пункт «Профили сегментов»).
Добиться лучшей группировки потребителей по сегментам и даже уменьшить перекрытие сегментов можно изменением степени воздействия переменных сегментирования на вычисляемые меры близости. Такое «управление» переменными сегментирования может быть выполнено через коэффициенты важности (вклады) переменных. Значения коэффициентов важности для переменных сегментирования обычно назначаются экспертным способом (смотрите пункт «Взвешивание переменных сегментирования»).
Полезно также для «борьбы» с перекрытиями применить факторный анализ для «сжатия информации», обработка которой методами кластеризации позволяет получить более плотные кластеры, которые, с большой вероятностью, могут и не перекрываться (смотрите пункт «Сжатие и интерпретация»).