Основу сегментирования составляет разбиение потребителей на осмысленные группы, которые принято называть «сегментами». Существует огромное множество подходов к классификации объектов. Среди существующих методов достойное место занимает кластеризация как совокупность методов и технологий выделения однородных групп объектов и объяснения полученных результатов. Бурное развитие методов кластеризации было продиктовано задачами изучения разнообразных объектов, описываемых множеством параметров.
Ниже мы рассматриваем основные положения кластерного анализа. Этот обзор поможет читателю сориентироваться среди многочисленных понятий, методов и алгоритмов, связанных с идеей применения кластеризации в процессах сегментирования потребителей.
В основе этого обсуждения лежат меры сходства — понятия, которые являются отправной точкой любого метода кластеризации. Без понимания этого термина невозможно переходить к обсуждению технических проблем сегментации. Затем описываются различные процедуры определения кластеров и их применимости для построения сегментов.
Данная статья должна помочь читателю получить представление о проблемах кластеризации, решаемых в области сегментирования потребителей.
Мы надеемся, что используя основные теоретические положения данной главы, читатель сможет более свободно ориентироваться в логике обсуждаемой технологии сегментирования.
В настоящее время существует огромное число программных продуктов для поддержки кластерного анализа. Большинство известных статистических программ предназначено для решения различных научных и практических задач кластеризации, возникающих во всевозможных областях знаний. Безусловно, что эти программы могут быть использованы и для выделения кластеров потребителей. Выделяемые кластеры затем могут быть интерпретированы как сегменты. Однако технология сегментирования накладывает специальные требования на общую технологию выделения групп схожих потребителей (сегментов, а не просто кластеров). Поэтому представляется важным создание специализированного программного продукта для решения задач сегментирования, а не вообще задач кластеризации.
Термин «кластерный анализ» обозначает множество вычислительных процедур, используемых при классификации объектов. В результате применения классифицирующих процедур создаются «кластеры», или группы очень похожих объектов. Здесь мы обращаем внимание читателя на то, что группа схожих объектов именуется «кластером», а не «сегментом». Кластер будем рассматривать как сегмент, если он удовлетворяет требованиям системного подхода, которые мы обсуждали в пункте «Свойства сегментов».
Методы кластерного анализа предусматривают подготовку данных об изучаемых объектах и представление этих объектов в виде однородных групп. Целесообразность применения кластерного анализа к проблемам сегментирования обусловлена тем, что его вычислительные процедуры позволяют классифицировать потребителей по группам. Эта классификация потребителей является надежной основой понимания рынка и позволяет разрабатывать эффективные маркетинговые технологии продвижения продукции для выделяемых групп потребителей.
Огромное разнообразие алгоритмов кластерного анализа не позволяет нам привести исчерпывающий перечень этих методов. Поэтому мы акцентируем внимание читателя на основных классических понятиях, используемых в большинстве процедур кластеризации, которые можно встретить в литературе по маркетинговым исследованиям. Заметим, что ряд авторов отождествляют понятия «кластеризация» и «сегментирование», что может привести к искажению сути технологии сегментирования.
Общая идея применения кластерного анализа в рамках решения проблем сегментирования сводится к решению следующих задач:
Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!
Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!
• классификация потребителей;
• разработка различных схем кластеризации;
• создание гипотез о существовании в исследуемой совокупности потребителей однородных групп;
• проверка гипотез о наличии однородных групп в исследуемых совокупностях потребителей.
Логика сегментирования предполагает комплексное (одновременное) решение всех четырех задач кластеризации. Аналитик, применяющий кластерный анализ к изучению потребителей, должен понимать, что ему предстоит в той или иной степени получить результаты по каждой из вышеназванных задач, а затем применить эти результаты к определению сегментной структуры. В дальнейшем мы покажем, как это может быть сделано в рамках обсуждаемого метода сегментирования.
Общая логика кластерного анализа предполагает выполнение следующих шагов:
• подготовка данных для кластеризации;
• определение множества свойств, по которым будут оцениваться объекты;
• вычисление меры сходства между объектами;
• применение кластерного анализа для создания групп сходных объектов;
• проверка достоверности результатов кластерного решения.
При обсуждении основных этапов кластерного анализа необходимо сделать о нем несколько замечаний общего характера.
Методы кластерного анализа представляют в большинстве своем эвристические процедуры. Это означает, что общая задача выделения однородных групп из исследуемой совокупности объектов представляет собой сложную вычислительную процедуру, время выполнения которой экспоненциально увеличивается в зависимости от количества классифицируемых объектов. Эвристические правила, используемые для решения этой задачи, позволяют снизить затраты времени на поиск однородных групп. При этом очевидно, что получаемые группы не являются оптимальными в точном математическом смысле. Методы, обеспечивающие получение приемлемого решения, называются эвристическими. В ряде случаев эти методы имеют достаточно простую реализацию, а получаемые результаты отвечают требованиям практики. Но в отличие от классических методов многомерной статистики, таких как, например, факторный анализ, процедуры кластерного анализа не имеют достаточного статистического обоснования. Поэтому, применяя процедуры кластерного анализа в сегментировании, аналитик в большей степени должен полагаться на свои собственные исследования и проверку целесообразности выделения получаемых кластеров как основы для построения сегментов.
Процедура оценки выделяемых кластеров как прототипов сегментов может проводиться в два этапа.
На первом этапе проводится математическое изучение получаемых кластеров как однородных групп объектов. Здесь следует применять математические критерии оценки однородности кластеров. Данные критерии позволяют убедиться в эффективности применяемой меры сходства, используемой в эвристической процедуре. Когда будет установлено, что выделенный кластер является достаточно однородным и его размер соответствует практическим требованиям, которые предъявляются к сегментам, тогда можно переходить ко второму этапу.
На втором этапе анализируются выделенные однородные группы как целевые сегменты. Дается интерпретация экономического смысла выделяемых групп схожих потребителей. А также оценивается экономический потенциал выделяемой группы как сегмента для продвижения продукции.
Итак, многочисленные методы кластерного анализа создавались для различных целей научных исследований. Поэтому они унаследовали особенности этих дисциплин. В силу этого многие универсальные пакеты статистического анализа используют приемы (например, дендограммы), применение которых оправдано тем, что они помогают решить конкретные научные задачи, например в области биологии, химии, психологии. Однако при использовании этих же процедур для решения задач сегментирования аналитик может получить дополнительные проблемы по осмыслению и интерпретации получаемых кластерных решений. Применение универсальных программных пакетов становится достаточно сложным и малоэффективным делом для применения в маркетинговых исследованиях конкретной прикладной области. В частности, метод дендограмм позволяет получить избыточное число вариантов построения кластеров. Осмысление аналитиком этих вариантов как сегментов может потребовать от него чрезвычайно много усилий, что практически делает этот метод неприменимым к сегментированию в смысле инструмента изучения кластера как сегмента и его экономического потенциала. Однако нельзя также и отрицать полезность дендограмм как способа всестороннего изучения предметной области. Этот метод может быть применен для изучения возможностей построения кластеров на изучаемой совокупности потребителей, например при обработке результатов исследования фокус-группы (число объектов измеряется десятками) и подготовке гипотезы о числе выделяемых кластеров.
Основная цель кластерного анализа состоит в поиске однородных групп среди непознанных потребителей. Это означает, что кластерный анализ позволяет помочь аналитику понять и выделить сегментную структуру. В этом состоит отличие метода кластеризации от методов классификации, которые используют знание о группах объектов, например дискриминантный анализ.
В практике сегментирования аналитик чаще всего априори знает или предполагает, что исследуемая совокупность потребителей имеет конкретное количество сегментов. На вход процедуры кластеризации подается число, указывающее количество групп, на которые должна быть разбита исходная совокупность потребителей. Именно существование гипотезы о количестве выделяемых сегментов отличает применение кластерного анализа к сегментированию потребителей в рассматриваемом подходе. В терминах кластерного анализа можно сказать, что здесь следует применять так называемые Kmeans — алгоритмы кластеризации.
Важно отметить еще одну особенность применения кластерного анализа в сегментировании. Кластерный метод призван выделять группы из исходного множества объектов. Результатом его применения всегда является некоторый набор групп объектов. Однако получаемое разбиение может и не соответствовать гипотезе аналитика о существовании «реальной» сегментной структуры. Поэтому при применении кластерного анализа аналитик вынужден проводить многочисленные эксперименты, позволяющие совместить его представление о реальной структуре рынка с конкретными вычисляемыми результатами. Выделяемые реальные группы объектов позволяют аналитику убедиться в правильности своих представлений о сегментной структуре рынка.
Описание численного примера по сегментированию
Изложение основ кластерного анализа и объяснение методов, привлекаемых для изучения маркетинговых свойств выделяемых сегментов, мы будем сопровождать иллюстративными материалами. Приводимые иллюстрации получены при решении ниже приводимого практического примера с помощью программы «КонСи-Сегментирование и рынки». Мы проанализируем построенные сегменты в трехмерном пространстве переменных и факторов, а также диаграммы и графики. Мы надеемся, что читатель сможет выйти в Интернет и посмотреть цветные иллюстрации, ссылки на которые приведены в надписях к рисункам.
Итак, в качестве примера будем рассматривать результаты следующего маркетингового исследования, выполненного по заказу фирмы, торгующей продуктами питания. Фирма расположена в крупном промышленном городе — областном центре. Для соблюдения конфиденциальности маркетинговой информации мы не приводим названия самой фирмы, заказавшей исследование, а также названия ее клиентов. Однако всю числовую информацию о продуктах, закупках и выделяемых сегментах мы приводим в полном объеме.
Рассматриваемая фирма специализируется на торговле продуктами питания. Ее клиентами являются торговые предприятия самых различных форм собственности и размеров. Среди клиентов можно встретить и крупные продовольственные магазины, и фирмы, владеющие сетью мелких магазинов, и владельцев небольших торговых точек. Также клиентами фирмы являются столовые крупных промышленных предприятий и государственных учреждений. Большая часть клиентов находится в пределах города. Также среди ее клиентов есть и такие, которые расположены в сельской местности, в пригородах и в районных центрах области.
Изучаемая фирма продает продукты питания по следующим товарным группам:
• рыба и рыбные полуфабрикаты;
• мясные полуфабрикаты;
• пельмени;
• колбасные изделия;
• бакалея;
• кондитерские изделия;
• йогурты.
Фирма стремится к расширению ассортимента и разнообразию ценовых предложений в пределах каждой товарной группы. В пределах одной товарной группы были представлены товары различных производителей. Безусловно, что товары различаются по качеству, фасовке, известности, цене.
В течение года, предшествующего проводимым исследованиям, фирма удерживала в городе положение крупного оптового продавца продуктов питания. Однако у руководства фирмы возникли серьезные опасения по поводу снижения объемов закупок рядом клиентов по отдельным товарным группам. Ухудшение позиций фирмы на рынке руководство фирмы объясняло по-разному.
Безусловно, наблюдались активные действия конкурентов, которые старались максимально восполнить любые потребности клиентов.
За последнее время несколько крупных оптовых фирм значительно увеличили свой ассортимент с одновременным снижением цен. Это привело к потере некоторых клиентов.
Ряд покупателей фирмы изменили организацию торговли и выбрали специализацию на отдельных товарных группах. Поэтому они перестали покупать товары по одним товарным группам, но увеличили объемы закупок по новым товарам.
Многие владельцы магазинов стали самостоятельно искать поставщиков и привозить для себя продукцию.
Выделились производители отдельных видов продукции высокого качества, которые стали снижать цены на свою продукцию. Конечные потребители стали меньше покупать товары, которые фирма традиционно предлагала своим клиентам, закупая их у известных производителей.
Итак, можно было наблюдать множество линий поведения клиентуры. Однако общего стратегического понимания обстановки у руководства фирмы не было.
При разработке мер противодействия конкурентам и укрепления позиций фирмы на рынке руководство решило провести изучение своей клиентуры. В результате этого исследования руководство фирмы хотело получить представление о свойствах клиентуры, ее ориентирах на конечного покупателя, ценовых приоритетах.
Для проведения полномасштабного анкетирования клиентуры у фирмы не было достаточно средств и времени. Кроме того, ряд клиентов отрицательно относился к любым интервью, в которых обсуждались детали их бизнеса. Обычно можно было получить ответ лишь о примерной доле товаров фирмы в объеме реализуемой продукции.
Было принято решение воспользоваться накопленными данными о продажах за прошедший год. Для этого у фирмы было все необходимое. Торговый процесс поддерживался с помощью программных продуктов фирмы 1C. В складской базе данных содержались сведения обо всех клиентах, информация о купленных товарах с указанием цен, количества. Было известно время совершения продаж. В штате фирмы был программист, который смог быстро извлечь требуемую для анализа информацию и представить ее в виде таблицы Excel. Другими словами, в качестве источника информации для изучения клиентуры была выбрана технология marketing data mining.
Теперь рассмотрим важнейший вопрос проводимого исследования — «Что следует выбрать в качестве переменных сегментирования?».
В качестве значений переменных сегментирования был выбран показатель — относительный уровень товарооборота по одной товарной группе.
Таким образом, по каждому клиенту были вычислены семь показателей относительного уровня товарооборота по каждой из семи товарных групп.
При укрупненном анализе мотивов поведения покупателей данный показатель позволяет судить о деловой активности покупателя, его интересе к товарам фирмы. А сопоставление значений этого показателя для товарных групп по отдельным клиентам позволяет определить группы клиентов со схожим отношением к товарным предложениям фирмы, а также определить их схожие товарные ориентиры.
Конечно, для проведения комплексного исследования деловой активности клиентов были привлечены и иные показатели, но в данный момент мы о них умалчиваем и вернемся к их обсуждению ниже, когда будем обсуждать методы изучения маркетинговых свойств выделенных сегментов.
Итак, мы показали, какая задача может быть решена методами сегментирования, и как для ее решения могут быть подготовлены исходные данные. Дальнейшее объяснение методов сегментирования будем сопровождать иллюстрациями, которые построены на материалах данного примера.
Меры сходства
Основная цель применения кластерного анализа в сегментировании состоит в выделении однородных групп потребителей со схожими свойствами. Разделение потребителей на группы возможно только тогда, когда потребители обнаруживают между собой сходство или различие. Но само сходство потребителей может быть достигнуто только тогда, когда это сходство может быть оценено. Для изучения сходства в кластерном анализе вводят меры сходства.
Понятие меры сходства является математическим способом определения близости друг к другу различных объектов. Меры сходства разнообразны. Мы не будем углубляться в математические тонкости обоснований различных мер сходства. Для понимания сути процедур кластеризации достаточно привести несколько мер сходства.
Итак, для численного измерения сходства требуется введение числовой меры. Для построения меры сходства удобно воспользоваться геометрическими построениями.
Геометрическое представление потребителей
Представим отдельные объекты в виде точек в координатном пространстве трех переменных, которыми описываются свойства потребителей. Сходство и различие между потребителями устанавливаются в соответствии с метрическими расстояниями между точками, которые представляют изучаемых потребителей.
Нормирование значений переменных
При подготовке данных для кластеризации необходимо решить так называемую проблему нормирования значений переменных, которыми описываются свойства изучаемых потребителей. Смысл нормирования состоит в приведении численных значений выбранных переменных к одному масштабу.
Целесообразность нормирования значений переменных можно показать на следующем примере. Пусть одна переменная имеет диапазон изменений от 0 до 5, и пусть эта переменная отражает балльные значения. Другая переменная оценивает количественные параметры, измеряемые в тысячах рублей. При построении меры сходства влияние значений этих переменных на получаемую меру будет, очевидно, различным. Поэтому целесообразно выполнить нормирование по каждой переменной.
Меры сходства
Наибольшее распространение в процедурах кластерного анализа получили меры сходства, построенные на мерах расстояния и коэффициентах корреляции. Эти два типа меры, как правило, в полном объеме удовлетворяют запросам аналитика по описанию схожести потребителей, которых следует разделить на сегменты. Более тонкие меры сходства вызывают у аналитика сложности в изучении их возможностей применения.
Меры расстояния. Меры расстояния измеряют удаление одних объектов от других или одного скопления точек от другого. Меры расстояния зависят от выбора шкалы, которая определяет масштаб измерений.
В традиционных подходах кластеризации объектов обычно возникают сложности в использовании коэффициентов корреляции в качестве мер сходства, когда переменные принадлежат различным шкалам. В пункте «Шкалирование данных» мы показываем технику приведения значений переменных к одному типу шкал. В этом случае не возникают какие-либо сложности с применением коэффициентов важности в мерах сходства. Это позволяет учесть роль отдельных переменных для построения оценок сегментов.
Коэффициенты корреляции обычно оценивают форму получаемых скоплений однородных потребителей. Это объясняется тем, что этот коэффициент не чувствителен к различиям в величине переменных. Одним из главных недостатков коэффициента корреляции как меры сходства является то, что он чувствителен к форме за счет снижения чувствительности к величине переменных. Поэтому обычно коэффициенты корреляции целесообразно применять, когда облака скоплений однородных объектов принимают округлую форму и значения переменных имеют близкие абсолютные значения. Но после нормирования и приведения шкал к одному виду влияние этого свойства коэффициентов корреляции сводится к минимуму.
Взвешивание переменных сегментирования
Мера сходства, вычисленная с помощью евклидовой и других метрик, сильно зависит от различий в диапазонах значений переменных. Это означает, что переменные, у которых одновременно велики абсолютные значения и среднеквадратичные отклонения, могут подавить влияние переменных с меньшими размерами и стандартными отклонениями. Эти недостатки могут быть устранены путем взвешивания переменных.
При кластеризации, выполняемой в рамках сегментирования, целесообразно проводить предварительное взвешивание отдельных переменных. Взвешивание определяется как манипулирование значением переменной для отражения большей или меньшей роли переменной при измерении сходства между объектами. В общем случае вклад переменной в меру сходства может принимать произвольные значения.
Целесообразность такого взвешивания переменных сегментирования определяется желанием аналитика построить более плотные облака точек, которые представляют потребителей. Веса с большим значением присваиваются тем переменным, которые в понимании аналитика играют большую роль при изучении сходства потребителей. Когда переменная имеет нулевой коэффициент важности (вклад), она исключается из построения меры сходства. Так, назначение одной переменной веса с максимальным значением, равным 1, и присваивание всем остальным переменным нулевых весов приводит к предельной ситуации — многомерная задача кластеризации превращается в одномерную задачу.
При взвешивании переменных могут быть применены специальные алгоритмы, которые позволяют выяснить мнение аналитика о важности каждой переменной для построения меры сходства (алгоритм Чер мана Акоффа). Использование весов (коэффициентов важности) в мерах сходства потребителей позволяет формальными средствами отразить знания аналитика о переменных сегментирования.
В следующем пункте мы введем формальное определение мер сходства и покажем, как при расчете мер сходства могут быть учтены веса переменных сегментирования.
Понятие «важности» участия каждой переменной в формируемой мере сходства может вызвать у аналитика трудности в понимании семантики этого термина. Термин «важность переменной» мы будем использовать в двух контекстах. Наряду с «важностью переменной для построения меры сходства» мы так же будем использовать понятие «важность переменной, используемой в функции полезности». Функция полезности применяется нами для интерпретации выделяемых кластеров и в рамках Conjoint-анализа.
Параметры выделяемых кластеров
Обращаем внимание читателя на важный элемент процедуры кластеризации, выполняемой в рамках сегментирования потребителей.
Не каждый выделенный кластер может быть использован для создания сегмента. Кластер должен обладать сегментными свойствами, о которых мы говорили в пункте «Свойства сегментов». Но прежде, чем выяснять, обладает ли кластер этими свойствами, необходимо убедиться, что кластер обладает «хорошими» значениями параметров, таких как плотность, дисперсия, размеры, радиус, форма и отделимость.
Плотность можно определить как число точек объектов, приходящихся на единицу пространства, ограниченного переменными сегментирования. Этот параметр позволяет определить кластер как скопление точек в пространстве данных, относительно плотное по сравнению с другими областями пространства. Содержательный смысл этого понятия очевиден. Оно позволяет определить скопление точек.
Образно говоря, можно считать, что дисперсия кластера мала, если точки близки к его центру. И наоборот, дисперсия значительна, если точки разбросаны вокруг центра кластера.
Размеры описываются числом точек, отнесенных процедурой разбиения объектов к рассматриваемому кластеру. Очевидно, что в качестве прототипа для построения сегмента целесообразно выбирать кластеры с большими размерами.
Когда кластеры имеют вытянутую форму, то понятие радиуса становится бесполезным. В этом случае рассчитывают меру связности точек в кластере как относительную меру расстояния между точками.
Отделимость характеризует степень перекрытия кластеров и насколько далеко друг от друга они расположены в пространстве. Кластеры могут быть близки друг к другу и не иметь четких границ.
Для визуального изучения качества разделения объектов на кластеры можно прибегнуть к различным геометрическим построениям.
Однако для этого необходимо указать переменные, в пространстве которых будет проводиться интерпретация.
Перекрывающиеся кластеры
Хотя геометрические образы создаваемых кластеров в виде облаков с четко очерченными формами и позволяют передать содержательный смысл проводимых построений групп схожих объектов, тем не менее такое представление может ввести в заблуждение аналитика.
Поэтому рекомендуется использовать следующее конструктивное представление кластера. Кластер следует рассматривать как часть пространства с относительно высокой плотностью точек, отделенных от других областей с повышенной плотностью точек областями пространства с относительно низкой плотностью точек. Особенностью данного определения является то, что оно позволяет правильно сформировать у аналитика представление о достигаемых результатах кластеризации. Здесь можно наблюдать плотное расположение клиентов в центре кластеров. Кроме скоплений клиентов можно обнаружить участки пространства с низкой плотностью клиентов.
При больших объемах анализируемых данных невозможно построить облака точек с четко очерченными границами.
Какую бы меру сходства аналитик не выбрал, всегда существует вероятность получения объектов, которые занимают промежуточное положение между выделяемыми кластерами. В ряде исследований таких объектов может быть достаточно много. И тогда аналитик может «поправить» результаты кластеризации. Он должен определить, к какому из выделяемых кластеров целесообразно отнести объекты, занимающие «двойственное» положение. Причина двойственного положения объектов обычно состоит в том, что процедура кластеризации «назначила» объекты к кластерам в соответствии с мерой сходства. Но у аналитика может быть свое мнение о том, как лучше распределить объекты. Для построения «лучшего» распределения объектов аналитик может привлечь свои знания как эксперта или иные меры сходства, или даже иные алгоритмы кластеризации. В пункте «Анализ перекрытий сегментов» мы еще вернемся к обсуждению проблемы перекрывающихся групп потребителей (сегментов).
Методы кластеризации
Кластерный анализ — это набор многих сотен методов. Существуют различные подходы к классификации этих методов по типам. Мы обратим внимание читателя только на два типа: иерархические и итерационные. Упоминание об этих методах можно очень часто встретить в руководствах для маркетологов. Сразу же заметим, что мы являемся сторонниками применения к сегментированию итерационных методов кластеризации.
Иерархические методы порождают все возможные варианты построения кластеров при выбранной эвристической мере сходства.
Вариант построения всевозможных кластеров обычно изображают в виде дерева, которое показывает схему объединения объектов в кластеры. Каждому уровню объединения соответствует максимальное значение целевой функции, достигаемое на каждом уровне группировки объектов. В качестве целевой функции используется мера сходства, вычисленная на всей совокупности разбиваемых объектов и выделяемых кластеров.
Следует также обратить внимание, что при количестве объектов, превышающих десятки (в нашем примере необходимо разделить на сегменты 995 клиентов оптовой фирмы), создаваемое дерево будет очень большим. Безусловно, невозможно изучить такое огромное число вариантов построения кластеров. Обилие вариантов, порождаемых иерархическими процедурами, затрудняет их анализ. Поэтому метод дендограмм находит применение при построении гипотез о существовании сегментов на малых выборках, например на данных, полученных при проведении фокус-групп, которые насчитывают несколько десятков респондентов. Практически результаты анализа дендограмм могут быть использованы для построения гипотез о числе выделяемых кластеров для больших выборок (сотен и тысяч респондентов), которые обрабатываются Kmeans-алгоритмами.
Итерационные методы
Большей популярностью, чем иерархические подходы, при сегментировании пользуются итерационные методы. Это объясняется тем, что на практике необходимо выделять сегменты на больших выборках респондентов.
Эти методы определяются как пошаговое подключение к одному из формируемых кластеров одного объекта, который выбирается по одной из возможных итерационных схем кластеризации. Кроме того, по способу выбора первых объектов для каждого из создаваемых кластеров итерационные методы разделяются два типа: автоматические и экспертные.
Автоматические методы (Kmeans-алгоритмы)
Большинство итерационных методов выполняется следующим образом.
В качестве исходного разбиения принимается гипотеза о существовании конкретного количества кластеров, которые необходимо выделить.
На первом шаге указывается это конечное число кластеров (гипотеза о К-кластерах).
На втором шаге для каждого из кластеров вычисляется центр кластера. Например, в качестве центра может быть выбран произвольный объект. В практических реализациях центр кластера вычисляется на основе случайных выборок, которые выделяются из всей совокупности анализируемых потребителей.
После определения центров кластеров просматриваются объекты из анализируемой совокупности потребителей. Согласно установленной мере сходства выбирается тот объект, который имеет лучшую меру сходства по отношению к другим объектам и формируемым кластерам. По выбранной мере объект относится к одному из кластеров.
Далее процесс вычисления продолжается до тех пор, пока все объекты не будут разнесены по кластерам.
Экспертная кластеризация
Выше мы рассмотрели автоматическую процедуру расчета центров кластеров на основе построения случайных выборок из анализируемой совокупности объектов.
При экспертном сегментировании аналитику предоставляется возможность самому указать, какие из объектов целесообразно включить в кластер как образцы. Обычно, исходя из своего понимания потребителей как объектов кластеризации, аналитик может достаточно точно сказать, какие из объектов следует отличать друг от друга. Конечно, такое предположение аналитик делает только на интуитивном уровне. Он не может оценить весь комплекс переменных, которыми описываются объекты. Данная процедура позволяет учесть интуитивные знания аналитика о принадлежности клиентов с различными свойствами к исследуемым сегментам.
С учетом установленной принадлежности к сегментам отдельных представительных образцов вычисляются центры формируемых кластеров. А затем для определенных экспертным образом центров формируются кластеры путем изучения всей совокупности потребителей.
Существуют различные модификации этой схемы, однако практик-аналитик может опустить эти тонкости реализаций. Экспертный подход к выделению сегментов можно рассматривать как альтернативу методу дендограмм. Действительно, эксперт в состоянии отнести к сегментам только небольшое число потребителей. А при небольшом числе кластеризуемых респондентов эксперт может проверить много вариантов разбиения их на сегменты. Поэтому получение знаний о сегментной структуре экспертными методами, основанными на kmeans-алгоритмах, практически совпадает по затратам времени с анализом методом дендограмм. Это объясняет популярность применения экспертного метода при анализе сегментной структуры промышленных потребителей.
Генетические алгоритмы кластеризации
Мы уже говорили о том, что методы кластеризации являются эвристическими. Получаемое разбиение объектов по кластерам есть лишь один из возможных вариантов. Желая достигнуть качественного сегментирования, аналитик должен стремиться найти лучший вариант кластеризации, «лучший» в смысле оптимального значения меры сходства. Поиск лучшего в математическом смысле разбиения требует анализа множества различных вариантов кластеризации.
Можно попытаться улучшить найденный вариант разбиения путем перемещения объектов из одного кластера в другой. Для этого применяются специальные алгоритмы, смысл которых сводится к улучшению общей целевой функции, построенной на мерах сходства, через выбор по определенному критерию объектов, перемещаемых между кластерами. Эта идея, в частности, реализуется в генетических алгоритмах.
Эти алгоритмы выполняют перемещения объектов между кластерами, и на каждой итерации перераспределения объектов между кластерами учитываются наиболее продуктивные комбинации размещения, построенные на предшествующих шагах поиска.
Можно сказать, что традиционный эвристический алгоритм позволяет найти «пробный» вариант разбиения потребителей по кластерам, а генетический алгоритм пытается его улучшить.
Заметим, что кроме генетических алгоритмов для кластеризации в последние годы широко применяются нейронные сети. Однако их применение в практических исследованиях сегментов требует от аналитиков дополнительной математической подготовки.
Разумность желаний достичь лучшего кластера
Следует обратить внимание читателя на следующую особенность алгоритмов кластерного анализа.
Теория кластерного анализа содержит многочисленные тонкие методы обоснования целесообразности выделяемых кластеров и способов их построения. Однако в практике сегментирования все эти изощренные методы исследования оказываются зачастую бесполезными, гак как получаемые кластеры рассматриваются как эскизные проекты групп потребителей, на основе которых и принимается стратегическое решение о целесообразности изучения именно этих сегментов.
На практике высокий уровень точности, достигаемый при реализации вычислительных алгоритмов кластеризации, очень часто оказывается невостребованным. Похоже, что стремление теоретиков кластерного анализа к повышенной точности результатов продиктовано иными причинами, чем просто желание получить сгруппированные объекты, отражающие их семантические связи между переменными. В теоретическом смысле построение «хороших» разбиений есть «красивая» задача.
Однако на практике выделенная устойчивая закономерность объединения потребителей в группы (сегменты) служит для аналитика достаточным обоснованием формируемой маркетинговой стратегии. Необходимо понимать, что при наличии сотен и тысяч объектов закономерности, которые подтверждают существование сегментов, обнаруживаются в том или ином виде, даже если наблюдаются расхождения в принадлежности к кластерам единичных потребителей. Создаваемый кластер есть лишь «точка отсчета» для принятия стратегических ре пений. Аналитик должен оттолкнуться от факта существования групп потребителей, создавая свои маркетинговые программы по работе с выделяемым сегментом.
Главное, на что следует обратить внимание аналитику при поиске кластеров, чтобы выделяемые кластеры удовлетворяли свойствам сегментов. Об этих свойствах мы ранее говорили в пункте «Свойства сегментов» при обсуждении сегментирования как процесса моделирования сегментной структуры рынка.
Экспертные данные о сегментах
При сегментировании на этапе кластеризации необходимо априори иметь гипотезу о сегментной структуре потребителей. В качестве самого общего предположения может быть использовано знание о числе сегментов. Более детальные сведения могут включать знания аналитика о принадлежности хорошо известных ему потребителей к сегментам (кластерам). Аналитик может построить гипотезу о числе выделяемых сегментов с помощью анализа малой выборки респондентов методом дендограмм.
Обычно на практике, приступая к кластеризации, аналитик уже имеет знания о тех сегментах, которые используются в повседневной маркетинговой работе по сбыту продукции. Он может подвергнуть анализу этот вариант разбиения (кластеризации).
В том случае, если аналитик не имеет собственных предположений о числе выделяемых сегментов, он должен провести ряд попыток выделения кластеров.
Каждая попытка выделения кластеров должна сопровождаться следующими действиями:
• проверкой наличия у выделенных кластеров свойств сегментов;
• определением семантики выделяемых кластеров для последующего проектирования сегментов;
• изучением маркетинговых свойств создаваемых сегментов на основе выделяемых кластеров. Для этого используются карты восприятия, методы оценки потенциала сегментов.
Практика показывает, что очень редко удается после однократного выполнения вышеперечисленных действий получить конечный вариант сегментной структуры. Аналитик должен быть готов к проведению многочисленных попыток найти и объяснить выделяемые кластеры как сегменты. Целесообразно провести поиск сегментов при различных параметрах алгоритмов кластеризации: мерах сходства, важности переменных сегментирования в используемых мерах сходства и т. д. Только после проверки того, что выбранный параметр дает лучшие результаты на изучаемых данных, полученный вариант кластеризации следует подвергать углубленному изучению.
В советские времена у телефонисток на коммутаторе висел лозунг, из которого следовало, что они все ратуют за свободные сексуальные отношения. Что это был за лозунг?