Получите консультацию:
8 (800) 600-76-83
Бесплатный звонок по России

1. Введение продуктовых карточек для малоимущих в 2021 году

2. Как использовать материнский капитал на инвестиции

3. Налоговый вычет по НДФЛ онлайн с 2021 года

4. Упрощенный порядок получения пособия на детей от 3 до 7 лет в 2021 году

5. Выплата пособий по уходу за ребенком до 1,5 лет по новому в 2021 году

6. Продление льготной ипотеки до 1 июля 2021 года

7. Новая льготная ипотека на частные дома в 2021 году

8. Защита социальных выплат от взысканий в 2021 году

9. Банкротство пенсионной системы неизбежно

10. Выплата пенсионных накоплений тем, кто родился до 1966 года и после

11. Семейный бюджет россиян в 2021 году

О проекте

Контакты

Загадки

Интересные тесты

Главная » Маркетологу » Исходные данные для сегментирования

Исходные данные для сегментирования

Статью подготовил ведущий маркетолог-аналитик Воронов Валерий Иванович. Связаться с автором

Для удобства изучения материала, статью разбиваем на темы:

Не забываем поделиться:

Четыре типа измерений переменных

Источники данных для сегментирования

Анкетирование потребителей

Анализ баз данных — marketing data mining

Четыре типа измерений переменных

При изучении потребителей переменные сегментирования принимают конкретные значения. Значения переменных фиксируют в бланках анкет. Они могут быть извлечены и из компьютерных баз данных, в которых фиксируются продажи товаров (marketing data mining).

Но само значение переменной — это не просто набор цифр или текстовых строк. Значение переменной — это результат измерения определенного свойства потребителя, для исследования которого и введена переменная сегментирования. Построение значений переменных проводится с использованием теории измерений и методов построения мер.

Итак, значения переменных есть результат измерения свойств потребителей. А сам процесс измерения предполагает использование шкал, которые устанавливают уровень наблюдаемого свойства у отдельного объекта исследования.

В теории измерений используют четыре типа шкал:

• номинальную;

• порядковую;

• интервальную;

• относительную.

С помощью указанных шкал могут быть измерены все известные свойства потребителей. От выбора шкалы во многом зависит последующая технология изучения переменной и в целом всей совокупности изучаемых потребителей.

Ниже мы рассмотрим особенности применения указанных шкал для описания свойств потребителей. Повышенное внимание к этой теме обусловлено тем, что при сегментировании потребителей приходится иметь дело со множеством свойств, которые могут быть охарактеризованы оценками, построенными на различных шкалах. Однако вычислительные процедуры сегментирования (кластеризация, факторный анализ и др.) обычно предъявляют строгие требования к типу шкалы, с помощью которой измерены свойства потребителей. Аналитику приходится тщательно готовить исходные данные о потребителях, прежде чем он сможет применить вычислительные процедуры сегментирования.

Важнейшим элементом этой подготовки служит преобразование данных из одной шкалы в другую с привлечением экспертных знаний аналитика. В ходе этого преобразования повышается семантическая определенность числовых значений наблюдаемых переменных.

Читатель должен обратить внимание на важность выбора шкалы при подготовке исходных данных для процедур сегментирования.

Номинальная шкала

Номинальная шкала образована из чисел, которые поставлены в соответствие объектам изучения.

Данная шкала строится следующим образом. Каждому свойству потребителя ставится в соответствие некоторый код, который позволяет отличить одно значение свойства от другого. Так, например, если в качестве свойства рассматривается пол потребителя, то значениями этого свойства являются такие понятия, как мужской и женский. Значению свойства «мужской» может быть поставлено в соответствие кодовое значение 1, а значению «женский» — код, равный 2. Изучаемые свойства полового признака потребителя будут идентифицироваться с этими цифровыми значениями. При этом для анализа несущественно, какие значения кода установлены тем или иным значениям свойства, т. е. «мужской» — 1, а «женский» — 2, или наоборот, «мужской» — 2, а «женский» — 1.

Введение данной шкалы преследует две цели:

Самое читаемое за неделю
Введение ковидных паспортов в 2021 году
Должен знать каждый: Сильное повышение штрафов с 2021 года за нарушение ПДД
Введение продуктовых карточек для малоимущих в 2021 году
Доллар по 100 рублей в 2021 году
Новая льготная ипотека на частные дома в 2021 году
Продление льготной ипотеки до 1 июля 2021 года
35 банков обанкротятся в 2021 году

Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!

Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!

• распознавание изучаемых объектов по их свойствам;

• подсчет числа объектов с одинаковыми свойствами.

В вышерассмотренном примере номинальная шкала позволяет определить в совокупности потребителей количество мужчин и количество женщин.

Другими свойствами эта шкала не обладает. Например, нельзя определить среднее значение свойства потребителей. Бессмысленно определять понятие среднего пола. Так, значение 1,345 свойства «пол» не имеет смысла. Можно говорить только о соотношении между числом мужчин и числом женщин в пределах рассматриваемой выборки.

Порядковая шкала

Порядковая шкала присваивает значения свойствам потребителя с учетом отношения порядка, который присутствует между изучаемыми значениями свойств.

Между значениями отдельного свойства потребителя может существовать отношение порядка. Аналитик может сказать, какое из значений, по его мнению, лучше, а какое — хуже. При этом семантика понятий «хуже», «лучше» определяется самим аналитиком и изучаемым свойством. Для того, чтобы формально зафиксировать это отношение между значениями свойства, вводятся коды, которые присваиваются отдельным значениям свойства.

Порядковая шкала определяет лексикографический порядок потребителей относительно друг друга с учетом значений изучаемого свойства. Можно сказать, что при использовании этой шкалы подлежат сравнению только пары потребителей. Вычисленные значения как разности между кодовыми значениями, присвоенные отдельным свойствам, не могут быть использованы для оценки уровня достигаемого свойства.

Главное назначение порядковой шкалы — это размещение отдельных объектов согласно установленному значению этого свойства. Нельзя определить относительное положение между парами объектов. Однако можно вычислить среднее значение установленного свойства для выборки объектов.

Рассмотрим следующий пример. Пусть анализу подлежат три группы потребителей, каждая из которых обладает свойством, которое имеет три значения. Например, низкая платежеспособность, средняя, высокая. Безусловно, что эти свойства устанавливаются аналитиком с учетом конкретных объемов финансовых поступлений в рассматриваемой прикладной области. Каждого потребителя аналитик может оценить по этому значению свойства. Так, например, значению «низкая платежеспособность» присваивается балл, равный 1, «средняя платежеспособность» — 2, «высокая платежеспособность» — значение 3. Можно утверждать, что два потребителя, принадлежащие к различным уровням, например низкому и среднему, находятся в том же отношении порядка, что и баллы 1 и 2. Аналогичное утверждение может быть сделано относительно двух потребителей, обладающих свойствами средней и высокой платежеспособности с баллами 2 и 3. Хотя разность между баллами для каждой из пар одинакова, но равенство этой разницы не отражает расхождения в платежеспособности между высоким и средним уровнем и между средним и низким. Это объясняется тем, что клиентом с высокой платежеспособностью можно считать клиента, превышающего средний уровень во много раз, в то время как отличие низкого уровня от среднего может быть менее заметным. Выявленная непропорциональность значений финансового уровня платежеспособности к балльному эквиваленту показывает, что порядковая шкала позволяет только оценить качественное положение значений друг относительно друга. Эта шкала не может быть использована для числовых оценок различий между уровнями изучаемого свойства потребителя.

Интервальная шкала

Тест "На сколько вы активны"
документ

Тест "Подходит ли Вам ваше место работы"
документ

Тест "На сколько важны деньги в Вашей жизни"
документ

Тест "Есть ли у вас задатки лидера"
документ

Тест "Способны ли Вы решать проблемы"

Тест "Для начинающего миллионера"
документ

Тест который вас удивит
документ

Семейный тест "Какие вы родители"
документ

Тест "Определяем свой творческий потенциал"
документ

Психологический тест "Вы терпеливый человек?"

С помощью интервальной шкалы можно оценить, на сколько один объект «удален» от другого по рассматриваемому свойству. Например, в качестве объектов могут рассматриваться товары, потребители. Сравнение объектов возможно только тогда, когда может быть вычислено различие между наблюдаемыми свойствами у отдельных потребителей и эти различия могут быть сопоставлены. Например, с помощью этой шкалы можно изучать отношение потребителей к различным товарам.

Относительная шкала

Относительная шкала, в отличие от интервальной шкалы, предполагает наличие естественного (абсолютного) нуля. Поэтому в этой шкале можно сравнивать абсолютные значения величин (определить, во сколько раз одна величина больше другой).

Примерами относительной шкалы являются шкалы массы и длины. В качестве примера можно рассматривать и объемы продаж товаров потребителям. Также к относительной шкале можно относить измерения цен различных товаров, товарооборот (сумму) в денежном выражении.

Источники данных для сегментирования

Итак, мы рассмотрели основные шкалы, с помощью которых могут быть представлены значения переменных сегментирования, отражающие свойства анализируемых потребителей. Известны многочисленные способы представления значений переменных с помощью шкал. В качестве примера можно указать многочисленные формы представления значений переменных при изучении мнений покупателей. Детальное обсуждение этих подходов выходит за рамки данной книги.

Однако для того чтобы читатель получил полное представление о технологии сегментирования, мы рассмотрим два важнейших подхода к накоплению данных о свойствах потребителей. Первый подход предполагает анкетирование потребителей. Второй подход направлен на изучение компьютерных баз данных для получения маркетинговых сведений о свойствах потребителей. В следующих пунктах мы рассмотрим основные положения этих подходов.

Переходя к обсуждению основных положений указанных двух подходов, мы должны, прежде всего, обратить внимание читателя на то, что в основе реализации технологии сбора данных для сегментирования лежит решение проблемы выбора переменных сегментирования. О возможных приемах ее решения мы уже упоминали в пункте «Выбор переменных сегментирования». Здесь мы еще раз акцентируем внимание читателя на этом важнейшем вопросе сегментирования. Мы постараемся дополнить вышеуказанные рекомендации новыми деталями. Эти детали обусловлены особенностями реализации технологии сбора данных — анкетированием и анализом баз данных.

Анкетирование потребителей

Технологии анкетирования хорошо известны и детально описаны в литературе. Поэтому здесь мы обратим внимание читателя на важнейшие детали подготовки анкет как средства для аккумулирования первичной информации о переменных сегментирования.

Итак, рассмотрим некоторые основные положения технологии анкетирования, которые необходимо учитывать при разработке анкет для сбора исходных данных для сегментирования потребителей.

Напомним, что сегментирование направлено на изучение сегментной структуры рынка. И цели этого исследования в начале анализа часто плохо определены. Поэтому необходимо построить несколько правдоподобных гипотез о сегментной структуре. Необходимо сделать предположения о существовании возможных сегментов, а в дальнейшем попытаться получить подтверждение их существования. Обычно при отработке отдельных гипотез аналитиком приобретаются знания, которые позволяют ему подготовить более правдоподобные предположения о сегментной структуре. Таким образом, сегментирование можно рассматривать как проведение многочисленных попыток поиска сегментной структуры; попыток, которые постепенно сливаются в одно центральное направление исследования.

При реализации каждой попытки аналитик должен сформировать набор переменных сегментирования. По этим переменным необходимо собрать значения о свойствах потребителей. Обычно изучаемые переменные принимаются за основу для разработки структуры анкеты и подготовки ее вопросов.

Процесс подготовки анкет и их заполнения сопряжен со значительными затратами. Поэтому на стадии подготовки анкеты аналитики стремятся предусмотреть максимально возможную полноту набора переменных, о которых следует собрать сведения. В ряде случаев допускается избыточность набора переменных, т. е. вопросов. Эта избыточность призвана компенсировать недостаток исходных данных, обычно обнаруживаемый на последующих этапах сегментирования.

Неоднозначность, обнаруживаемая при подготовке набора переменных, а равно списка вопросов анкеты, объясняется сложностью определения значений наблюдаемых переменных в контексте решаемой задачи. В одной задаче сегментирования переменная является ключевой, в другой постановке задачи эта же переменная рассматривается как второстепенная. Определить, какое место должна занимать переменная в проводимом исследовании, удается не сразу. Зачастую требуется апробировать различные комбинации переменных сегментирования. Необходимость в тестовых испытаниях изучаемого списка переменных сегментирования может возникнуть не только на этапе формирования самого списка, но и при выделении сегментов.

Очень часто, сформировав для изучения список свойств потребителей, начинающий аналитик стремится тотчас перейти к заполнению анкет с этими переменными большой аудиторией респондентов (потребителей). Обычно такой подход дает плачевные результаты.

Причина неудач состоит в том, что в ходе анкетирования обнаруживается несогласованность в понимании смысла переменных как респондентами, так и сами интервьюерами. Сложности с пониманием семантики переменных могут быть обнаружены при подготовке анкет, при заполнении ответов, при вводе содержимого анкет в компьютер.

Наиболее надежный подход к разработке анкет состоит в следующем. К списку исследуемых переменных, а равно и к самой анкете, следует относиться как к сложному техническому объекту. Такой подход требует создания тестовой модели, ее испытания и внесения в модель корректирующих изменений. И только после того, как получено подтверждение о точном воспроизведении семантики переменных через ответы респондентов для небольшой выборки, следует переходить к работе с большой аудиторией.

Другими словами, на первом этапе работ не следует пытаться обработать все данные и получить подтверждение идей сегментации (даже примерное). Представляется целесообразным предпринять изучение «качества» переменных сегментирования. Предметом проверки может быть анализ возможности сбора данных от респондентов. Главная цель состоит в том, чтобы убедиться в правильности приемов заполнения данных, технологии их ввода (переноса с бумажных анкет в компьютерный файл), а также ясности понимания значений переменных, вводимых в компьютерные формы. И только после успешного получения значений переменных на небольшом числе заполненных анкет допускается переход к полномасштабным исследованиям аудитории и выделению сегментной структуры.

Подготовка переменных сегментирования и вопросов в анкетах — это процесс проб и ошибок. Должно быть выполнено несколько итераций сопоставления переменных и объектов анализа, прежде чем будет выработано четкое представление о том, что следует изучать, кого следует изучать и как следует изучать.

Анкета представляет собой структуру, из которой следует выделить набор переменных сегментирования. Вопрос анкеты есть средство для выяснения значений исследуемого свойства потребителя, т. е. значений отдельной переменной сегментирования. Иногда для формирования значений одной переменной сегментирования следует привлечь ответы по нескольким вопросам анкеты.

Учитывая эти соотношения между вопросами анкеты и переменными сегментирования, аналитик должен, создавая анкету, предложить такие формулировки вопросов, которые позволили бы ему получить наиболее достоверные сведения по переменным сегментирования. Назовем некоторые из наиболее часто встречаемых на практике факторов, которые приходится учитывать при разработке анкеты.

Метод сбора данных от респондентов (потребителей). Форма представления вопросов и ответов в анкете зависит от того, кто будет задавать вопрос и кто будет заполнять ответ.

Желание получить достоверные ответы и перепроверить ответы. В анкету могут быть включены дублирующие вопросы. Хотя формулировки вопросов могут отличаться друг от друга, однако семантика может быть сходной или предусматривать явные зависимости. Эти зависимости позволяют выяснить правильность ответов на вопросы.

Проверка понимания вопроса респондентом. При разработке анкеты через дублирующие вопросы необходимо убедиться в однозначности понимания респондентом семантики задаваемого вопроса.

Также можно наблюдать ситуацию, когда респондент не имеет представления о проблеме, которую следует выяснить в ходе обследования. Поэтому прибегают к постановке вопросов, которые объяснили бы респонденту суть проблемы. А, кроме того, дополнительные вопросы позволяют выяснить уровень осведомленности респондента. Такие вопросы позволяют определить статус респондента, рассматриваемый в качестве переменной сегментирования. Обычно статус респондента, отражающий его осведомленность, позволяет проверить достоверность ответов по важнейшим переменным сегментирования.

Полная группа ответов. Вопросы, задаваемые респонденту, должны содержать ответы, образующие полную группу возможных ответов. Это означает, что необходимо предусмотреть все варианты ответов на задаваемый вопрос. В том случае, если в ходе исследования будут обнаружены ответы, которые не предусмотрены, то следует внести изменения в список подготовленных ответов, перечисленных в бланке анкеты.

Отсутствие подсказок респонденту. Вопросы не должны содержать подсказок. В противном случае это может привести к искажению мнений респондентов.

Минимизация усилий респондента и снижение эмоциональных нагрузок респондента. Необходимо максимально сократить усилия, требуемые респонденту для ответа на вопрос. Предшествующие вопросы должны вводить респондента в семантику текущего вопроса. Сам вопрос должен быть адекватен ситуации, при которой выясняется мнение респондента.

Чувствительность респондентов к семантике вопросов. Вопросы, к которым респондент может оказаться чувствительным, следует расположить в конце списка.

Можно предварить вопрос утверждением о том, что сама постановка вопроса достаточно обыденная и заурядная вещь, чтобы у респондента могло исчезнуть чувство неловкости и неуверенности.

Задавать следует не персонально респонденту, а так, как будто бы обращаются к третьему лицу.

Можно расположить вопрос, вызывающий у респондента напряжение, среди вопросов, на которые он легко отвечает. Реакция респондента на легких вопросах притупляется.

Можно задавать общие вопросы, которые легко воспринимаются респондентом, и только потом задавать вопросы, вызывающие напряжение респондента.

Для снижения чувства ответственности респондента за свой ответ можно задавать вопросы, на которые можно получить ответы с различной степенью уверенности.

Форма анкеты. Безусловно, важнейшим фактором, который необходимо учитывать при разработке анкеты, является форма представления вопросов и фиксации ответов. Обширный обзор приемов и методов представлен в монографии.

Анализ баз данных — marketing data mining

В данном пункте мы знакомим читателя с основными положениями активно развиваемого в последние годы подхода к изучению маркетинговой среды. Этот подход предполагает анализ накопленных баз данных как источника маркетинговых сведений — marketing data mining.

Основная цель реализации технологии marketing data mining состоит в привлечении к составлению стратегических маркетинговых планов знаний о покупательском поведении, извлекаемых из накопленных баз данных.

Например, в качестве источника информации может быть использована база данных, в которой при совершении операций купли-продажи с помощью торговой программы накапливаются сведения о потребителях. Сведения о потребителях фиксируются в различных полях базы данных. Эти сведения после предварительной обработки могут быть использованы для разделения потребителей на сегменты.

Нет необходимости говорить о том, насколько полезными могу! быть знания, полученные при выделении сегментов на основе анализа

баз данных, которые содержат сведения о продажах. Возможности этого подхода очевидны. Огромные статистические данные, накапливаемые при ежедневных торговых операциях как обязательное условие ведения бухгалтерской отчетности, становятся достоянием аналитиков. Аналитикам остается только выделить маркетинговые знания из этих данных. Эта проблема решается в рамках технологии marketing data mining.

Можно выделить два главных аспекта решения этой проблемы:

Во-первых, это преодоление технических проблем программистов по извлечению данных и представлению их в форме, удобной для последующего маркетингового анализа.

Во-вторых, существуют огромные трудности по формулировке исследовательской маркетинговой задачи. Прежде всего сложности состоят в определении переменных, которыми описываются свойства потребителей в изучаемой базе данных.

На практике решение проблемы маркетингового изучения базы данных в указанных аспектах проводится индивидуально для каждого случая анализа данных. Несмотря на индивидуальность подходов к маркетинговому исследованию баз данных, можно сформулировать основные этапы этого анализа.

Ниже мы приводим основные шаги, которые следует предпринять для преобразования информации из базы данных в вид, удобный для дальнейшей обработки инструментами сегментирования (методами кластерного анализа, факторного анализа или иными статистическими методами). В качестве примера инструментов, применяемых для выделения кластеров, можно привести статистические программы SPSS, Statistica, а также специализированное программное обеспечение Segment Software.

От теории до практики

Главная особенность обсуждаемого подхода состоит в том, что аналитик вынужден работать с огромным числом записей базы данных. Эти записи находятся в «сыром» виде, т. е. их нельзя использовать без предварительной обработки в маркетинговом анализе. Эта обработка очень часто приводит к снижению размерности изучаемых массивов в сотни раз. Только после тщательной подготовки извлекаемой информации можно переходить к собственно сегментированию потребителей, проводимому по выделенным описаниям их свойств.

Изучение модели накопленной базы данных

Итак, информация, подлежащая изучению, представлена в базе данных, которая имеет свою модель (модель данных).

Аналитик, опираясь на помощь администратора базы данных, должен понять семантику этой модели. Для этого ему следует определить семантику полей базы данных, через которые описываются маркетинговые свойства потребителей. Следует изучить взаимосвязи между отдельными полями базы данных. Практически аналитик должен узнать, что представляет собой информация, которая должна быть использована для разбиения потребителей на сегменты.

Построение модели сегментирования

Опираясь на семантику полей базы данных, содержащих значения свойств потребителей, аналитик должен построить модель сегментирования потребителей. Другими словами, необходимо составить список переменных сегментирования, которыми описываются свойства изучаемых потребителей. Перед аналитиком возникает проблема установления соответствия между семантикой полей базы данных и переменными, которые ему хотелось бы привлечь для выделения сегментов.

Здесь очень часто возникают две задачи. Первая задача состоит в построении запросов к базе данных для извлечения содержимого ее полей. Вторая задача состоит в подготовке алгоритмов преобразования содержимого полей базы в значения переменных сегментирования, по которым, собственно, и следует проводить сегментирование потребителей.

Решив эти две задачи, аналитик может сформулировать задание для администратора базы данных по выделению значений переменных сегментирования.

Извлечение значений для переменных сегментирования

Здесь следует обратить внимание на следующую техническую деталь. Изучаемая база данных обычно имеет сложную модель данных, которая состоит из множества взаимосвязанных таблиц. При этом сведения, необходимые для определения значения одной переменной, могут быть разбросаны по многим полям, которые содержатся в различных таблицах базы. Выполняя задание аналитика, администратор должен из базы данных со сложной моделью перейти к одной таблице, которая обычно представляется в нормализованном виде. Именно таблицы этого вида поступают на вход статистической программы, применяемой для выделения кластеров (сегментов).

Итак, необходимо из разных таблиц базы или даже нескольких баз ввести в одну таблицу данные, в которых содержатся значения переменных сегментирования. В единой таблице должны содержаться данные обо всех изучаемых потребителях.

Анализ пропусков в данных

После того как были созданы значения переменных сегментирования и эти значения были собраны по каждому потребителю, необходимо провести анализ пропусков в данных.

Ниже мы приведем лишь основные приемы «борьбы» с пропусками з данных. Обширное описание методов обработки данных с пропусками дано в работе.

Прежде всего необходимо объяснить пропущенные значения. Обычно демографические переменные имеют большой процент пропусков.

Такие пропуски обычно заменяются специальным кодом, который может быть автоматически проанализирован. Можно попытаться найти статистические закономерности в образовании пропусков у конкретных категорий потребителей.

Назначение численных значений пропущенным полям изменит распределение и статистику изучаемой переменной. В записях о потребителе полям с пропусками могут быть просто назначены нулевые значения. Например, если покупатель не совершал покупки, тогда в записях о покупках могут отсутствовать значения. Эти значения могут быть закодированы нулем. Если у потребителя поле возраста имеет пропущенное значение, выбрать подходящее численное значение еще более трудно. Назначение численного значения, вероятно, изменит среднее и тип распределения. Замены пропусков весьма критичны в статистическом анализе. Обычно статистические методы предъявляют строгие требования к распределениям переменных.

Алгоритмы сегментирования менее требовательны. Хотя следует сказать, что классические алгоритмы кластеризации работают лучше на нормально распределенных данных. Поэтому при извлечении данных для сегментирования следует максимально сохранить семантику значений переменных.

Приведем несколько приемов обработки пропущенных значений в числовых полях.

Назначение среднего значения по модулю или другого значения. Это наиболее простой метод. Но он может дать большое искажение в распределении переменных. Его следует использовать, когда эффект пропусков минимален.

Генерация пропущенных значений по вероятностным распределениям «непропущенных» записей. При этом подходе на основе «непропущенных» значений в записях определяется их вероятностное распределение. Согласно этому распределению автоматически порождаются значения поля, которые и подставляются вместо пропущенных значений. Этот метод не очень трудно применить. Кроме того, он не очень сильно изменяет распределение данных. Однако включение порожденных значений в поля с пропусками может вызвать ошибочные результаты в модели описания закономерностей переменных. Установленное значение для переменной с пропусками может внести случайные ошибки в модель изучаемых закономерностей между переменными.

Замена пропущенных данных средним значением. При этом подходе проводится кластеризация потребителей по переменным без пропусков, а далее по выделенным сегментам вычисляются средние значения для переменных с пропусками. Эти вычисленные значения подставляются вместо пропущенных значений. Обычно достигнуть хороших результатов можно, если переменные, по которым проводилась кластеризация, и переменная с пропусками сильно коррелируемы. Заметим, что чем больше кластеров привлекается для вычисления средних для замены пропусков, тем большая точность восстановления пропусков достигается.

Использование квалификационной модели для пропущенных записей. Метод основан на построении закономерностей между значениями заполненных переменных и присутствующими значениями в переменных с пропусками. Установленная закономерность по известным значениям полей в записях с пропусками позволяет восстановить значения пропусков. Построение подобной модели может потребовать значительных затрат. Поэтому прежде, чем строить модель зависимостей, следует оценить потенциальные выгоды от привлечения переменных с пропусками.

Преобразование данных

После восстановления пропущенных значений можно переходить к преобразованию данных. Поля записей содержат сведения о потребителях в «размытом» виде. Полезная информация о переменной может содержаться в нескольких таблицах базы данных. Следует преобразовать полезную информацию в вид, удобный для анализа. Обычно преобразованием данных достигается лучшая их интерпретируемость.

Популярны два вида преобразований. В первом случае необходимо по известным переменным получить известные вероятностные распределения. Такие распределения упрощают построение статистических закономерностей между анализируемыми переменными.

В рамках этого преобразования обычно удаляют «выбросы» в значениях переменных. Такие выбросы обычно находятся вне области изменений большинства значений данных.

Второй вид преобразований предполагает порождение новых переменных. При этом подходе на основе переменных, наблюдаемых в записях о потребителях, алгоритмически вычисляют новые переменные, которые обладают более богатым семантическим значением в сравнении с исходными переменными.

При работе с переменными, изменяющимися во времени, прибегают к вычислению разности между наблюдаемыми значениями в различные периоды. Такой подход позволяет отслеживать изменение свойства потребителей во времени.

Итак, процесс подготовки данных для процедуры сегментирования (кластеризации) можно считать завершенным, если данные представлены в виде таблицы, в которой каждый столбец соответствует переменной с установленной семантикой, а значения переменных приведены к количественному или качественному виду (используются интервальная и относительная шкалы). Эти виды значений переменных наиболее легко интерпретируются аналитиком при изучении результатов кластеризации и анализе выделяемых сегментов.

Рыночная ориентация деятельности фирмы

Получите консультацию: 8 (800) 600-76-83
Звонок по России бесплатный!

Не забываем поделиться:

У одной смазливой девушки есть муж и любовник, оба богатые люди. Для неё они денег не жалеют и осыпают её дорогими подарками. А вот денег на карманные расходы не дают. Но вот у девушки после каждого презента появляются и деньги и подарки. Что для этого она делает?

Назад |

Вверх

Как сдвинуть с места бетонную плиту размером 50 метров в высоту, 100 метров в длину и весом 202 тонны, не применяя никаких механизмов и приспособлений?