Методы статистического анализа

Статью подготовил ведущий маркетолог-аналитик Воронов Валерий Иванович. Связаться с автором

Вернуться назад на Методы анализа

Не забываем поделиться:

В математике широко применяется термин «функциональная зависимость переменных». Это такая зависимость «У» от «Х», когда каждому возможному значению «Соответствует строго определенное значение «У». Это, например, зависимость длины окружности от радиуса, площади квадрата от стороны, проч. В действительности, в реальном мире такая зависимость встречается редко. Жизнь, природа, наука, философия – элементы, присутствующие в контексте любого из этих процессов, находятся под влиянием многочисленных, как существенных, так и несущественных факторов. При этом существенные факторы непосредственно формируют закономерности их развития (математик здесь сказал бы: «существенные факторы формируют закономерность распределения результативного признака»), а несущественные - определяют вероятные отклонения от них.

Встречаясь на практике с подобными связями, мы видим, что случайные изменения закона распределения одного признака влекут за собой изменения характера распределения второго признака. В свою очередь, изменения характера распределения второго признака обуславливают изменения закона распределения третьего. И так далее, до бесконечности. Так вот. Такого рода связь переменных именуют стохастической связью.

Частным видом стохастической связи является связь статистическая. Это такая связь двух или нескольких переменных, при которой изменение закона распределения одного признака вызывает изменение вероятности появления другого. Или, как сказали бы математики: «условное математическое ожидание одной переменной становится функцией другой». Это связь, скажем, между возрастом студентов и количеством студентов определенных возрастов в академической группе; связь между наиболее часто употребляемыми в некоторую эпоху философскими терминами и частотой употребления этих терминов в конкретном философском сочинении.

Именно эти связи – статистические связи переменных и конкретно: их наличие, форма и интенсивность - и отслеживаются методами стат. анализа.

Статистический анализ как исследовательская процедура имеет давнюю традицию применения. Теоретической разработкой методического аппарата стат. анализа занимается специальная научная дисциплина: математическая статистика. Нам сейчас нет нужды глубоко вникать в проблематику этой науки: она сложна, а проблематика ее - многообразна.(1) Для нас с Вами сегодня важнее уяснить логическое содержание основных методов стат. анализа; понять, как эти методы можно использовать в историко-философском исследовании.

Дело в том, что корректно отследить статистическую связь переменных очень трудно.

Самое читаемое за неделю
Введение ковидных паспортов в 2021 году
Должен знать каждый: Сильное повышение штрафов с 2021 года за нарушение ПДД
Введение продуктовых карточек для малоимущих в 2021 году
Доллар по 100 рублей в 2021 году
Новая льготная ипотека на частные дома в 2021 году
Продление льготной ипотеки до 1 июля 2021 года
35 банков обанкротятся в 2021 году

Задавайте вопросы нашему консультанту, он ждет вас внизу экрана и всегда онлайн специально для Вас. Не стесняемся, мы работаем совершенно бесплатно!!!

Также оказываем консультации по телефону: 8 (800) 600-76-83, звонок по России бесплатный!

Строгая теория мат. статистики определяет, что репрезентативная (т. е. представительная, имеющая научный смысл, значение) оценка математического ожидания возможна лишь при числе наблюдений за поведением объектов, стремящимся к бесконечности. Очевидно, однако, что на практике такое условие соблюсти невозможно. Поэтому ученые исследуют выборочные, то есть ограниченные в объеме совокупности данных. При этом они переходят от оценки условного математического ожидания величины признака переменной к вычислению ее условного среднего значения.

Иначе говоря, ученые, как правило, исследуют не статистическую, но корреляционную связь переменных.

В случае такой связи, при определенном изменении признака одной переменной случайные варианты признака второй группируются с различной степенью плотности около его среднего значения, а величина среднего значения признака второй переменной зависит от величины признака первой. Такова, например, связь между ростом человека и его весом, между понижением жизненного уровня населения и уменьшением количества опубликованных философских трудов.

Тесноту корреляционной связи, т.е. величину приближения фактического значения признака к его условной средней величине, определяют посредством корреляционного анализа. Ее форму - направление и величину изменения результативного признака под влиянием факторного - с помощью анализа регрессионного.

Как регрессионный, так и корреляционный анализ бывает двумерным и многомерным. Двумерным называют анализ связей двух признаков, один из которых - факторный (т.е. тот, который ОКАЗЫВАЕТ ВЛИЯНИЕ), второй – результативный (на который ОКАЗЫВАЕТСЯ влияние). Многомерным называется анализ связи между несколькими факторными признаками и одним результативным. Кроме того, применяют еще и так называемый частный корреляционный анализ. Это – подвид многомерного корреляционного анализа. Суть его состоит в том, что при измерении тесноты связи нескольких факторных и одного результативного признака (в случае, если определенный фактор по своему влиянию значительно превосходит остальные), исследователь измеряет тесноту связи одного факторного признака с результативным, пренебрегая всеми остальными.

Учёные различают два основных вида корреляции (от лат.: «соотношение») признаков: линейная и нелинейная. Отсюда - многомерный и двумерный, регрессионный и корреляционный анализы применяются при исследовании линейных и нелинейных корреляционных связей признаков.

Линейная корреляция – такое соотношение изучаемых признаков, графическое описание которого после выявления закономерной, т.е. не случайной, зависимости «У» от «Х» (выравнивание «У» от «Х» представляет собой прямую линию в декартовой системе координат (при многомерной корреляции - прямую линию в пространстве).

Нелинейная корреляция описывается немного видами кривых.

Ее видами являются:

• параболическая зависимость переменных - эта зависимость проявляется при ускоренном возрастании или убывании одного признака в сочетании с равномерным возрастанием другого;
• гиперболическая зависимость - т. е., зависимость, аналитически описывающаяся коэффициенты регрессии;
• экспонатная зависимость - эта зависимость существует тогда, когда факторный признак изменяется с более или менее постоянным приростом, арезультативный – по геометрической прогрессии.

Итогом корреляционного и регрессионного анализа является величины соответствующих коэффициентов. При их соотнесении результатами, представленными в специальных таблицах, выявляются меры тесноты, форма и характер связи изучаемых объектов.

Труднейшей проблемой, с которой сталкивается исследователь при проведении многомерного корреляционного анализа, является выделение т.н. признаков мультиколлинеарности.

Мультиколлинеарность – это наличие тесной линейной связи между всеми или некоторыми факторами, действующими на результативный признак. Наличие этой связи приводит к искажению точности коэффициента прогрессии и корреляции, а в ряде случаев и невозможности даже их приблизительной оценки.Мультиколлиниарность устраняется применением специальных аналитических процедур, простейшими из которых являются метод исключения факторов (устранение из репрессии высоко коррелированных факторов) и линейное преобразование факторов (замена переменных, которым присуще кол линеарность их линейной комбинацией). Нередко, однако, выявить и устранить мультиколлинеарность бывает сложно. Поэтому Вы должны запомнить правило: корреляционный и регрессионный анализы проводятся только в тех случаях, когда вы уверены, что имеете дело с независимыми переменными.

Упомянутые выше виды статистического анализа обычно используются при работе с цифровыми данными. Например, с результатами контент-анализа. Однако в практике историко-философских исследований мы чаще сталкиваемся не с количественными, а качественными признаками объектов, т.е. с такими, которые не имеют конкретное количественное выражение в единицах измерения метрических шкал. В этих случаях исследователи прибегают к корреляционному анализу качественных признаков и используют его аппарат: эмпирические меры тесноты связи качественных признаков.

Основными приемами корреляционного анализа качественных признаков являются:

Тест "На сколько вы активны"
документ

Тест "Подходит ли Вам ваше место работы"
документ

Тест "На сколько важны деньги в Вашей жизни"
документ

Тест "Есть ли у вас задатки лидера"
документ

Тест "Способны ли Вы решать проблемы"

Тест "Для начинающего миллионера"
документ

Тест который вас удивит
документ

Семейный тест "Какие вы родители"
документ

Тест "Определяем свой творческий потенциал"
документ

Психологический тест "Вы терпеливый человек?"

• измерения коэффициентов контингенции - т.е. вычисление величины сопряженности признаков;
• измерения коэффициентов ассоциаций - измерения тесноты связи двух качественных признаков, каждый из которых может принимать только альтернативные значения;
• двух строчечная корреляция - метод выявления тесноты и направленности связи признаков, один из которых может быть измерен по шкалам порядка, интервалов, отношений, а другой выражается в альтернативных вариантах: «хорошо-плохо», «мужчина-женщина», проч.;
• корреляция рангов - сравнение признаков по принципу «больше-меньше»;
• измерение коэффициента Фехнера - этот коэффициент характеризует количество совпадений и несовпадений знака отклонения вариантов от их средних арифметических, др.

В ряд случаев эти приемы оказываются весьма эффективными. Но не всегда. Дело в том, что теснота контингенции или ассоциации признаков оценивает не столько взаимозависимость, сколько вероятность прогноза значений одного признака по значениям другого. Такой подход не всегда отвечает задачам историко-философского исследования. Поэтому сегодня связь между фактором и результатом все чаще и чаще оценивается путем выявления т. н. степени энтропии признака, т.е. меры неопределенности связи признаков из аппарата теории информации. Вам следует обратить на него внимание, если Вы в дальнейшем займетесь квантитативными (т.е. ориентированными на использование ЭВМ) историко-философскими исследованиями.

Далее. В традиционной истории философии взаимосвязанные явления (признаки), как правило, рассматриваются синхронно, как будто они существуют в один и тот же момент времени, и диахронно, т.е. как бы отслеживающих связь сквозь время. В математической статистике количественную сторону синхронных и диахронных связей переменных отражают статистические и динамические совокупности данных. Иначе динамические совокупности данных называются динамическими рядами. Динамические ряды строятся по определенным правилам. Эти ряды используют для выявления корреляционной связи между исследуемыми показателями.

Основные проблемы, с которыми сталкивается исследователь при анализе динамических рядов, таковы:

• автокорреляция;
• лаг;
• циклические колебания.

Что означают эти термины?

Вы уже знаете, что обязательным условием корректного применения методов корреляционного анализа является независимость переменных друг от друга. Между тем, значительная часть данных, представленных динамическими рядами, не может удовлетворить этому требованию. Например, философская терминология конкретной эпохи определяется, прежде всего, степенью развитости философского языка эпохи предыдущей и только потом уже - всеми остальными факторами. Такая зависимость последующих членов временного ряда от предыдущих называется автокорреляцией, а преобладающая тенденция, вызванная ею, - трендом.

Другой пример. При изучении связи между содержанием понятийного аппарата некоего философского произведения и понятийным аппаратом конкретной философской эпохи обнаруживается временной разрыв, вызванный тем, что данное произведение писалось не в изучаемый, а в предстоящий изучаемому период времени. Такое несовпадение по времени анализируемых фактора и результата в мат статистике именуется лагом. И ясно, что наличие лага искажает результаты корреляционного анализа.

В некоторых динамических рядах наблюдается всевозможные, нередко необъяснимые периодические колебания. Так, скажем по циклам в пять и двенадцать лет рассчитывается восточный календарь, существуют и другие циклы, не поддающиеся рационалистическому истолкованию. Западные исследователи разработали даже специальную «теорию циклов», которая если не всегда удовлетворительно объясняет, то, по крайней мере, четко фиксирует наличие циклических колебаний наиболее часто встречающиеся при проведении статистических исследований.

Так, например, американские экономисты сумели выявить такие циклы:

• - «длинные» (40-60 лет);
• - «строительные» (15-20 лет);
• - «главные» (6-10);
• - «второстепенные» (2-4 года).

Отечественные историки упоминают в своих работах т.н. «сезонные колебания» - результаты влияния смен времени года на те или иные и их показатели. Наличие циклов также влияет на точность результатов корреляционного анализа.

Сущность методов стат. анализа динамических рядов состоит в устранении влияния автокорреляции, лага и временных циклов на результаты корреляционного анализа.

Это достигается посредством различных исследовательских процедур, наиболее простыми их, которых являются:

• механическое сглаживание: использование средней для выравнивания показателей;
• аналитическое выравнивание (для этого применяются специальные формулы);
• метод скользящей средней, проч.

В целом необходимо отметить, что корреляционный анализ динамических рядов является одним из наиболее сложных разделов математической статистики. В тоже время, теория корреляции динамических рядов переживает ещё период своего становления. Однако некоторые методы, разработанные в контексте этого направления, находят свое применение в историко-философских исследованиях. В том числе и методы построения временных рядов по неполным данным, при применении которых, путем выявления закономерности, которой подчиняется ряд, и распространение ее на неизвестный уровень ряда, достигается реконструкция данных.

Как говорилось выше, методы ста анализа используются для изменения тесноты, определения формы связи результативного и факторного (факторных) признаков. Но с этим возможности ста анализа не исчерпываются. Важнейшей его функцией является выявление структуры совокупности историко-философских объектов. Средства её выявления нам предоставляют теория распознавания образов, методы автоматической классификации, кластерный анализ (таксономия), теория нечётких множестви факторный анализ.

Сущность методов распознавания образов состоит в том, чтобы любой вводимый в компьютер объект с наименьшей вероятностью ошибки был отнесён им к одному из заранее сформированных классов. Для этого машине вначале предъявляют т.н. «обучающую последовательность объектов», о каждом из которых известно, к какому классу или «образу» он принадлежит. Затем, «обучившись», т.е. «вычислив» закономерность классификации образов, компьютер сам распознаёт, к каким классам относятся объекты из изучаемой совокупности.

Более общий подход к классификации образов включает не только отнесение объектов к одному из классов, но и одновременно формирование самих «образов», число которых может быть заранее не известно. Классификация последнего вида производится на основе собирания в одну группу сходных по тому или иному признаку объектов. Причем собираются они таким образом, чтобы объекты из разных групп (классов) были бы по возможности несхожими. Совокупность статистических процедур, посредством которых реализуется второй подход, получила название автоматическая классификация.

Отсутствие априорной информации о характере распределения объектов внутри каждой группы делает невозможным «обучение» ЭВМ. В этом случае обычно используется т.н. кластерный анализ. Основная идея, заложенная в основу кластерного анализа (точнее: даже группы методов) заключается в последовательном объединении группируемых объектов: сначала самых близких, затем - все более отдалённых друг от друга. Процедура классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп, объектов, кластеров (термин «кластер» переводится с английского, как «гроздь»; он обозначает группу объектов, обладающих общими свойствами). Результаты кластерного анализа удобно изображать в виде «дерева»- иерархической структуры (дендрограммы), содержащей n-уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. В принципе, кластеров можно строить сколько угодно много. При этом кластерный анализ позволяет не только «разбивать» совокупности объектов на группы, но и измерять меру близости этих групп.

Методы теории нечетких множеств применяются в особых случаях. А именно: когда изучаемые объекты, принадлежащие к одному из типов (классов) имеют еще и черты, характерные для других типов. Философское создание часто поставляет «материал», специфической чертой которого является наличие т.н. «промежуточных объектов», т.е. объектов характеризующих переход от одного типа объектов к другому.

Сложность, неоднородность структуры философского знания проявляется также и в том, что объекты, принадлежащие к одному условному типу, в разной мере могут обладать присущими ему свойствами. Так вот, аппарат теории нечетких множеств позволяет выявить «ядро» совокупности объектов (такую группу объектов, для которых характерно «концентрированное выражение всех специфических свойств типа, определяющих качественное отличие данного типа от всех иных и его окружение. Это, в свою очередь, позволяет выяснить не только принадлежность объектов к тому или иному типу объектов, но и выявить «вес», с которым они относятся к данному типу. Кроме того, указанные методы позволяют определить степень сходства с объектами других типов, т.е. выявить «полосу размыва» между ними.

На решение задачи выявления и анализа структуры историко-философских явлений ориентирован еще один из методов статистического анализа: факторный анализ.

Основная идея этого метода состоит в предположении, что любое явление или процесс могут быть описаны небольшим числом некоторых скрытых, обобщенных характеристик, которые не поддаются непосредственному наблюдению, но воздействуют на «внешние» наблюдаемые показатели, определяют их изменения и обуславливают тем самым взаимосвязи между ними. Эти скрытые характеристики явления называются общими факторами.

Так, например, общими факторами являются:

• культурный уровень какой-то группы населения;
• структура населения;
• его мобильность;
• уровень жизни, проч.

Очевидно, что все эти обобщенные показатели характеризуют реально существующие явления и процессы. Однако, в силу своей многосторонности, они не могут быть измерены, непосредствен но.

Факторный анализ позволяет выявить общие факторы, дает ключ к их содержательному толкованию, оценивает их воздействие на отдельные показатели и на всё изучаемое явление в целом, количественно выражает их значения для каждого из рассматриваемых объектов и, на основании всего этого, открывает возможность решать целый ряд прикладных историко-философских задач. Результаты факторного анализа позволяют уточнить свои представления о структуре исследуемых объектов.

Далее. Методы стат. анализа находят применение и при проверке историко-философских гипотез (разумеется, только в том случае, если указанные гипотезы можно представить как статистическую). Этой цели служит теория статистической проверки гипотез или т.н статистический критерий.

Статистическим критерием называют совокупность строго определённых правил, указывающих, при каких результатах статистическая гипотеза (т.е., предположение о некоторых свойствах совокупностей данных) отклоняется, а при каких – считается допустимой.

В целом « технологию» историко - философского исследования, проводимого с использованием средств стат. анализа можно выразить в программе, состоящей из пяти пунктов:

1. Начальный этап исследования ориентирован на формулировку «эмпирической теории». На этом этапе исследователь систематизирует гипотезы, относящиеся к рассматриваемой проблеме. При этом гипотезы подвергаются процедуре верификацию, т. е,. проходят проверку на соответствие исходным данным. Верный выбор исходных гипотез предопределяет выбор методов стат. анализа.

2. Второй этап указанного исследования можно назвать операциональным. Он создает основу для воспроизведения результатов и их соотнесения с фактическими данными. На этом этапе вводятся дефиниции (определения) используемых категорий анализа, даются точные толкования смысловых индикаторов и терминов.

3. Третий этап связан с выбором источникового материала и проведением источниковедческого анализа. На этом этапе, большое значение предается процедурам выборочного метода, учитывающим специфику историко-философских источников.

4. Этот этап является измерительным. На четвертом этапе, в результате проведенной на втором этапе операционализации, проводится построение переменных (признаков), т. е. таких характеристик объектов, которые имеют несколько уровней.

При этом под термином «измерение» понимается присвоение чисел или символов соответствующих градациями-уровням каждой переменной. На этом этапе важно помнить, что данная процедура должна быть систематической, т.е. характеристики всех объектов должны быть измерены по одним и тем же правилам; процедура должна отвечать критериям единственности и полноты, согласно которому каждому объекту соответствует один и только один уровень по каждой переменной. В случаях, когда эти требования выполняются, обычно говорят, что процедура измерения задает «классификацию». В противном случае считается, что исследователь имеет дело с «типологией».

Надёжность измерений на данном этапе достигается выполнением трех требований:

- временная стабильность - повторные измерения должны давать те же результаты;
- интерсубъективная стабильность - различные исследователи, использующие одинаковые средства измерения должны получать те же результаты для тех же объектов;
- инструментальная стабильность - использование различных измерительных средств должно приводить к тем же результатам.

5. Пятый этап - математический анализ данных. На этом этапе применяются статистические методы, ориентированные на решение изначально поставленных задач.