Материалы к лекционному курсу

Тема 1. ГЛАВНЫЕ СТАТИСТИЧЕСКИЕ ПОКАЗАТЕЛИ

Статистический показатель –это обобщающая черта какого-либо свойства совокупности, группы. Этим он отличается от личных значений, каковые именуются показателями. К примеру, средний рост призывников – это статистический показатель, а рост отдельного призывника – показатель.

Показатель определяет качественное содержание показателя, это его объективная база. Первичные показатели объектов существуют независимо от того, познает их статистика либо нет, а показатели создаются наукой и являются инструментом познания. Так, статистический показатель отражает количественную и качественную стороны изучаемой совокупности публичных явлений, представляет собой их величину, выраженную соответствующей единицей измерения.

Статистические показатели делают последовательность функций: познавательную, управленческую, стимулирующую. В гуманитарных изучениях господствует статистические показатели и познавательная функция, являясь отражением каких-либо особенностей изучаемых процессов и явлений, разрешают охарактеризовать, раскрыть исследуемый объект, познать его. Многообразие целей и функций, каковые делают показатели, определяет их виды.

Для характеристики публичных процессов и явлений особенное значение имеют интегральные показатели, каковые отражают изучаемое явление в целом. Среди них выделяют:

Безотносительные размеры – эти показатели высказывают размеры (уровни, количества) процессов и явлений. Их приобретают в следствии сводки и статистического наблюдения исходной информации. Фактически каждая статистическая информация начинает формироваться с безотносительных размеров, и с их помощью измеряется большая часть сторон публичной судьбе.

По методу выражения размеров изучаемых явлений полные размеры подразделяются на личные, характеризующие размеры количественных показателей у отдельных объектов, и суммарные, дающие данные о численности совокупности и количестве показателей. Полные размеры постоянно имеют определенную размерность, единицы измерения. В зависимости от целей анализа используются натуральные, финансовые (стоимостные) и трудовые единицы измерения.

Относительные размеры нужны для сопоставления и сравнения данных. В большинстве случаев относительные размеры определяются как частное от деления двух безотносительных размеров и характеризуют количественное соотношение между ними. При расчете относительных размеров в числитель ставится показатель, отражающий то явление, которое изучается, а в знаменатель тот, с которым производится сравнение.

Итог отношения, т.е. искомая относительная величина, выражается в форме коэффициента, индекса, процента, промилле, децимилле. По собственному назначению относительные размеры подразделяются на следующие виды:

Относительные размеры структуры характеризуют состав изучаемых совокупностей. Исчисляются они как отношение безотносительной величины каждого из элементов совокупности к безотносительной величине данной совокупности, т.е. отношение части к целому и являются удельный вес части в целом. В большинстве случаев, относительные размеры структуры выражаются в процентах, к примеру таковой показатель как часть грамотного населения.

Х= n / N * 100% , где

Х – это относительная величина структуры;

n – величина изучаемой части совокупности;

N – величина всей совокупности.

Относительные размеры динамики характеризуют изменение изучаемого явления во времени, отражают направление развития, измеряют его интенсивность. Примером относительной величины динамики есть таковой показатель как темп роста, показывающий во какое количество раз изучаемый показатель больше либо меньше базового показателя.

X= Y / Z * 100%, где

X – относительная величина динамики;

Y – более поздний по времени показатель;

Z – более ранний по времени (базовый) показатель.

Относительные размеры сравнения характеризуют количественное соотношение одноименных показателей, относящихся к разным объектам наблюдения, либо обрисовывают соотношение между отдельными частями статистической совокупности, показывая, во какое количество раз изучаемая часть совокупности больше либо меньше части, которая принимается за основание. К примеру, эти размеры применяют для сопоставления уровня производства либо потребления в различных государствах.

X=K/M*100%, где

X – относительная величина сравнения;

K – величина изучаемой части совокупности;

M – величина части совокупности с которой производится сравнение.

Относительные размеры интенсивности показывают как обширно распространено изучаемое явление в той либо другой среде. Они характеризуют соотношение разноименных, но связанных между собой размеров. Рассчитываются относительные размеры интенсивности делением безотносительной величины изучаемого явления на безотносительную величину, характеризующую количество среды, в которой происходит развитие либо распространение изучаемого явления.

Относительная величина интенсивности показывает, сколько единиц одной совокупности приходится на единицу второй совокупности. К примеру, показатель плотности населения показывает, сколько человек приходится на 1 кв. км. конкретной территории.

X=A/B, где

X – относительная величина интенсивности;

A – величина изучаемой совокупности;

B – величина совокупности, характеризующей количество среды.

Тема 2. БАЗЫ ОПИСАТЕЛЬНОЙ (ДЕСКРИПТИВНОЙ) СТАТИСТИКИ

В ходе обработки количественных данных появляется необходимость определения обобщающих черт изучаемого показателя в исследуемой совокупности. Способы расчета таких обобщающих черт, обрисовывающих изучаемое явление, созданы в рамках описательной (дескриптивной) статистики. Показатели дескриптивной статистики делятся на меры среднего разброса и меры значения.

Меры среднего значения (средние величины) отражают обычные, обобщенные характеристики показателя в расчете на единицу совокупности, сглаживают случайные личные отклонения значения показателя, показывая то общее, что имеется у отдельных объектов, разрешают сравнивать по изучаемому показателю разные совокупности. Личные значения показателя у отдельных объектов, входящих в изучаемую совокупность, смогут не совпадать со средней величиной, но, при условии качественной однородности изучаемой совокупности, меры среднего значения выявляют объективные закономерности, свойственные массовым явлениям и незаметные в единичных случаях. К числу чаще всего применяемых в гуманитарных науках мер среднего значения относятся: средняя арифметическая, мода и медиана.

Для расчета средней арифметической объем показателя распределяется поровну между всеми единицами изучаемой совокупности.

, где

Хi – личные значения показателя каждой единицы совокупности;

n – число единиц совокупности.

В случаях недостаточной однородности совокупности, в то время, когда наблюдаются громадные колебания в крайних значениях показателя, для уточнения средней арифметической употребляется таковой показатель, как медиана. Для расчета медианы нужно упорядочить значения совокупности по возрастанию (убыванию) и определить значение показателя (число либо промежуток), находящийся по середине упорядоченного перечня значений.

При изучении качественных показателей для определения обобщающих черт совокупности употребляется число мода. Модой именуется самый популярный вариант качественного показателя, самоё типичное «актуальное» значение в изучаемой совокупности. Для получения данной величины осуществляется подсчет встречаемости вариантов изучаемого качественного показателя.

Меры разброса(вариации) характеризуют степень однородности изучаемой совокупности, показывают, как очень сильно варьируются значения показателя в данной совокупности, как значительно они отклоняются от среднего значения. К числу чаще всего применяемых в гуманитарных изучениях мер разброса относятся: дисперсия показателя, стандартное квадратичное отклонение, коэффициенты вариации и осциляции.

Дисперсия (D) характеризует величину отличия от среднего значения. Чем больше дисперсия, тем более неоднородной есть изучаемая совокупность. В случае если же разброс значений отсутствует по большому счету, т.е. все значения показателя в совокупности равны между собой, то дисперсия равна нулю.

, где

Хi – личные значения показателя каждой единицы совокупности;

– среднее значение показателя;

n – число единиц совокупности.

Дабы охарактеризовать распределение отклонений показателя в большинстве случаев употребляется таковой показатель, как среднее квадратичное (стандартное) отклонение(s). Он рассчитывается посредством извлечения квадратного корня из показателя дисперсии.

, где

Хi – личные значения показателя каждой единицы совокупности;

– среднее значение показателя;

n – число единиц совокупности.

Коэффициент вариации (V) показывает относительную величину стандартного отклонения в сравнении со средним арифметическим значением, разрешает сравнивать неоднородность совокупности по исходным показателям различной природы, измеренным в различных единицах. Рассчитывается коэффициент вариации в процентах. В случае если совокупность однородна, то вариация равна нулю, значения же коэффициента вариации превышающие 40% говорят о неоднородности данной совокупности.

, где

s – среднее квадратичное (стандартное) отклонение;

– среднее значение показателя.

Тема 3. ВЫБОРОЧНЫЙ СПОСОБ

Всю совокупность изучаемых в конкретном изучении посредством количественных способов объектов принято именовать главной совокупностью. В тех случаях, в то время, когда главная совокупность включает в себя через чур большое число объектов, либо в то время, когда эмпирические информацию об этих объектах фрагментарны, используется выборочный способ статистического изучения, при котором обобщающие показатели главной совокупности определяются посредством данных некоей ее части, выделенной на базе случайного отбора.

Эта отобранная из главной совокупности часть данных именуется выборочной совокупностью либо выборкой. При выборочном обследовании в большинстве случаев исследуются: или средний размер того либо иного показателя у единиц совокупности, или часть единиц, владеющих тем либо иным показателем, т.е. удельный вес определенных единиц в совокупности.

Наиболее значимым научным требованием к применению выборочного способа есть репрезентативность – свойство выборки отражать главные характеристики главной совокупности. Для соблюдения этого требования все объекты главной совокупности должны иметь равную возможность попасть в выборку.

Достигается репрезентативность через случайность отбора данных, к примеру, методом механического отбора (каждый десятый либо двадцатый объект главной совокупности) либо посредством генератора случайных чисел. Кроме этого употребляется типическое (либо районированное) выборочное наблюдение, с целью проведения которого, изучаемая главная совокупность предварительно подразделяется на как следует-однородные по значительному показателю группы, из которых в будущем производится случайный отбор.

Результаты отдельных выборочных наблюдений по одной и той же главной совокупности в большинстве случаев расходятся не только между собой, но и с чертями самой главной совокупности. Подобное расхождение именуется неточностью выборки.

Неточности выборки смогут быть как случайными, к примеру, в следствии погрешности внесения данных при регистрации либо случайного неравномерного включения в выборку объектов главной совокупности, так и систематическими, обстоятельством которых стало нарушение репрезентативности при отборе данных. Систематические неточности приводят к искажению результатов всего изучения, тогда как случайные смогут быть отслежены посредством особых процедур анализа.

Величина случайной неточности выборки зависит от принятого метода формирования выборочной совокупности, от количества выборки, от размера дисперсии изучаемого показателя в главной совокупности. Чем больше разброс значений, тем больше будет величина неточности. Для определения количественной характеристики отклонения показателя выборочной совокупности от показателя главной совокупности рассчитывается стандартная неточность выборки – m (Мю).

, где

s – среднее квадратичное (стандартное) отклонение;

n – количество выборочной совокупности.

Полученная величина стандартной неточности является интервалом (± m), что имеет собственную доверительную возможность, т.е. возможность того, что настоящая черта главной совокупности будет пребывать в промежутке равном размеру стандартной неточности выборки. Но в каждом конкретном случае расхождение между выборочным и главным показателем, т.е. ?, возможно больше либо меньше средней неточности ?. Исходя из этого ? именуют предельной неточностью выборки и разглядывают ее как t-кратное ?, т.е.:

?= t ? ,где

t – статистический коэффициент, равный 1 для возможности 68% (t=1); равный 2 для возможности 95% (t=2); равный 3 для возможности 99,7% (t=3).

Но, чем громадную возможность включения в доверительный промежуток значения главной совокупности исследователь желает взять, тем шире и неизвестнее делается сам промежуток. Исходя из этого, чаще всего употребляется t=2. Так, доверительный промежуток, в котором находится изучаемое значение главной совокупности, выглядит следующим образом:

выборки – t ? ? ген. совокуп. ? выборки + t ?

Доверительный промежуток разрешает 1) распространить выборочные эти на итоговые размеры главной совокупности, для чего нужно знать количество главной совокупности; 2) сравнивать разные выборки между собой. В случае если средние значения двух выборок при t=3 находятся в одном доверительном промежутке, то различия этих значений случайны, а если они не совпадают (не пересекаются), то эти различия статистически значимы.

В то время, когда требуется изучить удельный вес определенных единиц в главной совокупности употребляется вторая формула расчета m и, следовательно, доверительного промежутка:

, где

q – часть каждого значения в выборке;

n – количество выборки.

В этом случае доверительный промежуток выясняется в диапазоне:

q выборки – t ? ? Q ген. совокуп. ? q выборки + t ?

Тема 4. АНАЛИЗ СТАТИСТИЧЕСКОЙ Связи (1.11.12)

Гуманитарное изучение требует установления связи между публичными явлениями либо отдельными их сторонами, поскольку одни публичные явления смогут оказывать действие либо оказывать влияние на другие, приводя к их трансформациям. Исходя из этого принято различать свободные переменные (факторные показатели), каковые влияют, и зависимые переменные (результативные показатели), каковые изменяются под действием вторых.

Связи между показателями смогут быть как прямыми (с возрастанием одного показателя второй также растет), так и обратными (с ростом одного показателя второй – убывает). Связи различаются кроме этого и по собственной форме: они смогут быть выражены прямой линией (при таких условиях зависимость переменных между собой именуют линейной), преувеличением, параболой и т.п. В случае если связь выявляется между парой показателей, то эта зависимость именуется парной, в случае если же исследуется зависимость результативного показателя от нескольких показателей-факторов, то такая сообщение именуется многофакторной либо множественной.

Для установления ее (тесноты) направленности и силы связи (прямой либо обратной) употребляется способ корреляционного анализа, что изучает синхронность трансформаций значений двух либо более переменных. Коэффициент парной линейной корреляции (r) Пирсона рассчитывается по формуле:

r = Материалы к лекционному курсу , где

— каждое значение переменной Х;- среднее значение переменной Х

— каждое значение переменной У;- среднее значение переменной У

Коэффициент корреляции имеет диапазон значений [-1, +1]. Символ коэффициента корреляции (+ либо – ) показывает направление связи (прямая либо обратная). Сила связи определяется размером коэффициента: чем ближе полученное значение коэффициента к 1 либо –1, тем сообщение посильнее, а чем ближе к 0, тем не сильный.

Сообщение считается сильной, в случае если коэффициент превышает значение ±0,7, и не сильный, если он меньше ±0,3, 0,5 средняя.

На графике пример с крестьянскими хоз-ми – точкой на графике меж землёй и лошадьми (облако точек на протяжении гипотетической прямой от нуля по взаимосвязи)

Отсутствие связи – также вывод.

Найденная в следствии корреляционного анализа связь между двумя переменными может оказаться случайной. Дабы избежать ошибочных выводов на ее базе нужно вычислить уровень статистической значимости найденной связи, т.е. возможность случайности данной связи (t). Эта величина рассчитывается по формуле:

, где

r – значение коэффициента корреляции;

n – количество пар значений изучаемых переменных.

Чем больше значение (t), тем выше возможность того, что распознанная связь окажется случайной. В большинстве случаев для объективности выводов достаточно, дабы уровень статистической значимости был менее 0,05, т.е. возможность случайности связи менее 5%. (зависимость переменных выяснить нереально нельзя определить причину и следствие)

Возведение коэффициента корреляции в квадрат дает значение коэффициента детерминации, показывающего, в какой степени трансформации одной переменной воздействуют на другую.

Корреляционный анализ не может выяснить какая из двух переменных есть свободной (факторной), а какая зависимой (результативной), т.е. причинно-следственный темперамент изучаемой связи. Для решения этих задач употребляется способ регрессионного анализа. Для его применения требуется первоначально логически выяснить форму зависимости (линейная, параболическая, гиперболическая и т.п.).

Делается это методом построения диаграммы рассеяния – графика, на котором по горизонтальной оси (X) откладываются значения одной переменной, а по вертикальной (Y) второй. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных. В случаях строгой функциональной зависимости двух переменных эти точки находятся на одной прямой, направление которой показывает и направление связи (прямая либо обратная). В случаях нестрогой зависимости на графике формируется облако точек, направление которого возможно выяснить методом расчета линии регрессии, в случае если это прямая линия, то по формуле:

, где

x и y – переменные;

– величина значения зависимой переменной, в то время, когда свободная равняется нулю, рассчитываемая по формуле:

b – коэффициент регрессии, что рассчитывается методом преобразования исходной формулы:

Коэффициент регрессии показывает, как изменяется значение зависимой переменной с покон веков при трансформации свободной переменной x на единицу.

Тема 5. АНАЛИЗ Связи КАЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ(1.11.12)

Эмпирические эти, на основании которых строится гуманитарное изучение делятся на два главных вида: количественные (т.е. выраженные в цифрах чёрта изучаемого явления) и качественные(характеризующие разные качества изучаемого явления) показатели. По собственной природе качественные показатели смогут быть выражены числом лишь опосредовано, через подсчет количества, частоты и доли встречаемости данного показателя в изучаемой совокупности. Качественные показатели со своей стороны возможно поделить на ранговые, отношения между которыми упорядочены по принципу больше-меньше, лучше-хуже (к примеру, воинские звания либо экзаменационные оценки), и номинативные, в которых данный принцип не работает (к примеру, цвет волос либо национальность).

Для установления связи между ранговыми показателями в статистике создан коэффициент ранговой корреляции Спирмэна ( р):

Для расчета этого коэффициента значения переменных Х и У нумеруются в порядке возрастания либо убывания, т.е. им присваивается определенный порядковый номер в упорядоченном последовательности либо ранг. А после этого, ранги отдельных значений факторного показателя сопоставляются с рангами значений результативного показателя.

В случае если разность между рангами (d) равна нулю, т.е. ранги результативного показателя всецело совпадают с рангами факторного показателя, коэффициент Спирмэна будет равен 1, т.е. связь между переменными есть полной. Этот коэффициент, как и корреляция Пирсона, имеет диапазон значений [-1, +1]. Символ коэффициента корреляции (+ либо – ) показывает направление связи (прямая либо обратная).

Сила связи определяется размером коэффициента: чем ближе полученное значение коэффициента к 1 либо –1, тем сообщение посильнее, а чем ближе к 0, тем не сильный.

Требования(0,61) соц состав корреляция (0,32) степень организваности(0,42) способ(0,7) (таблица)

Для анализа связи между номинативными качественными показателями существует несколько способов, основанных на изучении распределения значений номинативных показателей посредством перекрестной таблицы частот, именуемой кроме этого таблицей сопряженности (прямоугольная таблица, в строчках которой указываются значения одной переменной (х), а в столбцах – второй (у). В ячейках таблицы проставляются числа, показывающие, сколько единиц совокупности видится с сочетанием каждого из вариантов каждой переменной. В зависимости от характера распределения частот в таблицы возможно делать выводы о том, существует ли связь между данными переменными. В случае если изучается распределение номинативных показателей лишь по двум вариантам значений (наличие либо отсутствие качества), то любая ячейка таблицы приобретает собственную индикацию, выраженную латинскими буквами a, b, c, d, а сама таблица сопряженности имеет форму:

у1 у2
х1 a B
х2 c D

Для примера таблица по белым офицерам, где видно что уроженцы семьи служащих были офицерами, а не служащие рядовые

Соц происхождение оказывало влияние на карьеру

офицеры рядовые
служащие
не

Q=0,82(сообщение прочная Взаимосвязь и)

прямая двух переменных определяется в этом случае посредством двух коэффициентов, находящихся, как и коэффициенты корреляции в диапазоне [-1, +1]. Чем ближе к 1 полученное значение, тем сообщение посильнее, чем ближе к 0, тем не сильный. Это коэффициенты ассоциации (Q) и контингенции (j):

;

рядовы прапор Млад.офцер Всего
Рабочие
Крестьяне
служащие
всего

Перекрёстная таблица

В случае если любая из переменных х и у имеет более двух вариантов значений, то таблицы сопряженности имеют большее число столбцов и строк. Для анализа связи между показателями при таких условиях прибегают к построению таблицы ожидаемых частот, в которую вносят результаты гипотетического (случайного) распределения значений переменных, основанного на условии отсутствия влияния факторного показателя на результативный.

Эмпирическое распределение значений исследуемых переменных из таблицы сопряженности сравниваются с гипотетическим распределением этих же переменных в таблице ожидаемых частот. В случае если показатель (переменная), положенный в базу группировки по столбцам не зависит от показателя, положенного в базу группировки по строчкам, то значения в таблице сопряженности и в таблице ожидаемых частот совпадут.

Но в большинстве случаев эмпирическое распределение не сходится с гипотетическим и оценить случайность либо закономерность таких расхождений разрешают статистические параметры согласия хи-квадрат (?2), что рассчитывается на базе суммирования квадратов разностей эмпирических и ожидаемых частот (наряду с этим число степеней свободы К определяется произведением (число строчков К1 – 1)*(число столбцов К2 – 1)). и показатель обоюдной сопряженности (?2), рассчитываемый как сумма взаимоотношений квадратов частот каждой клетки таблицы к произведению итоговых строки и частот столбца минус единица. Чем ближе значение (?2) и (?2) к нулю, тем связь между переменными не сильный.

;, где

f1 – значения эмпирической таблицы сопряженности;

f2 – значения гипотетической таблицы ожидаемых частот;

fij – значения эмпирической таблицы, в которой i – номер строчка, а j – номер столбца;

Аij – итоговые частоты по столбцам и строкам.

Тема 6. МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ

Многомерные модели употребляются для описания объектов в n- мерном пространстве показателей и делают такие интеллектуальные функции, как структурирование эмпирической информации, классификация, экстраполяция, сравнение, проверка догадок.

По большому счету существую многомерны факторный анализ – классивикация показателей и объектов.

Многомерный факторный анализ.Главная мысль факторного анализа сводится к тому, что в случае если пара показателей, измеренных на группе объектов, изменяются согласовано в одном направлении, то возможно предположить существование одной неспециализированной обстоятельства данной совместной изменчивости – фактора, как скрытой (латентной), конкретно не дешёвой измерению переменной. Так, основная цель факторного анализа – уменьшение размерности данных с целью их экономного описания при условии минимальных утрат исходной информации.

Результатом факторного анализа есть переход от множества исходных переменных к значительно меньшему числу новых переменных – факторов. Фактор наряду с этим интерпретируется как обстоятельство совместной изменчивости нескольких исходных переменных. В случае если исходить из того, что корреляции (совместные трансформации) смогут быть растолкованы влиянием скрытых обстоятельств – факторов, то главное назначение факторного анализа – анализ корреляции множества показателей.

В программе SPSSбаза этот таблица а по признакам и объектам трансыормируется в матрицу корреляции программа сортирует по типу информации по связи и появляется таблица «с» факторныйх нагрузок (факторы и признаки)

На начальной стадии факторного анализа рассчитывается матрица парных коэффициентов корреляции исходных показателей, которая фиксирует степень связи между каждой парой показателей. На ее базе группы согласованно изменяющихся показателей объединяются в факторы, и строится новая матрица, в которой рассчитываются коэффициенты связи между отдельными показателями и каждым из факторов.

Данный коэффициент, высказывающий меру влияния фактора на показатель, именуется факторной нагрузкой, а матрица, в которую он записывается – факторной матрицей. Факторная матрица фиксирует степень линейной связи каждого показателя с каждым причиной. Величина факторной нагрузки не превышает по модулю единицы, а символ ее говорит о прямой (хорошей) и обратной (отрицательной) связи показателя с причиной.

Чем больше безотносительная величина факторной нагрузки показателя по некоему фактору, тем в основном данный фактор определяет этот показатель. Величина проявления фактора у отдельного объекта именуется факторным весом объекта по этому фактору. Факторные веса разрешают ранжировать, упорядочивать объекты по каждому фактору.

Чем больше факторный вес некоего объекта, тем больше в нем проявляется закономерность, отражаемая данным причиной.

Факторная модель позволяет вычислять вклады факторов в неспециализированную дисперсию показателей. Суммируя квадраты факторных нагрузок для каждого фактора по всем показателям, возможно взять вклад каждого фактора в неспециализированную дисперсию совокупности показателей. Чем больше вклад фактора в неспециализированную дисперсию, тем более значимым и значительным есть сам фактор.

Наряду с этим выявляется и оптимальное количество неспециализированных факторов, достаточно прекрасно обрисовывающих совокупность исходных показателей.

Способ основных компонентов даёт разброс, что измеряется посредством коэффициента корреляции при преувеличении до 65 % (в большинстве случаев первый фактор трудится уже 60%)

Многомерная классификация включает большое число способов, таких как кластер-анализ, дискриминантный анализ, многомерное шкалирование, таксономия и т.д., объединенных неспециализированными целями построения математически обоснованной типологии объектов. В сравнительных изучениях чаще всего употребляется агломеративно-иерархический кластер-анализ,что решает задачу построения классификации, т.е. разделения исходного множества объектов на группы (классы, кластеры), в которых объекты больше похожи, нежели на объекты из вторых групп.

В базе данного способа лежит условие, что все m показателей измерены в количественной шкале, а любой из n объектов возможно представлен точкой в m-мерном пространстве показателей. О сходстве объектов возможно делать выводы по расстоянию между соответствующими точками. Объекты тем более близки, чем меньше различий между одноименными показателями.

Для определения близости пары точек в многомерном пространстве количественных показателей употребляется евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, забранных для данной пары объектов. Подсчитав значения расстояний для всех вероятных пар объектов, их помещают в квадратную матрицу размером m х m (матрицу расстояний), которая делается базой для реализации агломеративно-иерархического способа.

Главная мысль данного способа содержится в последовательном объединении собираемых объектов – сперва самых родных, а после этого все более удаленных друг от друга. Процедура построения классификации складывается из последовательных шагов, на каждом из которых производится объединение двух ближайших групп (кластеров) объектов.

На начальной стадии кластер-анализа рассматривается начальная матрица расстояний между объектами, и по ней определяется минимальное расстояние. Самый родные объекты, находящиеся между собой на этом расстоянии, объединяются в один кластер. Потом рассчитывается расстояние от взятого кластера до всех остальных объектов, как среднее из расстояний от объектов первого кластера (от слова ргроздь) до всех остальных.

После этого снова ищется минимальное расстояние между точками и формируется новый кластер. Данный кластер возможно выстроен в следствии объединения или двух объектов, или одного объекта с кластером, выстроенном на начальной стадии. В конце процедуры объединения объектов в кластеры и кластеров между собой получается один кластер, объединяющий всю совокупность объектов.

Результаты многомерной классификации воображают в виде дендрограммы, содержащей n уровней, любой из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. В итоге предстает математически обоснованная классификация либо типология объектов.

Способ кА средних, в то время, когда мы не знаем какое количество групп нам нужно взять, тупо делим одно облако точек на 2ва программой

Программа измеряет, перебрасывет точку и контролирует разброс, в случае если разброс возрастает оставляют

Тема 7. АНАЛИЗ ДИНАМИЧЕСКИХ Последовательностей

Рядом динамики именуется последовательность числовых значений статистического показателя, характеризующих изменение изучаемого явления во времени. Каждое отдельное числовое значение показателя, составляющее динамический последовательность именуется уровнем последовательности. Любой уровень последовательности сопровождается указаниями о тех периодах либо моментах времени, к каким он относится.

Исходя из этого все показатели последовательностей динамики разделяются на моментные, обрисовывающие состояние явления на тот либо другой момент времени, и интервальные, отражающие результат развития какого-либо процесса либо явления за определенный временной отрезок. Любой уровень интервального последовательности является суммойуровней за более маленькие промежутки времени. Наиболее значимым условием анализа динамических последовательностей есть – сопоставимость уровней динамического последовательности, снабжающая валидность данных.

К главным аналитическим показателям последовательностей динамики относятся: средний уровень последовательности, безотносительный прирост, темп роста, темп прироста, главная тенденция (тренд) развития, коэффициент корреляции последовательностей динамики и автокорреляция.

Средний уровень последовательности рассчитывается по формуле средней арифметической (См. стр. 10 настоящего пособия) для интервальных либо формуле средней хронологической для моментных показателей.

Вычислив средний уровень последовательности, возможно найти отличие отдельных уровней последовательности от этих средних значений, т.е. вычислить дескриптивные меры разброса – стандартное коэффициент вариации и квадратичное отклонение (См. стр. 11 настоящего пособия).

Расчет большинства показателей динамики основан на сравнении между собой уровней последовательности динамики. Наряду с этим, уровень с которым производится сравнение именуется базовым (либо базой сравнения). В большинстве случаев таковой базой сравнения выступает или прошлый уровень (тогда полученные при расчетах показатели именуются цепными), или начальный (первый) уровень последовательности (постоянная база сравнения), или средний уровень.

Полный прирост рассчитывается как разность между двумя уровнями последовательности и показывает, на какое количество единиц увеличился (либо уменьшился) сравниваемый уровень если сравнивать с базовым, т.е.:

П = yi – yi-t , где

П – полный прирост за t единиц времени;

yi – сравниваемый уровень;

yi-t – базовый уровень.

Темп роста – относительный показатель, показывающий, во какое количество раз изменился изучаемый уровень, если сравнивать с базовым. Рассчитывается он как частное от деления сравниваемого уровня (yi) на базовый (yi-t):

,, где

П – полный прирост за t единиц времени;

yi-t – базовый уровень.

Темп прироста – относительный показатель, показывающий, на какое количество процентов изучаемый уровень больше (либо меньше) базового уровня, принятого за 100%, и характеризующий скорость трансформации уровня, т.е. интенсивность процесса роста.

Одними из наиболее значимых задач анализа динамических последовательностей являются выделение однородных этапов развития явления, черта тенденций в рамках выделенных этапов и обнаружение закономерности трансформации уровней динамического последовательности, обрисовывающего изучаемое явление. Главная тенденция (тренд) развития показывает неспециализированное направление трансформации уровней динамического последовательности, т.е. тенденцию к возрастанию, убыванию, стабилизации либо циклическому формированию изучаемого явления либо процесса.

Для количественной чёрта главной тенденции употребляются как средние величины динамического последовательности (к примеру, скользящая средняя, обрисовывающая средний уровень последовательности за соответствующий период), так и сглаживание (выравнивание) данных разными способами аппроксимации (линейным, логарифмическим, полиномиальным, степенным, экспоненциальным). Причем, вычисление тренда разрешает не только сглаживать (аппроксимировать) и графически отображать тенденции данных, но и прогнозировать их поведение. Применяя регрессионный анализ, возможно продолжить линию тренда в диаграмме за пределы настоящих данных для предсказания будущих значений.

Изучение взаимообусловленности динамики нескольких динамических последовательностей требует обращения к способу корреляции (См. стр. 14. настоящего пособия). Рассчитывая коэффициент корреляции между уровнями одного последовательности (х) и другого (у) возможно охарактеризовать тесноту зависимости между колебаниями данных двух последовательностей, позванными действием как случайных, так и основных обстоятельств, определяющих тренд.

Наряду с этим, нужно учитывать, что трансформации уровней одного последовательности смогут приводить к изменению уровней другого последовательности лишь через определенный временной отрезок, исходя из этого, дабы верно оценить взаимообусловленность переменных в отдельных случаях приходится коррелировать последовательности с временным лагом. В случаях, в то время, когда в рядах динамики отмечается определенная зависимость последующих значений переменной от предшествующих (либо базовых) рассчитывается автокорреляция, показывающая направление данной зависимости и тесноту распознанной связи.

Тема 8. БУЛЕВА АЛГЕБРА В СРАВНИТЕЛЬНЫХ Изучениях

Булева алгебра появилась, как исторически первый раздел математической логики в середине ХIХ века, и названа по имени Джорджа Буля (1815-64гг.), что первым представил логику в качестве алгебры классов, связанных операторами «и», «либо», и «не». С его работ начинается алгебра логики, в которой способы алгебры употребляются для операций над высказываниями, в отношении каждого из которых возможно утверждать лишь то, что его содержание действительно либо ложно. В компаративистике булева алгебра употребляется с конца 1980-х гг., как методика анализа качественных показателей (Чарльз Рэйджин в рабочем движении, Абель, Ром, Петтерс, Марков).

В булевой алгебре качественное высказывание интерпретируется или как подлинное (наличие качества), или как фальшивое (отсутствие качества). Эти два утверждения кодируются бинарной совокупностью исчисления (1 и 0): 1 приписывается истине, 0 – лжи.

В сравнительных изучениях в большинстве случаев возможно найти определенный комплект высказываний, что обрисовывает наличие либо отсутствие в группе регионов либо государств некоторых условий, а соответственно – наличие либо отсутствие некоторых следствий из этих условий. Следовательно, применяя двоичные обозначения, возможно закодировать как совокупность условий, так и совокупность следствий и полученные последовательности цифр свести в таблицу истинности, в которой каждой комбинации условий будет соответствовать определенное следствие.

Рис.1 Гипотетическая таблица истинности, показывающая сочетания трех обстоятельств для одного следствия

Условие А. Условие В. Условие С. Следствие F. Число примеров

*Рэйджинс разбирал армейские перевороты…три условия воздействуют…наличие конфликта в армии….смерть диктатора…конфликт между силами и армией гос безопасности…кмбинации: не выполн все условия…и т.п.

В представленной таблице цифрой 1 закодировано наличие условий А, В, С и следствия F, 0 – отсутствие таковых условий. Причем не имеет значение, что число примеров в каждой комбинации различно, принципиально важно только то, что все последовательности таблицы истинности (не считая первого) показывают наличие следствия.

Таблица истинности иллюстрирует догадку, в соответствии с которой следствие F наступает при сочетания условий А, В, и С. Это сочетание (дизъюнкция) обозначает операцию соединения двух и более высказываний при помощи логического альянса «либо» для производства более сложного высказывания. Альянс «либо» не предполагает тут связи между высказываниями по смыслу, а лишь по их истинности либо ложности.

В случае если из двух высказываний хотя бы одно есть подлинным, то и полученное сложное высказывание есть так же подлинным. Другими словами, в случае если А+В=F, то F=1 при А=1 и В=1 либо при А=1 и В=0, либо при А=0 и В=1. Вторыми словами в булевой алгебре 1+1=1, 1+0=1 и 0+1=1.

Высказывание А+В=F читается: в случае если А действительно либо В действительно, то F кроме этого действительно. При двух фальшивых высказываниях полученное высказывание есть кроме этого фальшивым, т.е. 0+0=0.

Следовательно, для описания догадки, предложенной в таблице истинности логическое высказывание будет иметь вид F=А+В+С.

Высказывание, соединенное логическим оператором «и» есть логическим произведением и описывается посредством несложного соположения (АВ). Прописными буквами обозначаются подлинные высказывания (наличие качества), а строчными – фальшивые (отсутствие качества). Так, второй последовательность приведенной таблицы истинности возможно представлен логическим выражением Abc. Для отечественного примера, применяя логические операторы «и» и «либо», возможно записать суммарное выражение для F следующей формулой:

F=Аbc+aBc+ abC+ABc+AbC+aBC+ABC

По окончании представления таблицы истинности в виде формулы, догадка о наступлении следствия F, при сочетания условий А,В и С, подвергается проверке посредством техники булевой минимизации. Главное правило минимизации, применяемое в качественном сравнительном изучении, пребывает в следующем: В случае если два булевых выражения, говорящих об одном и том же следствии, различаются между собой лишь одним условием, тогда оно возможно упразднено при построении более несложного объединенного выражения.

К примеру, высказывания АВс и Abc оба создают итог F, но наряду с этим отличаются отсутствием и наличием одного и того же условия b и В. Итогом минимизации этих двух выражений станет произведение Ас. Процедура минимизации длится до тех пор пока это вероятно. В окончательном варианте процесс минимизации отечественного гипотетического выражения создаёт редуцированное равенство: F=А+В+С, что обосновывает отечественную догадку.

Так, применение булевой алгебры в сравнительном изучении разрешает решать последовательность задач. Во-первых, булева алгебра разрешает определение и фальсификацию догадок сравнительного изучения. Во-вторых, булева алгебра разрешает включить в анализ предельное количество вероятных комбинаций условий.

В-третьих, она разрешает осуществлять типологию феноменов и процессов, вовлеченных в сравнительное изучение. В-четвертых, булев подход разрешает осуществить оценку взаимодополняющих либо соперничающих догадок. В-пятых, техника булевого анализа оказывает помощь в один момент изучить целостность следствий и причин, и отдельных элементов данной целостности.

Изучение Аракана по рабочему движению в западной европпе позванному рабочим движением по окончании октябрьской революции. Условия: устанавливало ли национальную церковь либо католики, участие церкви в массовом образовании, ориентировано ли гос-во на буржуа либо земельных собственников, время формирования единого гос-ва(время объединения новое время) по 6 комбинациям примеров не было не удалось…оказалось 3 комбинации с расколом…маленькое участие церкви в массовом образов. В молод го свах ориентированных на италия норвегия финляндия исландия

Маленькое участие церкви в массовом обр с длит гос в католич испания и франция

Значит уч церкви в протестантских государствах с зашитой буржуа а германии

Становление университетов гос.общего благосостояния

А.Хикс., Джуайямиксра как законодательство 20гг оказало влияние на становление страны общего благосостояния

1. патриархальная гос-ть

2. унитарная народовластие

3. мобилизация рабочего класса

4. наличие либерального правительства

5. наличие католического правительства

3 пути в то время, когда патриархальное гос-ть сочит с высок мобил отсут катол прав и тоталитарной демокр в германии и австрии(бисмеровский)

Либер прав мобил рабоч класса т тоталитарн бемокр в дани швец и брит(либерально-демократич)

Католического правительства без тотал прав нидерланды и бельгия(католическо-патреналистский)

Тема 9. КОНТЕНТ-АНАЛИЗ ТЕКСТОВ В ГУМАНИТАРНЫХ Изучениях

Контент-анализ – это формализованный способ изучения содержания информации при помощи обнаружения устойчиво повторяющихся смысловых единиц текста (названий, понятий, имён, суждений и т.д.). Он предполагает перевод в количественные показатели массовой текстовой информации с последующей статистической ее обработкой для оценки и содержания и интерпретации формы информационного источника.

В базе способа лежит подсчет частот появления в тексте определенных смысловых единиц (переменных) содержания, и изучение характера применения этих смысловых единиц автором контекста и текста их потребления. Вероятны и варианты, в то время, когда выводы смогут быть сделаны кроме того на основании единственного присутствия либо отсутствия определенной смысловой единицы в тексте.

Смысловыми единицами текстаобычно являются:понятия, выраженные в отдельных терминах;группы понятий, объединенных тематической областью (категорией);темы, выраженные в целых смысловых абзацах, частях текстов;имена личные;отдельные факты;аппеляции к потенциальному адресату.

Независимое значение имеет подсчет общего числа употребленных в тексте слов – имен существительных, прилагательных, глаголов и т.п. Это разрешает оценить «ясность» языка документа, его организованность и сложность. Наряду с этим слово (словосочетание) выступает несложной единицей анализа.

Распространенными неточностями в применении контент-анализа являются: 1) Оперирование нестандартизированными мерами при сравнении различных текстов (к примеру, применение в выводах не относительных, а безотносительных частот); 2) Многозначительность некоторых слов, которая возможно прояснена лишь из контекста потребления.

Виды контент-анализа: 1) Автоматическая классификация документов по содержанию – употребляется при составлении рубрикаторов, каталогов, библиографических баз данных; 2) Семантический анализ, изучающий организацию слов около некой идеи, для чего изучаемый текст сводится к ограниченному комплекту определенных элементов, каковые после этого подвергаются анализу на базе фиксации их повторяемости корреляции и частоты символов между собой; 3) Структурный анализ обращает внимание не на то, что говорится в тексте, а на то, как говорится. В этом случае единицами измерения становятся: время либо печатного пространства (колонок, статей) уделенного в тексте (корпусе текстов) интересующему исследователя предмету, место разных сюжетов в тексте (к примеру на какой странице газеты размещен текст и сопровожден ли иллюстрацией), размер заголовка; 4) Концептуальный анализ, при котором, слова, обрисовывающие изучаемые явления, сводятся в обобщенные концептуальные образования (категории либо тематические области) и производится анализ частот уже не отдельных слов, а этих категорий; 5) Анализ co-occurency, ориентированный на изучение совместной встречаемости отдельных слов разных категорий в тексте; 6) Concordens -анализ, изучающий частоту встречаемости в тексте разных классов лексики; 7) Когнитивное картирование, употребляющееся при изучении совокупности аргументации автора текста, разрешающее преобразовать линейную аргументацию в иерархическое древо и выстроить иерархическую модель понятийных структур; 8) Анализ Data Mining и Контент-мониторинг, занимающиеся обнаружением как следует новых данных в общ

Сущность статистического показателя Абсолютные статистические показатели, единицы их измерен


Удивительные статьи:

Похожие статьи, которые вам понравятся:

Понравилась статья? Поделиться с друзьями: