Статистика



Сущность и задачи статистической проверки гипотез


Изучаемые статистикой массовые явления находятся в непрерывном развитии. С течением времени отдельные единицы исчезают. Например, при изучении совокупности предприятий отрасли необходимо иметь в виду, что несколько самостоятельных отдельных предприятий могут быть объединены в одно крупное предприятие (трест, холдинг и т.п.), а отдельные предприятия ликвидированы в связи с их банкротством. Изменяется состав типических групп (переход предприятий из одной формы собственности в другое) или появляются новые единицы совокупности (строительство новых предприятий, изменение профиля производства и др.).
С развитием теории изучаемого явления уточняются и изменяются также представления о самом явлении. Эти изменения касаются и цензов, предусматривающих однозначное толкование любой статистической совокупности в пространстве и во времени.
Кроме того, у исследователей, как правило, нет полных данных об изучаемой совокупности. Зачастую статистическое изучение того или иного явления базируется на данных выборочного наблюдения.
Поэтому любое статистическое исследование использует определенные предположения, допущения. Однако не каждое такое предположение называется гипотезой. Статистическими гипотезами называются только те предположения, которые можно проверить, опираясь на имеющиеся данные наблюдения. В математической статистике одним из основных ее разделов является теория испытания (проверки) гипотез. В нашей дисциплине мы ознакомимся только с некоторыми важными положениями этой теории.
Смысл проверки статистической гипотезы состоит в том, чтобы по имеющимся статистическим данным принять или отклонить статистическую гипотезу с минимальным рисков ошибки. Эта проверка осуществляется по определенным правилам.
Следует иметь в виду, что статистическая проверка гипотез имеет вероятностный характер. С помощью статистической проверки гипотез можно определить вероятность принятия ложного решения по тем или иным результатам статистического изучения данного явления. Если вероятность ошибки невелика, то статистические показатели исчисленные при изучении явления, могут быть использованы для практических целей при малом риске ошибки.
При проведении экономико-статистических исследований в первую очередь приходится решать задачи статистической проверки гипотез о:
1) принадлежности «выделяющихся» единиц исследуемой выборочной совокупности генеральной совокупности;
2) виде распределения изучаемых признаков;
3) величине средней арифметической и доли;
4) наличии и тесноте связи между изучаемыми признаками;
5) о форме корреляционной связи.

Критерий как инструмент проверки статистической гипотезы. Выбор типа критической области


При проверке гипотез возможны ошибки двоякого рода:
1) Ошибка первого рода – проверяемая гипотеза (ее обычно называют нулевой гипотезой и обозначают Н0) является в действительности верной, но результаты проверки приводят к отказу от нее;
2) Ошибка второго рода – проверяемая гипотеза в действительности является ошибочной, но результаты проверки приводят к ее принятию.

Суть нулевой гипотезы Н0 состоит в том, что если по изучаемому явлению проводить несколько различных наблюдений, то между полученными фактическими значениями статистической характеристики, полученной по ним, не будет существенных различий. Отсюда проверка нулевой гипотезы состоит в сопоставлении величины статистической характеристики, полученной по первичным данным, с наиболее вероятным (теоретическим) значением при приемлемом уровне надежности. Однако, как показывает практика, если проверка привела к выводу о принятии , еще не означает, что она верна: дальнейшие исследования могут привести к противоположному заключению и отклонению этой гипотезы.
Поэтому нулевую гипотезу тоже необходимо проверить, чтобы избежать указанных выше ошибок.
Для уточнения и проверки нулевой гипотезы рассматривают гипотезу являющуюся, ее логическим отрицанием или расширением и дополнением. Она называется альтернативной, конкурирующей (противоположной) и обозначается Н1. Альтернативная гипотеза может быть сформулирована по-разному в зависимости от возможных пределов изменения значений изучаемого статистического показателя, какие отклонения от принятого уровня значимости интересуют исследователя.
Например, по единицам совокупности изучается наиболее типичное значение определенного признака.

Альтернативные гипотезы могут быть сформулированы для этого примера так и .
Правило, по которому проверяется гипотеза, называется статистическим критерием.
В статистике в настоящее время имеется большое число критериев для проверки практически любых гипотез. Притом основные принципы их построения и применения являются общими:

  • 1) сформулировать проверяемую гипотезу . Наряду с проверяемой гипотезой формулируется также конкурирующая (альтернативная) гипотеза ;
  • 2) выбрать уровень значимости , отражающий допустимую вероятность ошибки первого рода;
  • 3) определить область допустимых значений и так называемую критическую область;
  • 4) принять ту ли иную гипотезу (то или иное решение) на основе сравнения фактического и критического значений критерия.

Уровнем значимости принято называть такое малое значение вероятности попадания теоретического значения критерия в критическую область при условии справедливости гипотезы. Обычно уровень значимости принимают равным 0,01 или 0,05.
Исходя из величины уровня значимости можно построить критическую область, под которой понимается такая область значений проверяемой статистической характеристики, попадание в которую приводит к отклонению гипотезы. То есть к критической области относятся те значения характеристики, появление которых при условии верности гипотеза было бы маловероятным (не больше уровня значимости ). Отсюда выбирается достаточно малым.
Все значения рассматриваемой характеристики, не принадлежащие к критической области образуют так называемую область допустимых значений. Если наблюдаемое значение характеристики находится в области допустимых значений, то проверяемая гипотеза принимается с вероятностью .

Проверка гипотезы о принадлежности выделяющих единиц исследуемой генеральной совокупности.


Как отмечалось в предыдущих лекциях неоднократного, изучение массовых явлений, как правило, осуществляется по неполной информации. В составе собранных данных могут встречаться единичные наблюдения, у которых отдельные значения изучаемых признаков заметно отличаются от общей тенденции изменения большинства значений. Причины таких отличий могут быть разными:

  • 1) из-за ошибок наблюдения;
  • 2) вследствие случайного стечения различных обстоятельств, каждый из которых в отдельности несущественный, но совокупное их влияние привело к таким резко выделяющимся от общей картины значениям признаков;
  • 3) как следствие нарушения однородности изучаемой совокупности.

В общем случае все значения изучаемых признаков фиксируются по известным единицам совокупности по их части, отобранной с учетом всех требований. Следовательно, первичные статистические данные, включая и резко «выделяющемся», соответствуют конкретным случаям проявления изучаемого явления. Следовательно, субъективное отбрасывание «выделяющихся» единиц недопустимо.

Понятие о критерии согласия (проверка гипотезы о соответствии эмпирического распределения нормальному)


Закон нормального распределения лежит в основе многих теорем и методов статистики при оценке репрезентативности выборки (расчете ошибки выборки и распространении характеристик выборки на генеральную совокупность); измерении степени тесноты связи и составлении модели регрессии; построении и использование статистических критериев и др.
Как показывают многочисленные статистические исследования, частоты (частости) эмпирических распределений за редким исключением будут отличаться от значений теоретического распределения. Расхождения между частотами (частостями) эмпирического и теоретического распределения могут быть несущественными и объяснены случайностями выборки и существенными при несоответствии выбранного и эмпирического законов распределения.
Для проверки гипотезы о соответствии эмпирического распределения теоретическому закону нормального распределения используются особые статистические показатели-критерии согласия (или критерии соответствия). К ним относятся критерии Пирсона, Колмогорова, Романовского, Ястремского и др.
Большинство критериев согласия базируется на использовании отклонений эмпирических частот то теоретических. Очевидно, что чем больше эти отклонения, тем хуже теоретическое распределения соответствует (описывает) эмпирическому (эмпирическое). Статистические характеристики таких критериев согласия являются некоторыми функциями этих отклонений.

Проверка гипотезы о величине средней арифметической и доли


Одной из важнейших статистических характеристик изучаемых статистических признаков является средняя арифметическая (или доля для альтернативных признаков).
При изучении массовых явлений часто возникает вопрос о существовании расхождений средней и доли по результатам двух наблюдений или между выборочной и генеральной совокупностями.
На следующем примере рассмотрим проверку гипотезы о существовании различия двух выборочных средних (для случая малых выборок).
По результатам оценки размеров дебиторской задолженности, проведеной финансовым директором фирмы, были внесены изменения в ее кредитную политику. По истечении отчетного квартала было решено проанализировать насколько эффективными были эти изменения, привела ли новая кредитная политика фирмы к сокращению срока оплаты дебиторской задолженности.

Предпосылки изучения корреляционной связи


Как неоднократно отмечалось в предыдущих лекциях по данной дисциплине, все явления объективного мира взаимосвязаны и взаимообусловлены. Связи между явлениями и признаками отличаются разнообразием. Основное вни-мание исследователей, как правило, приковано к причинно-следственным связям. При изучении таких связей одни признаки (процессы, явления) высту-пают в качестве факторов (независимых), обусловливающих изменение других признаков (зависимых, результативных).
Зависимость между признаками – факторами (факторными признаками) и признаками, которые являются результатом влияния этих факторов (результативными признаками) может быть функциональной или корреляционной.
Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативного признака, т.е. каждому значению признака-фактора соответствует строго определенное значение результативного признака.
Например, компонентная связь и взаимосвязь индексов.
В корреляционной связи между изменением факторного и результативного признака нет такого полного соответствия, воздействие факторов проявляется лишь в среднем при массовом наблюдении фактических данных.
Поскольку экономические явления относятся, как правило, к сложным, на формирование уровня результативного признака оказывают влияние многочисленные факторы. Для принятия практических решений учитываются только так называемые основные. В свою очередь сами факторные признаки могут зависеть от изменения ряда причин (факторов). Отсюда одному и тому же значению признака-фактора соответствует целый ряд значений результативного признака. Ведь в каждом конкретном случае степень зависимости тоже может измениться.
При изучении причинно-следственных связей решающее слово должно принадлежать теории (сущности) изучаемого явления. Теоретический анализ должен показать о наличии или возможности связи между данными признаками, какие факторы влияют на формирование и изменение данного результативного признака.
При исследовании корреляционных зависимостей решается широкий круг вопросов: 1) предварительный анализ свойств изучаемой совокупности; 2) установленные факта наличия связи, определение ее направления и формы; 3) измерение степени тесноты связи между признаками; 4) нахождение аналитического (математического) выражения связи или построение регрессионной модели; 5) оценка адекватности модели, ее интерпретации и практическое использование.


При проведении корреляционно-регрессионного анализа должны соблюдаться определенные требования:

  • 1) необходимо обеспечить качественную однородность изучаемой совокупности. Например, при изучении зависимостей между технико-экономическими показателями необходимо отбирать не только предприятия одной отрасли, но также предприятия, выпускающие однородную и однотипную продукцию, имеющие одинаковый характер техпроцессов и тип использующего оборудования;
  • 2) однородность изучаемой совокупности следует дополнить количественными характеристиками совокупности (с применением показателей вариации, проверки гипотезы о принадлежности «выделяющихся» или аномальных значений признака исследуемой совокупности);
  • 3) учет требований закона больших чисел: исходные данные должны быть массивными, представительными;
  • 4) включаемые в исследование признаки-факторы должны быть основными (оказывать, решающее влияние на уровень результативного признака) и быть независимыми друг от друга (не должны дублировать друг друга);
  • 5) при практическом применении результатов изучения корреляционной связи следует иметь в виду, что все основные положения теории корреляции и регрессии разрабатывались из предложения о нормальном характере распределения рассматриваемых признаков.

Поэтому целесообразно проверить правомерность такого подхода (изучить формы распределения признаков).
Изложенное указывает на то, что корреляционно-регрессионный анализ применяется преимущественно только к признакам, которые имеют количественное выражение.

Статистические методы выявления корреляционной связи


Корреляционная связь, как видели из материала п.1 данной темы, характеризуется согласованностью в вариации значений признаков. Однако согласованность эта не всегда свидетельствует о наличии причинно-следственной связи между рассматриваемыми признаками. Так например, согласованность в вариации значений признаков может быть следствием какой-либо одной, общей для них причины, или отражать случайное совпадение в изменениях признаков, не находящихся между собой в какой-либо связи. Неправильно возлагать полностью на статистику задачу установления наличия связи. Статистика только обнаруживает и характеризует фактическое проявление связи, указания на возможность которой дает теория изучаемого явления.
Именно теоретический анализ указывает на вытекающую из существа изучаемого явления возможность связи между признаками, процессами, сопровождающими это явление. Однако теория не может дать ответ на вопрос, проявляется ли в действительности и как проявляется теоретически возможная связь в данных конкретных условиях.
При статистическом изучении корреляционной связи между признаками исходным материалом являются данные об индивидуальных значениях этих признаков в изучаемой статистической совокупности.
Статистическая наука в настоящее время располагает большим набором приемов (методов) выявления корреляционной связи. Одни приемы можно отнести к элементарным (простейшим), другие предусматривают использование специального сложного математического аппарата.
К так называемым элементарным приемам (методам) выявления наличия корреляционной связи относятся: параллельное сопоставление рядов значений факторного и результативного признаков, графическое изображение фактических данных с помощью поля корреляции, построение групповой и корреляционной таблиц, факторные (аналитические) группировки и исчисление групповых средних.
К сложным методам изучения взаимосвязей относятся балансовые таблицы, дисперсионный анализ, методы теории корреляции и регрессии, методы многомерного анализа, методы распознавания образов, метод главных компонентов и др.
При отсутствии ярко выраженной причинной связи между факторным и результативным признаками наличие и характер связи можно установить при помощи метода параллельных рядов: в одной таблице приводятся упорядоченные значения факторного признака, который обычно обозначается символом х, и соответствующие им значения результативного признака, который обычно обозначается символом у.
Наличие и характер связи определяется по степени согласованности вариации данных рядов.
В тех случаях, когда возрастание величины факторного признака влечет за собой возрастание величины результативного признака, говорят о возможном наличии прямой корреляционной связи. Если же с увеличением факторного признака величина результативного признака имеет тенденцию к уменьшению, то можно предполагать обратную связь между этими признаками.


Параллельное сопоставление рядов индивидуальных значений в данном случае показывает на наличие прямой корреляционной связи по мере увеличения производственного стажа размер дневной заработной платы повышается.
Метод параллельных рядов обычно используется для установления характера связи при относительно небольшом объеме исходного материала. Однако при наличии большого числа значений признаков, когда одному и тому же значению признака-фактора, как правило, соответствует несколько различных значений результативного признака, восприятие параллельных рядов сильно затрудняется. В этих случаях целесообразно для установления наличия связи воспользоваться методом построения корреляционных таблиц.
Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. В корреляционной таблице, как правило в подлежащем указывается факторный признак х, а в сказуемом – результативный признак у.
В корреляционной таблице указываются частоты: сколько раз данная величина одного признака повторяется в сочетании с соответствующей величиной другого признака. Итоговые графа и строка отражают распределение единиц совокупности по рассматриваемым признакам.
Если частоты в корреляционной таблице расположены на «главной» диагонали (из левого верхнего угла в правый нижний угол), но можно предположить наличие прямой корреляционной зависимости между признаками. Если же частоты расположены по «вспомогательной» диагонали (из левого нижнего угла в правый верхний угол), то предполагают наличие обратной связи между признаками.
Следует подчеркнуть, что при рассмотрении корреляционной таблицы важно установить расположение основной части частот. Возможны варианты, что все клетки корреляционной таблицы окажутся заполненными. Однако это обстоятельство еще не означает, что корреляционная связь между данными признаками отсутствует. Если основная масса частот расположена по той или иной диагонали, то корреляционная связь между признаками существует.
Корреляционная таблица позволяет сжато, компактно и достаточно наглядно изложить исходный материал. Поэтому даже расчеты по методам корреляции и регрессии можно вести по корреляционной таблице.

Корреляционные таблицы


Анализ корреляционной таблицы также подтверждает о наличии между рассматриваемыми признаками положительной корреляционной связи.
Корреляционная таблица, как и метод параллельных рядов, полностью базируется на сопоставлении индивидуальных значений изучаемых признаков. А индивидуальные значения формируются под влиянием как основных, так и случайных факторов.
Корреляционная связь обнаруживается более ясно, четко, если влияние случайных факторов удается нивелировать. Это обеспечивается при применении для выявления наличия корреляционной связи метода аналитической группировки и исчисления групповых средних.
Метод аналитической группировки и исчисления групповых средних состоит в следующем:
а) совокупность результатов наблюдений разбивается на группы по величине факторного признака и для каждой группы вычисляется средняя величина результативного признака.