6. Ряды распределения...

Понятие и виды статистических рядов

Четверг, Март 27th, 2008

Зарегистрированные в результате наблюдения индивидуальные значения изучаемого варьирующего признака образуют так называемый первичный ряд.
Первым шагом в упорядочении первичного ряда является его ранжирование. Располагая значения признака первичного ряда, например, в возрастающем порядке, получают ранжированный ряд.
Рассмотрим первичный ряд, полученный при регистрации уровня квалификации рабочих
Рассматривая этот ранжированный ряд, мы видим, что некоторые значения признака повторяются у разных рабочих (единиц совокупности).
Оформим результаты наблюдений более компактно, поставив в соответствие каждому значению признака подсчет численности единиц совокупности, имеющих одинаковые значения признаков.
Получим ранжированный (упорядоченный) ряд, характеризующий распределение изучаемого признака по единицам совокупности. В статистике такие ряды принято называть рядами распределения.
При достаточно большом числе единиц совокупности даже для несплошного наблюдения, приведенное выше упорядочение данных наблюдения может быть громоздким. Поэтому, такое ранжирование, как правило, сопровождается группировкой и сводкой. Изучаемый признак в этом случае является группировочным.
Отсюда общее определение:
Статистические ряды распределения – это упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.
Любой статистический ряд распределения состоит из двух элементов:

  • А) из упорядоченных значений признака или вариантов;
  • Б) количества единиц совокупности, имеющих данные значения, называемых частотами. Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями.

Т.о., варианта – это отдельное значение (или вариант отдельной группы) варьируемого признака, которые он принимает в ряду распределения. Говоря о частотах надо иметь в виду, что сумма частот составляет объем изучаемой совокупности (или, по другому, объем ряда распределения).
Буквой “X” принято обозначать варианту признака, а буквой f – частоту.
По своему содержанию признаки могут быть атрибутивными или количественными.
Ряды распределения построенные по атрибутивному (или качественному) признаку называются атрибутивными рядами распределения.
Например, распределение студентов по форме обучения, по факультетам, по специальностям и т.д.
Ряды распределения, построенные по количественному признаку называются вариационными рядами.
Например, распределение работников по стажу работы, по уровню заработной платы, по производительности труда и т.д.
Изучаемые в статистике признаки являются изменяющимися.
По характеру изменения (вариаций) значений признака различают:

  • А) признаки с прерывным изменением;
  • Б) признаки с непрерывным изменением.

Признаки с прерывным изменением могут принимать лишь конечное число определенных значений (например, тарифный разряд работников, количество станков и т.д.).
Признаки с непрерывным изменением могут принимать в определенных границах любые значения (например, стаж работы, размер зарплаты, пробег автотранспорта и т.п.)
По способу построения различают дискретные (прерывные) вариационные ряды, основанные на прерывной вариации признака, и интервальными(непрерывными), базирующиеся на непрерывно изменяющемся значении признака.
При построении дискретного вариационного ряда в первой графе(строке) указываются конкретные значения каждого индивидуального значения признака (т.е. каждой варианты), а во второй графе(строке) – частоты или частости.
Например ряд, характеризующий распределение работников по тарифным разрядам.

Четверг, Март 27th, 2008

При построении интервального вариационного ряда отдельные значения вариант указываются в значениях “от - до”.
Интервалы можно брать как равные, так и неравные. Для каждого из них указываются частоты и частости, (т.е. абсолютное или относительное числа единиц совокупности, у которых значение варианты находится внутри данного интервала).
Первый и последний интервалы ряда во многих случаях берутся незакрытыми, т.е. для первого интервала указывается только верхняя граница (“до… ”) а, для последнего только нижняя (“от… и выше”, “свыше…”). Использование незакрытых интервалов удобно, когда в совокупности встречается незначительное количество единиц, с очень малыми или очень большими значениями признака, резко отличающимися от всех остальных значений.
При построении интервальных вариационных рядов возникает вопрос о количестве групп, на которые следует разделить материал статистического наблюдения и вопрос о величине интервала каждой отдельной группы.
Эти вопросы уже изучались при рассмотрении метода группировки. Там же были рассмотрены вопросы, важные для составления интервального ряда, такие как:

  • 1) Определение начала отсчетов интервалов;
  • 2) Подсчет частоты.

Следует иметь в виду, что интервальные вариационные ряды могут быть построены и для признаков с дискретной вариацией. Нередко в статистическом исследовании указывать отдельное значение дискретного признака нецелесообразно, т.к. это, как правило, затрудняет рассмотрение вариации признака. Поэтому возможные дискретные значения признака распределяются по группам и подсчитываются соответствующие им частоты (частости).
При построении интервального ряда по дискретному признаку, границы смежных интервалов не повторяют друг друга: следующий интервал начинается со следующего по порядку (после верхнего значения предыдущего интервала) дискретного значения признака.
Для расчета обобщенных характеристик рядов распределения можно пользоваться как частотами, так и частостями.

Частости как доли единицы: w1=f1/?f, w2=f2/?f и т.д.

Частости как проценты w1=(f1/?f)*100, w2=(f2/?f)*100 и т.д.

Графический метод изучения рядов распределения

Четверг, Март 27th, 2008

Характер и закономерности развития массового явления в пространстве и во времени складываются под влиянием множества существенных и несущественных, объективных и субъективных, реальных и случайных движущих сил, причин (т.е. факторов). В каждой конкретной единице статистической совокупности действие факторов проявляется по-разному. Поскольку зависимость между значениями признаков и единицами совокупности обнаруживаются, в общем и среднем на основе закона больших чисел, то важной задачей изучения рядов распределения является изучение характера распределения единиц совокупности по исследуемым признакам.
Важным приемом изучения рядов распределения является их графическое изображение.
Способы построения графиков различны для интервальных и дискретных рядов.
Графически дискретный вариационный ряд можно изобразить, используя прямоугольную систему координат и строя точки с координатами (х1, f1,),( x2, f2), … (xn, fn). Если затем соединить последовательно полученные точки отрезками прямой, а из первой и последней точек опустить перпендикуляр на ось Х, получим фигуру, которая называется полигоном и графически представляет распределение единиц совокупности по признаку Х.
График дискретного ряда распределения можно так же построить следующим образом. На оси абсцисс в одинаковом масштабе откладываются слева направо в порядке возрастания значения вариант данного ряда. По оси ординат наносится шкала для значений величин частот. Из точек на оси Х абсцисс, соответствующих значению исходной варианты, восстанавливаются перпендикуляры (ординаты), причем длина ординаты (высота перпендикуляра) измеряется в единицах масштаба оси ординат. Вершины этих перпендикуляров соединяются в последовательном порядке отрезками прямой. К полученной ломанной линии присоединяются два крайних перпендикуляра .
Полученный график (полигон) четко отражает характер рассматриваемого распределения.
Сумма частот (частостей), заключенных в полигоне, равна объему совокупности.График интервального ряда, так же как и дискретного ряда, позволяет выявить характер (структуру) распределения изучаемого явления.
При построении графика интервального ряда на оси абсцисс откладываются интервалы ряда. Незакрытые интервалы принимаются равными или величине следующего (для открытого первого), или предыдущего (для открытого последнего интервала). Такой прием применяется, если действительные нижняя или верхняя границы этих интервалов неизвестны даже предположительно. Нередко для первого интервала началом принимают “0”.
Приняв интервалы за основание, строим на них прямоугольники, равные по высоте частоте данного интервала. Полученное графическое представление интервального вариационного ряда называется гистограммой. Площадь гистограммы, как и полигона, равна объему совокупности.
При построении гистограммы для интервальных рядов с неравными интервалами используются величины плотностей распределения, а не частоты данного ряда. В этом случае частоты зависят не только от величины вариант, но и от размеров интервалов: чем больше взят интервал, тем больше единиц совокупности попадает в него. Если ряд с равными интервалами, то частоты (частости) дают четкое представление о том, как заполнены интервалы единицами совокупности, и соответственно, отражают характер распределения. Сравнивая частоты (частости) ряда с неравными интервалами, еще нельзя судить об относительной заполнености разных интервалов. Для этого нужно исключить влияние размера частоты (частости) на величину интервала. Это обеспечивается расчетом особого показателя, отражающего сколько единиц ( или сколько доле или процентов единиц) совокупности приходится на единицу изменения варианта.
Абсолютная плотность распределения (К) представляет собой величину частоты, приходящейся на единицу размера интервала отдельной группы ряда К=f /h., где h- величина интервала.
Относительна плотность распределения (K’) определяется как частное от деления частости (w) отдельной группы ряда на размер ее интервала K’=w /h
Итак, чтобы изучить характер распределения (или структуру) необходимо на оси абсцисс в прямоугольной системе координат откладывать значения исследуемого признака (варианты) Х, а на оси ординат – частоты (частости) или плотность распределения, и строят полигоны для дискретных рядов, а для интервальных – гистограммы. Вид полученного графика (полигона или гистограммы) указывает на характер распределения. Площадь полигона или гистограммы численно равна сумме частот или частостей единиц в совокупности.

Четверг, Март 27th, 2008

В гистограмме если середины прямоугольников соединить отрезками прямых, то можно получить полигон распределения. Непрерывную вариацию изучаемого признака можно графически изобразить сразу в виде полигона , когда значения вариант (или плотностей распределения) относят к середине интервала. При этом необходимо обеспечить равенство площадей полигона и гистограммы.
С помощью графического изображения ряда в виде полигонов или гистограмм можно сравнивать структуры распределения единиц совокупности по различным признакам или по различным явлениям.
В практике экономико-статистических работ нередко возникает потребность в преобразовании рядов распределения в ряды с накопленными частотами(частостями).или в кумулятивные ряды. Накопленная частота (частость) для данного варианта или для верхней границы данного интервала получается суммированием частот(частостей) всех предшествующих вариант, включая данный.
Любой вариационный ряд можно представить в виде кривой накопленных частот (или частостей).При этом на оси абсцисс откладывают варианты или верхние значения интервалов , а по оси ординат соответствующие накопленные частоты (частости). Полученные точки (вершины перпендикуляров) соединяются плавной кривой (отрезками прямой). Главная кривая (или ломаная линия) называется кумулятой или кумулятивной кривой (ломаной).
С помощью кумулятивных кривых можно иллюстрировать процесс концентрации.
Если на оси абсцисс отложить накопленные частоты (частости), а на оси ординат – значения вариантов, и выполнить операции, аналогичные для построения кумулят, то получим график, называемый огивой (график, обратный кумулят)
Заканчивая рассмотрение вопроса о графическом методе изучения рядов распределения следует отметить, что при построении графиков большое значение имеет выбор соотношения между размерами оси абсцисс (горизонтальной оси) и оси ординат (вертикальной оси). При этом целесообразно руководствоваться так называемым правилом “Золотого сочетания”. По этому правилу, чертеж должен быть выполнен в прямоугольнике , в котором длина вертикальной оси (высота графика) должна соотноситься к длине всей горизонтальной оси (т.е. к ширине графика) приблизительно как 5:8.

Понятие о закономерностях статического распределения.

Четверг, Март 27th, 2008

В процессе анализа статистических данных, представленных рядами распределения, кроме знания о характере распределения (или структуре совокупности) могут вычисляться различные статистические показатели (числовые характеристики), которые в обобщенном виде отражают особенности распределения изучаемых признаков. Наличие таких характеристик ( показателей) существенно облегчает сравнение различных распределений ( явлений) между собой.
Эти характеристики (показатели) могут быть разделены на 3 основные группы

  • 1) характеристики центра распределения (средняя, мода, медиана);
  • 2) характеристики степени вариации (вариационный размах, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, коэффициент вариации);
  • 3) характеристики формы (типа) распределения (показатели эксцесса и асимметрии, ранговые характеристики, кривые распределения).

Первые две группы показателей будут рассмотрены в теме 8.В данном вопросе остановимся на знакомстве с основными понятиями и характеристиками третьей группы.
Полигоны и гистограммы в общем виде дают определенное представление о связи между частной (частностью) и величиной признака. Однако эмпирическое распределение признака, т.е. распределение в том виде, как оно получено в результате наблюдения, как правило, выявляет эту закономерность неясно. Ведь на значения признаков у единиц совокупности ( на индивидуальные значения) оказывают влияние различные случайные факторы. Более четкому выявлению закономерности распределения (т.е. закономерности изменения частот в вариационных рядах) способствует построение ряда с более крупными интервалами (или, что то же самое – с меньшим числом групп). Однако при слишком малом числе групп характерные особенности распределения также затушевываются.

Четверг, Март 27th, 2008

Наиболее надежный путь выявления закономерности распределения состоит в следующем
1) увеличить количество наблюдаемых случаев (в соответствии с законом больших чисел, в таких рядах случайные отклонения от общей закономерности у индивидуальных значений будут взаимно погашаться);
2) первоначально совокупность разбивается на максимальное возможное число члены групп, а затем, постепенно сокращая число групп оптимизировать группировку с точки зрения выявления закономерности распределения. При реализации такого подхода, закономерность, характерная для данного распределения будет выступать все более и более ясно, а ломаная линия, изображающая полигон, будет приближаться к некоторой плавной линии и в пределе должна превратиться в кривую линию.
Кривая линия, которая отражает закономерность изменения частот (частностей) в чистом, исключающем влияние случайных факторов, виде, называют кривой распределения.
Кривая распределения, в отличие от полигона и гистограммы, отражает основной характер, закон данного распределения.
В идеальном случае зависимость частот (частостей, полтности распределения) от величины вариантов может быть предоставлена в виде некоторой кривой распределения определенного вида (типа).
Построение кривой распределения в сочетании с анализом сущности явления позволяют построить научную гипотезу о вероятном типе теоретической кривой распределения.
Под теоретической кривой распределения в статистике понимается предполагаемое графическое изображение в виде непрерывной линии изменения частот в вариационном ряду функционально связанного с изменением (величины признака) варианты.
В действительности встречаются самые различные типы распределения. В связи с этим различаются прежде всего одновершинные (одномодальные) и многовершинные (двух – трех – и т, д.) много модальные кривые распределения.
К одновершинным относятся те, в которых один вариант имеет наибольшую частоту (наибольшую плотность распределения), частоты же вариантов меньших и больших, чем это значение, убывают по мере удаления от него.
Если при этом частоты убывают одинаково и справа и слева от наибольшего центрального значения, то такие распределения называются симметричными. В них частоты вариантов, равностоящих от центрального, равны между собой.
Если частоты убывают слева и справа от центра распределения с разной скоростью, то такие распределения называются ассиметричными, выделяя при этом распределения, растянутые влево или вправо.

Четверг, Март 27th, 2008

Степень асимметрии может быть различной от совершенно незначительной до крайней, при которой наибольшая частота относится к одному из крайних значений вариантов – самому наименьшему или наибольшему.
Идеальное симметричное распределение крайне редко встречаются на практике. Достаточно близок к нему распределения мужчин и женщин по весу или росту (при достаточно большим количестве людей, включенных в совокупность).
Основная масса распределений, с которыми приходиться иметь дело экономисту – это асимметричные распределения с разной степенью асимметрий.
Многовершинные распределения – это такие распределения, в которых несколько максимумов частоты (центральных значений признака). В экономико – статистических исследованиях многовершинность распределения является часто следствием того, что совокупность состоит из неоднородных с точки зрения изучаемого признака единиц.
Например, при проверке качества и свойств продукции, полученной на двух разных станках, почти всегда получаются кривые распределения с двумя вершинами.
Убедившись в многовершинности распределения, исследователь должен тщательно проверить, можно ли считать однородными единицы, составляющие совокупности или следует для объективности выводов разбить совокупность на две или более однородные группы.
Эксцесс – характеристика островершинности и крутизны распределения.
Количественная оценка степени ассиметрии и эксцессы рассматривается в дисциплине «математическая статистика».

Свойства основных кривых распределения.

Четверг, Март 27th, 2008

В характере и типе закономерностей распределения отражаются общие условия вариации признака – сущность явления и те его свойства и условия, которые определяют изменчивость изучаемого признака.
Схематически (графически) любые реальные распределения можно изобразить в виде некоторой кривой, воспроизводящей основные особенности данного распределения.
В настоящее время изучено сравнительно большое число различных теоретических кривых распределения, из которых в практике статистических исследований производства часто используются следующие: нормальное распределение, распределение Пуассона, биномиальное распределение и некоторые другие.
Подробно основные типы теоретических кривых распределения рассматриваются в дисциплине «Теория вероятности и математическая статистика» В данном вопросе нам нужно получить общее представление об основных свойствах широко применяемых типов распределения.
Типы распределения имеют аналитическое выражение в виде закона распределения. Используя свойства того или иного закона распределения можно глубже проанализировать изучаемое явление, прогнозировать распределение и т.д.
Закон нормального распределения. Наиболее глубоко изучен в теории вероятностей и достаточно полно раскрыты условия, при которых он возникает. При разработке многих примеров математической статистики исходят из предположения о наличии в изучаемой совокупности нормативного распределения.
Основными параметрами, характеризующими нормальное распределение, являются средняя арифметическая ( ) и среднее квадратическое отклонение ( ).
Кривая нормального распределения является одновершинной (при Xmax= ), обладает симметричностью (кривая равномерно убывает в обе стороны от середины ( Xmax= ), образуя две равные и подобные ветви). Она имеет две точки перегиба, т.е. точки, в которых кривая из вогнутой становится выгнутой и наоборот. Точки перегиба кривой нормального распределения находятся вправо и влево от центра ( ) по оси общие на расстоянии, равном и 2 . Обе ветви кривой нормального распределения асимптотически приближаются к оси абсцисс.