Стандартное отклонение является одним из тех статистических терминов в корпоративном мире, которое позволяет поднять авторитет людей, сумевших удачно ввернуть его в ходе беседы или презентации, и оставляет смутное недопонимание тех, кто не знает, что это такое, но стесняется спросить. На самом деле большинство менеджеров не понимают концепцию стандартного отклонения и, если вы один из них, вам пора перестать жить во лжи. В сегодняшней статье я расскажу вам, как эта недооцененная статистическая мера позволит лучше понять данные, с которыми вы работаете.
Представьте, что вы владелец двух магазинов. И чтобы избежать потерь, важно, чтобы был четкий контроль остатков на складе. В попытке выяснить, кто из менеджеров лучше управляет запасами, вы решили проанализировать стоки последних шести недель. Средняя недельная стоимость стока обоих магазинов примерно одинакова и составляет около 32 условных единиц. На первый взгляд среднее значение стока показывает, что оба менеджера работают одинаково.
Но если внимательнее изучить деятельность второго магазина, можно убедится, что хотя среднее значение корректно, вариабельность стока очень высокая (от 10 до 58 у.е.). Таким образом, можно сделать вывод, что среднее значение не всегда правильно оценивает данные. Вот где на выручку приходит стандартное отклонение.
Стандартное отклонение показывает, как распределены значения относительно среднего в нашей . Другими словами, можно понять на сколько велик разброс величины стока от недели к неделе.
В нашем примере, мы воспользовались функцией Excel СТАНДОТКЛОН, чтобы рассчитать показатель стандартного отклонения вместе со средним.
В случае с первым менеджером, стандартное отклонение составило 2. Это говорит нам о том, что каждое значение в выборке в среднем откланяется на 2 от среднего значения. Хорошо ли это? Давайте рассмотрим вопрос под другим углом – стандартное отклонение равное 0, говорит нам о том, что каждое значение в выборке равно его среднему значению (в нашем случае, 32,2). Так, стандартное отклонение 2 ненамного отличается от 0, и указывает на то, что большинство значений находятся рядом со средним значением. Чем ближе стандартное отклонение к 0, тем надежнее среднее. Более того, стандартное отклонение близкое к 0, говорит о маленькой вариабельности данных. То есть, величина стока со стандартным отклонением 2, указывает на невероятную последовательность первого менеджера.
В случае со вторым магазином, стандартное отклонение составило 18,9. То есть стоимость стока в среднем отклоняется на величину 18,9 от среднего значения от недели к неделе. Сумасшедший разброс! Чем дальше стандартное отклонение от 0, тем менее точно среднее значение. В нашем случае, цифра 18,9 указывает на то, что среднему значению (32,8 у.е. в неделю) просто нельзя доверять. Оно также говорит нам о том, что еженедельная величина стока обладает большой вариабельностью.
Такова концепция стандартного отклонения в двух словах. Хотя оно не дает представление о других важных статистических измерениях (Мода, Медиана…), фактически стандартное отклонение играет решающую роль в большинстве статистических расчетов. Понимание принципов стандартного отклонения прольет свет на суть многих процессов вашей деятельности.
Итак, теперь мы знаем, о чем говорит цифра стандартного отклонения. Давайте разберемся, как она считается.
Рассмотрим набор данных от 10 до 70 с шагом 10. Как видите, я уже рассчитал для них значение стандартного отклонения с помощью функции СТАНДОТКЛОН в ячейке H2 (оранжевым).
Ниже описаны шаги, которые предпринимает Excel, чтобы прийти к цифре 21,6.
Обратите внимание, что все расчеты визуализированы, для лучшего понимания. На самом деле в Excel расчет происходит мгновенно, оставляя все шаги за кулисами.
Для начала Excel находит среднее значение выборки. В нашем случае, среднее получилось равным 40, которое на следующем шаге отнимают от каждого значения выборки. Каждую полученную разницу возводят в квадрат и суммируют. У нас получилась сумма равная 2800, которую необходимо разделить на количество элементов выборки минус 1. Так как у нас 7 элементов, получается необходимо 2800 разделить на 6. Из полученного результата находим квадратный корень, это цифра будет стандартным отклонением.
Для тех, кому не совсем ясен принцип расчета стандартного отклонения с помощью визуализации, привожу математическую интерпретацию нахождения данного значения.
В Excel присутствует несколько разновидностей формул стандартного отклонения. Вам достаточно набрать =СТАНДОТКЛОН и вы сами в этом убедитесь.
Стоит отметить, что функции СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г (первая и вторая функция в списке) дублируют функции СТАНДОТКЛОН и СТАНДОТКЛОНП (пятая и шестая функция в списке), соответственно, которые были оставлены для совместимости с более ранними версиями Excel.
Вообще разница в окончаниях.В и.Г функций указывают на принцип расчета стандартного отклонения выборки или генеральной совокупности. Разницу между двумя этими массивами я уже объяснял в предыдущей .
Особенностью функций СТАНДОТКЛОНА и СТАНДОТКЛОНПА (третья и четвертая функция в списке), является то, что при расчете стандартного отклонения массива в расчет принимаются логические и текстовые значения. Текстовые и истинные логические значения равняются 1, а ложные логические значения равняются 0. Мне трудно представить ситуацию, когда бы мне могли понадобится эти две функции, поэтому, думаю, что их можно игнорировать.
$X$. Для начала напомним следующее определение:
Определение 1
Генеральная совокупность -- совокупность случайно отобранных объектов данного вида, над которыми проводят наблюдения с целью получения конкретных значений случайной величины, проводимых в неизменных условиях при изучении одной случайной величины данного вида.
Определение 2
Генеральная дисперсия -- среднее арифметическое квадратов отклонений значений вариант генеральной совокупности от их среднего значения.
Пусть значения вариант $x_1,\ x_2,\dots ,x_k$ имеют, соответственно, частоты $n_1,\ n_2,\dots ,n_k$. Тогда генеральная дисперсия вычисляется по формуле:
Рассмотрим частный случай. Пусть все варианты $x_1,\ x_2,\dots ,x_k$ различны. В этом случае $n_1,\ n_2,\dots ,n_k=1$. Получаем, что в этом случае генеральная дисперсия вычисляется по формуле:
С этим понятием также связано понятие генерального среднего квадратического отклонения.
Определение 3
Генеральное среднее квадратическое отклонение
\[{\sigma }_г=\sqrt{D_г}\]
Пусть нам дана выборочная совокупность относительно случайной величины $X$. Для начала напомним следующее определение:
Определение 4
Выборочная совокупность -- часть отобранных объектов из генеральной совокупности.
Определение 5
Выборочная дисперсия -- среднее арифметическое значений вариант выборочной совокупности.
Пусть значения вариант $x_1,\ x_2,\dots ,x_k$ имеют, соответственно, частоты $n_1,\ n_2,\dots ,n_k$. Тогда выборочная дисперсия вычисляется по формуле:
Рассмотрим частный случай. Пусть все варианты $x_1,\ x_2,\dots ,x_k$ различны. В этом случае $n_1,\ n_2,\dots ,n_k=1$. Получаем, что в этом случае выборочная дисперсия вычисляется по формуле:
С этим понятием также связано понятие выборочного среднего квадратического отклонения.
Определение 6
Выборочное среднее квадратическое отклонение -- квадратный корень из генеральной дисперсии:
\[{\sigma }_в=\sqrt{D_в}\]
Для нахождения исправленной дисперсии $S^2$ необходимо умножить выборочную дисперсию на дробь $\frac{n}{n-1}$, то есть
С этим понятием также связано понятие исправленного среднего квадратического отклонения, которое находится по формуле:
В случае, когда значение вариант не являются дискретными, а представляют из себя интервалы, то в формулах для вычисления генеральной или выборочной дисперсий за значение $x_i$ принимается значение середины интервала, которому принадлежит $x_i.$
Пример 1
Выборочная совокупность задана следующей таблицей распределения:
Рисунок 1.
Найдем для нее выборочную дисперсию, выборочное среднее квадратическое отклонение, исправленную дисперсию и исправленное среднее квадратическое отклонение.
Для решения этой задачи для начала сделаем расчетную таблицу:
Рисунок 2.
Величина $\overline{x_в}$ (среднее выборочное) в таблице находится по формуле:
\[\overline{x_в}=\frac{\sum\limits^k_{i=1}{x_in_i}}{n}\]
\[\overline{x_в}=\frac{\sum\limits^k_{i=1}{x_in_i}}{n}=\frac{305}{20}=15,25\]
Найдем выборочную дисперсию по формуле:
Выборочное среднее квадратическое отклонение:
\[{\sigma }_в=\sqrt{D_в}\approx 5,12\]
Исправленная дисперсия:
\[{S^2=\frac{n}{n-1}D}_в=\frac{20}{19}\cdot 26,1875\approx 27,57\]
Исправленное среднее квадратическое отклонение.
Мудрые математики и статистики придумали более надежный показатель, хотя и несколько другого назначения – среднее линейное отклонение . Этот показатель характеризует меру разброса значений совокупности данных вокруг их среднего значения.
Для того, чтобы показать меру разброса данных нужно вначале определиться, относительно чего этот самый разброс будет считаться - jбычно это средняя величина. Дальше нужно посчитать, насколько значения анализируемой совокупности данных находятся далеко от средней. Понятное дело, что каждому значению соответствует некоторая величина отклонения, но нас же интересует общая оценка, охватывающая всю совокупность. Поэтому рассчитывают среднее отклонение по формуле обычной средней арифметической. Но! Но для того, чтобы рассчитать среднее из отклонений, их нужно вначале сложить. И если мы сложим положительные и отрицательные числа, то они взаимоуничтожатся и их сумма будет стремиться к нулю. Чтобы этого избежать, все отклонения берутся по модулю, то есть все отрицательные числа становятся положительными. Вот теперь среднее отклонение будет показывать обобщенную меру разброса значений. В итоге, средне линейное отклонение будет рассчитываться по формуле:
a – среднее линейное отклонение,
x – анализируемый показатель, с черточкой сверху – среднее значение показателя,
n – количество значений в анализируемой совокупности данных,
оператор суммирования, надеюсь, никого не пугает.
Рассчитанное по указанной формуле среднее линейное отклонение отражает среднее абсолютное отклонение от средней величины по данной совокупности.
На картинке красная линия - это среднее значение. Отклонения каждого наблюдения от среднего указаны маленькими стрелочками. Именно они берутся по модулю и суммируются. Потом все делится на количество значений.
Для полноты картины нужно привести еще и пример. Допустим, имеется фирма по производству черенков для лопат. Каждый черенок должен быть 1,5 метра длиной, но, что еще важней, все должны быть одинаковыми или, по крайней мере, плюс-минус 5 см. Однако нерадивые работники то 1,2 м отпилят, то 1,8 м. Дачники недовольны. Решил директор фирмы провести статистический анализ длины черенков. Отобрал 10 штук и замерял их длину, нашел среднюю и рассчитал среднее линейное отклонение. Средняя получилась как раз, что надо – 1,5 м. А вот среднее линейное отклонение вышло 0,16 м. Вот и получается, что каждый черенок длиннее или короче, чем нужно в среднем на 16 см. Есть, о чем поговорить с работниками. На самом деле я не встречал реального использования данного показателя, поэтому пример придумал сам. Тем не менее, в статистике есть такой показатель.
Как и среднее линейное отклонение, дисперсия также отражает меру разброса данных вокруг средней величины.
Формула для расчета дисперсии выглядит так:
(для вариационных рядов (взвешенная дисперсия))
(для несгруппированных данных (простая дисперсия))
Где: σ 2 – дисперсия, Xi – анализируемsq показатель (значение признака), – среднее значение показателя, f i – количество значений в анализируемой совокупности данных.
Дисперсия - это средний квадрат отклонений.
Сначала рассчитывается среднее значение, затем берется разница между каждым исходным и средним значением, возводится в квадрат, умножается на частоту соответствующего значения признака, складывается и затем делится на количество значений в данной совокупности.
Однако в чистом виде, как, например, средняя арифметическая, или индекс, дисперсия не используется. Это скорее вспомогательный и промежуточный показатель, который используется для других видов статистического анализа.
Упрощенный способ расчета дисперсии
Среднеквадратическое отклонение
Чтобы использовать дисперсию дл анализа данных из нее извлекают квадратный корень. Получается так называемое среднеквадратическое отклонение .
Кстати, стандартное отклонение еще называют сигмой – от греческой буквы, которой его обозначают.
Среднеквадратическое отклонение, очевидно, также характеризует меру рассеяния данных, но теперь (в отличие от дисперсии) его можно сравнивать с исходными данными. Как правило, среднеквадратические показатели в статистике дают более точные результаты, чем линейные. Следовательно, среднеквадратическое отклонение является более точным показателем меры рассеяния данных, чем среднее линейное отклонение.
Среднее квадратическое отклонение
Наиболее совершенной характеристикой вариации является среднее квадратическое откложение, ĸᴏᴛᴏᴩᴏᴇ называют стандартом (или стандартным отклонение).Среднее квадратическое отклонение () равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической:
Среднее квадратическое отклонение простое:
Среднее квадратическое отклонение взвешенное применяется для сгруппированных данных:
Между средним квадратическим и средним линейным отклонениями в условиях нормального распределения имеет место следующее соотношение: ~ 1,25.
Среднее квадратическое отклонение, являясь основной абсолютной мерой вариации, используется при определении значений ординат кривой нормального распределения, в расчетах, связанных с организацией выборочного наблюдения и установлением точности выборочных характеристик, а также при оценке границ вариации признака в однородной совокупности.
18.Дисперсия, ее виды, среднеквадратическое отклонение.
Диспе́рсия случа́йной величины́ - мера разброса данной случайной величины, т. е. её отклонения отматематического ожидания. В статистике часто употребляется обозначение или . Квадратный корень из дисперсии принято называтьсреднеквадрати́чным отклоне́нием , станда́ртным отклоне́нием или стандартным разбросом.
Общая дисперсия (σ 2 ) измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Вместе с тем, благодаря методу группировок можно выделить и измерить вариацию, обусловленную группировочным признаком, и вариацию, возникающую под влиянием неучтенных факторов.
Межгрупповая дисперсия (σ 2 м.гр ) характеризует систематическую вариацию, т. е. различия в величине изучаемого признака, возникающие под влиянием признака – фактора, положенного в основание группировки.
Среднеквадрати́ческое отклоне́ние (синонимы: среднее квадрати́ческое отклоне́ние , среднеквадрати́чное отклоне́ние , квадрати́чное отклоне́ние ; близкие термины:станда́ртное отклоне́ние , станда́ртный разбро́с ) - в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величиныотносительно её математического ожидания. При ограниченных массивах выборок значений вместо математического ожидания используется среднее арифметическоесовокупности выборок.
Среднеквадратическое отклонение измеряется в единицах измерения самой случайной величины и используется при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами. Определяется какквадратный корень из дисперсии случайной величины.
Среднеквадратическое отклонение:
Стандартное отклонение (оценка среднеквадратического отклонения случайной величины x относительно её математического ожидания на базе несмещённой оценки её дисперсии):
где - дисперсия; - i -й элемент выборки; - объём выборки; - среднее арифметическое выборки:
Следует отметить, что обе оценки являются смещёнными. В общем случае несмещённую оценку построить невозможно. При этом оценка на базе оценки несмещённой дисперсии является состоятельной.
19.Сущность, область применения и порядок определения моды и медианы.
Кроме степенных средних в статистике для относительной характеристики величины варьирующего признака и внутреннего строения рядов распределения пользуются структурными средними, которые представлены,в основном, модой и медианой .
Мода - это наиболее часто встречающийся вариант ряда. Мода применяется, к примеру, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является варианта͵ обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда крайне важно сначала определить модальный интервал (по максимальной частоте), а затем - значение модальной величины признака по формуле:
§ - значение моды
§ - нижняя граница модального интервала
§ - величина интервала
§ - частота модального интервала
§ - частота интервала, предшествующего модальному
§ - частота интервала, следующего за модальным
Медиана - это значение признака, ĸᴏᴛᴏᴩᴏᴇ лежит в базе ранжированного ряда и делит данный ряд на две равные по численности части.
Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (В случае если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:
М е = (n (число признаков в совокупности) + 1)/2,
в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).
При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем - значение медианы по формуле:
§ - искомая медиана
§ - нижняя граница интервала, который содержит медиану
§ - величина интервала
§ - сумма частот или число членов ряда
§ - сумма накопленных частот интервалов, предшествующих медианному
§ - частота медианного интервала
Пример . Найти моду и медиану.
Решение : В данном примере модальный интервал находится в пределах возрастной группы 25-30 лет, так как на данный интервал приходится наибольшая частота (1054).
Рассчитаем величину моды:
Это значит что модальный возраст студентов равен 27 годам.
Вычислим медиану. Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта͵ которая делит совокупность на две равные части (Σf i /2 = 3462/2 = 1731). Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:
Это значит что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.
Кроме моды и медианы бывают использованы такие показатели, как квартили, делящие ранжированный ряд на 4 равные части, децили -10 частей и перцентили - на 100 частей.
20.Понятие выборочного наблюдения и область его применения.
Выборочное наблюдение применяется, когда применение сплошного наблюдения физически невозможно из-за большого массива данных или экономически нецелесообразно . Физическая невозможность имеет место, к примеру, при изучении пассажиропотоков, рыночных цен, семейных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением, к примеру, дегустация, испытание кирпичей на прочность и т.п.
Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку , а весь их массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают n , а во всей ГС - N . Отношение n/N принято называть относительный размер или доля выборки .
Качество результатов выборочного наблюдения зависит от репрезентативности выборки , то есть от того, насколько она представительна в ГС. Для обеспечения репрезентативности выборки крайне важно соблюдать принцип случайности отбора единиц , который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая.
Существует 4 способа случайного отбора в выборку:
Качество выборочных наблюдений зависит и от типа выборки : повторная или бесповторная. При повторном отборе попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всех величин генеральной совокупности одинаковая вероятность включения в выборку. Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.
Бесповторный отбор дает более точные результаты, в связи с этим применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.
21.Предельная ошибка выборки наблюдения, средняя ошибка выборки, порядок их расчета.
Рассмотрим подробно перечисленные выше способы формирования выборочной совокупности и возникающие при этом ошибки репрезентативности. Собственно-случайная выборка основывается на отборе единиц из генеральной совокупности наугад без каких-либо элементов системности. Технически собственно-случайный отбор проводят методом жеребьевки (к примеру, розыгрыши лотерей) или по таблице случайных чисел.
Собственно-случайный отбор ʼʼв чистом видеʼʼ в практике выборочного наблюдения применяется редко, но он является исходным среди других видов отбора, в нем реализуются основные принципы выборочного наблюдения. Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.
Ошибка выборочного наблюдения - ϶ᴛᴏ разность между величиной параметра в генеральной совокупности, и его величиной, вычисленной по результатам выборочного наблюдения. Важно заметить, что для средней количественного признака ошибка выборки определяется
Показатель принято называть предельной ошибкой выборки. Выборочная средняя является случайной величиной, которая может принимать различные значения исходя из того, какие единицы попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. По этой причине определяют среднюю из возможных ошибок – среднюю ошибку выборки , которая зависит от:
· объёма выборки: чем больше численность, тем меньше величина средней ошибки;
· степени изменения изучаемого признака: чем меньше вариация признака, а, следовательно, и дисперсия, тем меньше средняя ошибка выборки.
При случайном повторном отборе средняя ошибка рассчитывается . Практически генеральная дисперсия точно не известна, но в теории вероятности доказано, что . Так как величина при достаточно больших n близка к 1, можно считать, что . Тогда средняя ошибка выборки должна быть рассчитана: . Но в случаях малой выборки (при n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .
При случайной бесповторной выборке приведенные формулы корректируются на величину . Тогда средняя ошибка бесповторной выборки: и . Т.к. всегда меньше , то множитель () всегда меньше 1. Это значит, что средняя ошибка при бесповторном отборе всегда меньше, чем при повторном. Механическая выборка применяется, когда генеральная совокупность каким-либо способом упорядочена (к примеру, списки избирателей по алфавиту, телефонные номера, номера домов, квартир). Отбор единиц осуществляется через определенный интервал, который равен обратному значению процента выборки. Так при 2% выборке отбирается каждая 50 единица =1/0,02 , при 5% каждая 1/0,05=20 единица генеральной совокупности.
Начало отсчета выбирается разными способами: случайным образом, из середины интервала, со сменой начала отсчета. Главное при этом – избежать систематической ошибки. К примеру, при 5% выборке, в случае если первой единицей выбрана 13-я, то следующие 33, 53, 73 и т.д.
По точности механический отбор близок к собственно-случайной выборке. По этой причине для определения средней ошибки механической выборки используют формулы собственно-случайного отбора.
При типическом отборе обследуемая совокупность предварительно разбивается на однородные, однотипные группы. К примеру, при обследовании предприятий это бывают отрасли, подотрасли, при изучении населения – районы, социальные или возрастные группы. Далее осуществляется независимый выбор из каждой группы механическим или собственно-случайным способом.
Типическая выборка дает более точные результаты по сравнению с другими способами. Типизация генеральной совокупности обеспечивает представительство в выборке каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Следовательно, при нахождении ошибки типической выборки согласно правилу сложения дисперсий () крайне важно учесть лишь среднюю из групповых дисперсий. Тогда средняя ошибка выборки: при повторном отборе , при бесповторном отборе , где – средняя из внутригрупповых дисперсий в выборке.
Серийный (или гнездовой) отбор применяется в случае, когда генеральная совокупность разбита на серии или группы до начала выборочного обследования. Этими сериями бывают упаковки готовой продукции, студенческие группы, бригады. Серии для обследования выбираются механическим или собственно-случайным способом, а внутри серии производится сплошное обследование единиц. По этой причине средняя ошибка выборки зависит только от межгрупповой (межсерийной) дисперсии, которая вычисляется по формуле: где r – число отобранных серий; – средняя і-той серии. Средняя ошибка серийной выборки рассчитывается: при повторном отборе , при бесповторном отборе , где R – общее число серий. Комбинированный отбор представляет собой сочетание рассмотренных способов отбора.
Средняя ошибка выборки при любом способе отбора зависит главным образом от абсолютной численности выборки и в меньшей степени – от процента выборки. Предположим, что проводится 225 наблюдений в первом случае из генеральной совокупности в 4500 единиц и во втором – в 225000 единиц. Дисперсии в обоих случаях равны 25. Тогда в первом случае при 5 %-ном отборе ошибка выборки составит: Во втором случае при 0,1 %-ном отборе она будет равна:
Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, при уменьшении процента выборки в 50 раз, ошибка выборки увеличилась незначительно, так как численность выборки не изменилась. Предположим, что численность выборки увеличили до 625 наблюдений. В этом случае ошибка выборки равна: Увеличение выборки в 2,8 раза при одной и той же численности генеральной совокупности снижает размеры ошибки выборки более чем в 1,6 раза.
22.Методы и способы формирования выборочной совокупности.
В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.
Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.
Существуют следующие способы отбора единиц из генеральной совокупности: 1) индивидуальный отбор - в выборку отбираются отдельные единицы; 2) групповой отбор - в выборку попадают качественно однородные группы или серии изучаемых единиц; 3) комбинированный отбор - это комбинация индивидуального и группового отбора. Способы отбора определяются правилами формирования выборочной совокупности.
Выборка должна быть:
В статистике различают следующие способы отбора единиц в выборочную совокупность:
Кроме того различают :
23.Определение крайне важно го объёма выборки (использование таблицы Стьюдента).
Одним из научных принципов в теории выборочного метода является обеспечение достаточного числа отобранных единиц. Теоретически крайне важно сть соблюдения этого принципа представлена в доказательствах предельных теорем теории вероятностей, которые позволяют установить, какой объём единиц следует выбрать из генеральной совокупности, чтобы он был достаточным и обеспечивал репрезентативность выборки.
Уменьшение стандартной ошибки выборки, а следовательно, увеличение точности оценки всегда связано с увеличением объёма выборки, в связи с этим уже на стадии организации выборочного наблюдения приходится решать вопрос о том, каков должен быть объём выборочной совокупности, чтобы была обеспечена требуемая точность результатов наблюдений. Расчет крайне важно го объёма выборки строится с помощью формул, выведенных из формул предельных ошибок выборки (А), соответствующих тому или иному виду и способу отбора. Так, для случайного повторного объёма выборки (n) имеем:
Суть этой формулы – в том, что при случайном повторном отборе крайне важно й численности объём выборки прямо пропорционален квадрату коэффициента доверия (t2) и дисперсии вариационного признака (?2) и обратно пропорционален квадрату предельной ошибки выборки (?2). В частности, с увеличением предельной ошибки в два раза необходимая численность выборки должна быть уменьшена в четыре раза. Из трех параметров два (t и?) задаются исследователем. При этом исследователь исходя из цели
и задач выборочного обследования должен решить вопрос: в каком количественном сочетании лучше включить эти параметры для обеспечения оптимального варианта? В одном случае его может больше устраивать надежность полученных результатов (t), нежели мера точности (?), в другом – наоборот. Сложнее решить вопрос в отношении величины предельной ошибки выборки, так как этим показателем исследователь на стадии проектировки выборочного наблюдения не располагает, в связи с этим в практике принято задавать величину предельной ошибки выборки, как правило, в пределах до 10 % предполагаемого среднего уровня признака. К установлению предполагаемого среднего уровня можно подходить по разному: использовать данные подобных ранее проведенных обследований или же воспользоваться данными основы выборки и произвести небольшую пробную выборку.
Наиболее сложно установить при проектировании выборочного наблюдения третий параметр в формуле (5.2) – дисперсию выборочной совокупности. В этом случае крайне важно использовать всю информацию, имеющуюся в распоряжении исследователя, полученную в ранее проведенных подобных и пробных обследованиях.
Вопрос об определении крайне важно й численности выборки усложняется, в случае если выборочное обследование предполагает изучение нескольких признаков единиц отбора. В этом случае средние уровни каждого из признаков и их вариация, как правило, различны, и в связи с этим решить вопрос о том, дисперсии какого из признаков отдать предпочтение, возможно лишь с учетом цели и задач обследования.
При проектировании выборочного наблюдения предполагаются заранее заданная величина допустимой ошибки выборки в соответствии с задачами конкретного исследования и вероятность выводов по результатам наблюдения.
В целом формула предельной ошибки выборочной средней величины позволяет определять:
‣‣‣ величину возможных отклонений показателей генеральной совокупности от показателей выборочной совокупности;
‣‣‣ необходимую численность выборки, обеспечивающую требуемую точность, при которой пределы возможной ошибки не превысят некоторой заданной величины;
‣‣‣ вероятность того, что в проведенной выборке ошибка будет иметь заданный предел.
Распределе́ние Стью́дента в теории вероятностей - это однопараметрическое семейство абсолютно непрерывных распределений.
24.Ряды динамики (интервальные, моментные), смыкание рядов динамики.
Ряды динамики - это значения статистических показателей, которые представлены в определенной хронологической последовательности.
Каждый динамический ряд содержит две составляющие:
1) показатели периодов времени (годы, кварталы, месяцы, дни или даты);
2) показатели, характеризующие исследуемый объект за временные периоды или на соответствующие даты, которые называют уровнями ряда .
Уровни ряда выражаются как абсолютными, так и средними или относительными величинами. Учитывая зависимость отхарактера показателей строят динамические ряды абсолютных, относительных и средних величин. Ряды динамики из относительных и средних величин строят на базе производных рядов абсолютных величин. Различают интервальные и моментные ряды динамики.
Динамический интервальный ряд содержит значения показателей за определенные периоды времени. В интервальном ряду уровни можно суммировать, получая объём явления за более длительный период, или так называемые накопленные итоги.
Динамический моментный ряд отражает значения показателей на определенный момент времени (дату времени). В моментных рядах исследователя может интересовать только разность явлений, отражающая изменение уровня ряда между определенными датами, поскольку сумма уровней здесь не имеет реального содержания. Накопленные итоги здесь не рассчитываются.
Важнейшим условием правильного построения динамических рядов является сопоставимость уровней рядов , относящихся к различным периодам. Уровни должны быть представлены в однородных величинах, должна иметь место одинаковая полнота охвата различных частей явления.
Для того, чтобы избежать искажения реальной динамики, в статистическом исследовании проводятся предварительные расчёты (смыкание рядов динамики), которые предшествуют статистическому анализу динамических рядов. Под смыканием рядов динамики принято понимать объединение в один ряд двух и более рядов, уровни которых рассчитаны по разной методологии или не соответствуют территориальным границам и т.д. Смыкание рядов динамики может предполагать также приведение абсолютных уровней рядов динамики к общему основанию, что нивелирует несопоставимость уровней рядов динамики.
25.Понятие сопоставимости рядов динамики, коэффициенты, темпы роста и прироста.
Ряды динамики - это ряды статистических показателей, характеризующих развитие явлений природы и общества во времени. Публикуемые Госкомстатом России статистические сборники содержат большое количество рядов динамики в табличной форме. Ряды динамики позволяют выявить закономерности развития изучаемых явлений.
Ряды динамики содержат два вида показателей. Показатели времени (годы, кварталы, месяцы и др.) или моменты времени (на начало года, на начало каждого месяца и т.п.). Показатели уровней ряда . Показатели уровней рядов динамики бывают выражены абсолютными величинами (производство продукта в тоннах или рублях), относительными величинами (удельный вес городского населения в %) и средними величинами (средняя зарплата работников отрасли по годам и т. п.). В табличной форме ряд динамики содержит два столбца или две строки.
Правильное построение рядов динамики предполагает выполнение ряда требований:
Статистические показатели могут характеризовать либо результаты изучаемого процесса за период времени, либо состояние изучаемого явления на определенный момент времени, ᴛ.ᴇ. показатели бывают интервальными (периодическими) и моментными. Соответственно первоначально ряды динамики бывают либо интервальными, либо моментными. Моментные ряды динамики в свою очередь бывают с равными и неравными промежутками времени.
Первоначальные ряды динамики бывают преобразованы в ряд средних величин и ряд относительных величин (цепной и базисный). Такие ряды динамики называют производными рядами динамики.
Методика расчета среднего уровня в рядах динамики различна, обусловлена видом ряда динамики. На примерах рассмотрим виды рядов динамики и формулы для расчета среднего уровня.
Абсолютные приросты (Δy ) показывают, на сколько единиц изменился последующий уровень ряда по сравнению с предыдущим (гр.3. - цепные абсолютные приросты) или по сравнению с начальным уровнем (гр.4. - базисные абсолютные приросты). Формулы расчета можно записать следующим образом:
При уменьшении абсолютных значений ряда будет соответственно "уменьшение", "снижение".
Показатели абсолютного прироста свидетельствуют о том, что, к примеру, в 1998 ᴦ. производство продукта "А" увеличилось по сравнению с 1997 ᴦ. на 4 тыс. т, а по сравнению с 1994 ᴦ. - на 34 тыс. т.; по остальным годам см. табл. 11.5 гр.
Размещено на реф.рф
3 и 4.
Коэффициент роста показывает, во сколько раз изменился уровень ряда по сравнению с предыдущим (гр.5 - цепные коэффициенты роста или снижения) или по сравнению с начальным уровнем (гр.6 - базисные коэффициенты роста или снижения). Формулы расчета можно записать следующим образом:
Темпы роста показывают, сколько процентов составляет последующий уровень ряда по сравнению с предыдущим (гр.7 - цепные темпы роста) или по сравнению с начальным уровнем (гр.8 - базисные темпы роста). Формулы расчета можно записать следующим образом:
Так, к примеру, в 1997 ᴦ. объём производства продукта "А" по сравнению с 1996 ᴦ. составил 105,5 % (
Темпы прироста показывают, на сколько процентов увеличился уровень отчетного периода по сравнению с предыдущим (гр.9- цепные темпы прироста) или по сравнению с начальным уровнем (гр.10- базисные темпы прироста). Формулы расчета можно записать следующим образом:
Т пр = Т р - 100% или Т пр = абсолютный прирост / уровень предшествующего периода * 100%
Так, к примеру, в 1996 ᴦ. по сравнению с 1995 ᴦ. продукта "А" произведено больше на 3,8 % (103,8 %- 100%) или (8:210)х100%, а по сравнению с 1994 ᴦ. - на 9% (109% - 100%).
В случае если абсолютные уровни в ряду уменьшаются, то темп будет меньше 100% и соответственно будет темп снижения (темп прироста со знаком минус).
Абсолютное значение 1% прироста
(гр.
Размещено на реф.рф
11) показывает, сколько единиц нужно произвести в данном периоде, чтобы уровень предыдущего периода возрос на 1 %. В нашем примере, в 1995 ᴦ. нужно было произвести 2,0 тыс. т., а в 1998 ᴦ. - 2,3 тыс. т., ᴛ.ᴇ. значительно больше.
Определить величину абсолютного значения 1% прироста можно двумя способами:
§ уровень предшествующего периода разделить на 100;
§ цепные абсолютные приросты разделить на соответствующие цепные темпы прироста.
Абсолютное значение 1% прироста =
В динамике, особенно за длительный период, важен совместный анализ темпов прироста с содержанием каждого процента прироста или снижения.
Заметим, что рассмотренная методика анализа рядов динамики применима как для рядов динамики, уровни которых выражены абсолютными величинами (т, тыс. руб., число работников и т.д.), так и для рядов динамики, уровни которых выражены относительными показателями (% брака, % зольности угля и др.) или средними величинами (средняя урожайность в ц/га, средняя зарплата и т.п.).
Наряду с рассмотренными аналитическими показателями, исчисляемыми за каждый год в сравнении с предшествующим или начальным уровнем, при анализе рядов динамики крайне важно исчислить средние за период аналитические показатели: средний уровень ряда, средний годовой абсолютный прирост (уменьшение) и средний годовой темп роста и темп прироста.
Методы расчета среднего уровня ряда динамики были рассмотрены выше. В рассматриваемом нами интервальном ряду динамики средний уровень ряда исчисляется по формуле средней арифметической простой:
Среднегодовой объём производства продукта за 1994- 1998 гᴦ. составил 218,4 тыс. т.
Среднегодовой абсолютный прирост исчисляется также по формуле средней арифметической
Среднее квадратическое отклонение - понятие и виды. Классификация и особенности категории "Среднее квадратическое отклонение" 2017, 2018.
По данным выборочного обследования произведена группировка вкладчиков по размеру вклада в Сбербанке города:
1) размах вариации;
2) средний размер вклада;
3) среднее линейное отклонение;
4) дисперсию;
5) среднее квадратическое отклонение;
6) коэффициент вариации вкладов.
Данный ряд распределения содержит открытые интервалы. В таких рядах условно принимается величина интервала первой группы равна величине интервала последующей, а величина интервала последней группы равна величине интервала предыдущей.
Величина интервала второй группы равна 200, следовательно, и величина первой группы также равна 200. Величина интервала предпоследней группы равна 200, значит и последний интервал будет иметь величину, равную 200.
1) Определим размах вариации как разность между наибольшим и наименьшим значением признака:
Размах вариации размера вклада равен 1000 рублей.
2) Средний размер вклада определим по формуле средней арифметической взвешенной.
Предварительно определим дискретную величину признака в каждом интервале. Для этого по формуле средней арифметической простой найдём середины интервалов.
Среднее значение первого интервала будет равно:
второго - 500 и т. д.
Занесём результаты вычислений в таблицу:
Размер вклада, руб. | Число вкладчиков, f | Середина интервала, х | xf |
---|---|---|---|
200-400 | 32 | 300 | 9600 |
400-600 | 56 | 500 | 28000 |
600-800 | 120 | 700 | 84000 |
800-1000 | 104 | 900 | 93600 |
1000-1200 | 88 | 1100 | 96800 |
Итого | 400 | - | 312000 |
Средний размер вклада в Сбербанке города будет равен 780 рублей:
3) Среднее линейное отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней:
Порядок расчёта среднего линейонго отклонения в интервальном ряду распределения следующий:
1. Вычисляется средняя арифметическая взвешенная, как показано в п. 2).
2. Определяются абсолютные отклонения вариант от средней:
3. Полученные отклонения умножаются на частоты:
4. Находится сумма взвешенных отклонений без учёта знака:
5. Сумма взвешенных отклонений делится на сумму частот:
Удобно пользоваться таблицей расчётных данных:
Размер вклада, руб. | Число вкладчиков, f | Середина интервала, х | |||
---|---|---|---|---|---|
200-400 | 32 | 300 | -480 | 480 | 15360 |
400-600 | 56 | 500 | -280 | 280 | 15680 |
600-800 | 120 | 700 | -80 | 80 | 9600 |
800-1000 | 104 | 900 | 120 | 120 | 12480 |
1000-1200 | 88 | 1100 | 320 | 320 | 28160 |
Итого | 400 | - | - | - | 81280 |
Среднее линейное отклонение размера вклада клиентов Сбербанка составляет 203,2 рубля.
4) Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.
Расчёт дисперсии в интервальных рядах распределения производится по формуле:
Порядок расчёта дисперсии в этом случае следующий:
1. Определяют среднюю арифметическую взвешенную, как показано в п. 2).
2. Находят отклонения вариант от средней:
3. Возводят в квадрат отклонения каждой варианты от средней:
4. Умножают квадраты отклонений на веса (частоты):
5. Суммируют полученные произведения:
6. Полученная сумма делится на сумму весов (частот):
Расчёты оформим в таблицу:
Размер вклада, руб. | Число вкладчиков, f | Середина интервала, х | |||
---|---|---|---|---|---|
200-400 | 32 | 300 | -480 | 230400 | 7372800 |
400-600 | 56 | 500 | -280 | 78400 | 4390400 |
600-800 | 120 | 700 | -80 | 6400 | 768000 |
800-1000 | 104 | 900 | 120 | 14400 | 1497600 |
1000-1200 | 88 | 1100 | 320 | 102400 | 9011200 |
Итого | 400 | - | - | - | 23040000 |