Медиана и квартили как пишется

Расчет медианы и квартилей для дискретного ряда запросом

Что такое медиана и квартили?

Медиана — числовое значение признака, которое делит упорядоченную по возрастанию совокупность на две равных части.

Квартили — числовые значения признака, которые делят упорядоченную по возрастанию совокупность на четыре равных части.
Раз квартили делят совокупность на четыре части, то квартилей бывает три варианта: первый (нижний), второй(средний), третий (верхний). Второй квартиль это и есть медиана.

Пример

Имеем числовой ряд [1,3,5,7,9,11,13]:

Все становится немного сложнее, когда элементов, например, нечетное количество — выбрать конкретный элемент уже не получится.

Зачем все это нужно?

Медиана

Такой показатель как «среднее» знаком всем и ни у кого не возникает вопросов о его необходимости. Проблема со средним в том, что оно хорошо описывает данные, если они распределены нормально. Иначе, как правило, разумнее использовать медиану.

Самый простой пример: средняя зарплата в России. Показатель в некотором смысле отражает «среднюю температуру по больнице», так как на него оказывают сильное влияние выбросы — условно, слишком большие зарплаты олигархов. В то же время, медиана показывает такой размер зарплаты, который делит население пополам — половина получает меньше этой суммы, половина больше. В итоге, медиана почти в 1.5 раза меньше средних показателей зарплаты.

Более близкий пример к 1С: средний чек. Если хочется оценить динамику этого показателя, то лучше использовать медиану. Причина: на среднее сильно влияют выбросы — очень маленькие покупки или наоборот очень большие.

Квартили

Например, есть задача оценки адекватности закупочной цены на товар на текущий момент.

Один из вариантов — посмотреть по каким ценам продавался этот товар ранее и исходя из наценки рассчитать целевую закупочную цену. Но смотреть на среднее, как было сказано выше, плохая затея. Можно, например, попытаться определить такую цену, что 75% товара продавалось по ней или выше — это и будет 1-й квартиль. Все это, правда, будет работать, если у нас достаточно наблюдений — например, товар продавался хотя бы раз 30, чтобы было на основе чего все рассчитывать.
Безусловно, все это не может быть единственным критерием для определения разумной закупочной цены и нужно использоваться что-то еще.

Формулы

В общем случае можно посчитать порядковый номер медианы и квартилей:

В общем случае, все эти порядковые номера могут быть нецелыми (например, если количество элементов нечетно).
Если номер квартиля – нецелое число, то значением квартиля будет сумма, состоящая из значения элемента, для которого порядковый номер равен целому значению номера квартиля, и указанной части (нецелая часть номера квартиля) разности между значением этого элемента и значением следующего элемента.

Так же в общем случае, не всегда есть порядковый номер: один и тот же признак может встречаться в выборке несколько раз и пронумеровать их можно будет только условно. Например, в статье //infostart.ru/public/539316/ рассматривается как раз такой вариант решения.

В общем случае, можно использовать понятие накопленной частоты для каждого уникального элемента ряда. Подробнее про теорию можно почитать, например, тут: https://studfile.net/preview/5316597/page:3/#9. Там же есть хорошие примеры расчета.

Запрос

Постарался прокомментрировать все действия в самом запросе

Квантили

Рассмотрен расчет медианы и квартилей, но запрос легко доработать для расчета любых других квантилей, в частности децилей и перцентилей.

Источник

Статистика — это грамматика науки о данных. Часть 3

Mar 30, 2019 · 4 min read

Повторение статистики для начала путешествия по науке о данных

Медиана и квартили как пишется

Меры расположения

Процентили

Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки.

50-й процентиль — это медиана.

Например, на графике ниже показано развитие ребенка от рождения до 2 лет. Получается, что 98% развития ребенка за первый год жизни составляет в весе меньше 11,5 кг.

Медиана и квартили как пишется

Другим примером является ра с пределение доходов в стране. 99-й процентиль — это уровень дохода, при котором 99% населения зарабатывают меньше этого значения и 1% — больше. Так в Великобритании, как показано на графике ниже, 99-й процентиль составляет 75.000 фунтов стерлингов.

Медиана и квартили как пишется

Квартили

Квартили — это процентили, которые делят набор данных на четверти. Первый квартиль, Q1, равен 25-ому процентилю, третий квартиль, Q3, равен 75-ому процентилю. Медиана может быть обозначена либо вторым квартилем, Q2, либо 50-ым процентилем.

Интерквартильный размах (IQR)

IQR — число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы. IQR — это разница между Q3 и Q1.

Медиана и квартили как пишется

Выбросы — это, проще говоря, те значения данных, которые находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR.

Диаграмма «ящик с усами»

Диаграмма «ящик с усами» показывает:

Медиана и квартили как пишется

Ящик с усами имеет горизонтальную и вертикальную оси и прямоугольный ящик.

«Усы» (выделенные фиолетовым цветом) начинаются с концов ящика и заканчиваются на самом минимальном или максимальном значениях данных. Также бывают ящики с усами, у которых есть отмеченные значения выбросов (выделены красным цветом). В таких случаях, усы не достигают минимального и максимального значений.

Ящики с усами на графике нормального распределения Ящики с усами на нормальных распределениях имеют некоторые особенности: Несмотря на то, что первый и третий квартили (Q1 и Q3) имеют такие названия, они, на самом деле, не составляют 25% от числа данных! Они показывают 34,135%. Также второй квартиль (Q2) составляет не 50%, а 68,27%.

Медиана и квартили как пишется

Моменты случайной величины

Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.

#1 — первый момент случайной величины — среднее значение данных, которое показывает место распределения.

#2 — второй момент случайной величины — дисперсия, которая показывает разброс распределения. Большие значения имеют больший размах, чем маленькие.

#3 — третий момент случайной величины — коэффициент асимметрии — мера того, насколько неравномерным является распределение. Коэффициент асимметрии положителен, если распределение наклонено влево и левый хвост короче правого. То есть среднее значение находится правее. И наоборот:

Медиана и квартили как пишется

#4 — четвертый момент случайной величины — коэффициент эксцесса, который описывает то, насколько толстый хвост и насколько острый пик распределения. Этот коэффициент показывает, насколько вероятно найти точки экстремума в данных. Чем выше значение, тем вероятнее выбросы. Это похоже на разброс (дисперсию), но между ними есть отличия.

Медиана и квартили как пишется

Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.

Источник

Медиана и квартили.

Как выяснилось, для описания нормально распределённых признаков достаточно вычислить среднее и среднее квадратическое отклонение. Но для других распределений количественных признаков, например асимметричных, полагаться на среднее и среднее квадратическое отклонение нельзя.

Для описания таких данных лучше подходит не среднее, а ме­диана. Медиана – это значение, которое делит распределение пополам: половина значений больше медианы, половина – мень­ше (точнее, не больше). Для определения медианы надо все имеющиеся значения упорядочить по возрастанию или убыванию, в центре этого ряда и будет находиться медиана. Медиану обозначают Me.

Для характеристики разброса можно использовать квартили, они в отличие от медианы делит ряд не пополам, а на четыре части. Их будет три, четверть всех значений будет меньше первого квартиля, половина (две четверти) значений – меньше второго квартиля и три четверти значений – меньше третьего квартиля. Медиану получается можно считать вторым квартилем. Вычисляются квартили аналогично медиане, по упорядоченному ряду, только отслеживается четверть, две четверти и три четверти всех значений. Квартили обозначают соответственно Q1, Q2, Q3.

Конечно, медиана и квартили, в отличие от среднего и среднего квадратического отклонения, не дают полного описания распреде­ления. Однако между первым и третьим квартилями находится по­ловина значений – значит, мы можем судить, в каких пределах находится среднее значение. По положению медианы относительно 1-го и 3-го квартилей можно судить о том, насколько асим­метрично распределение. И, наконец, теперь мы примерно зна­ем, какие значения показателя можно считать большими в данной совокупности (выше 3-го квартиля), а какие маленькими (ниже 1-го квартиля).

Для описания распределения чаще всего применяют 1-й и 3-й квартили. Однако ряд распределения можно разбить на любое другое число частей, а не только на две или четыре. Так разбиение на 10 частей будет осуществляться децилями, а на 100 частей процентилями. Порядок их вычисления аналогичен медиане и квартилям. Например, в качестве границ нормы лабораторных показателей часто используют 5-й и 95-й процентили.

Вычисление квартилей или процентилей, кроме того – хороший способ разобраться в том, насколько распределение близко к нормальному. Напом­ним, что для нормального распределения 95% значений заклю­чено в пределах двух средних квадратических отклонений от среднего и 68% – в пределах одного среднего квадратического отклонения; медиана совпадает со средним. Соответствие между процентилями и числом средних квадратических отклонений от среднего таково:

Процентили2,597,5
Отклонения от среднегоm-2sm-smm+sm+2s

А соответствие между квартилями и отклонениями от среднего:

КвартилиQ1Q2Q3
Отклонения от среднегоm-0,7smm+0,7s

Если соответствие между квартилями или процентилями и отклонениями от среднего не слишком отличаются от приведенных, то распреде­ление близко к нормальному и его можно описать при помощи среднего и среднего квадратического отклонения.

Есть еще одна, и очень важная, причина, по которой нужно знать, близко ли распределение к нормальному. Дело в том, что многие методы проверки гипотез, основаны на предположении, что распределение близко к нормальному. Только в этом случае эти методы будут надежны. Такие методы называются параметрические, т.е. основанные на параметрах распределения (нормального).

Выборочные оценки.

До сих пор нам удавалось получить данные обо всех объектах со­вокупности, поэтому мы могли точно рассчитать значения сред­него, дисперсии и среднего квадратического отклонения. На самом деле об­следовать все объекты совокупности удается редко: обычно до­вольствуются изучением выборки, полагая, что эта выборка отра­жает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной или репрезентативной. Основным способом обеспечения репрезентативности является случайный характер отбора элемента из совокупности в выборку. Имея дело с выбор­кой, мы, конечно, не узнаем точных значений среднего и среднего квадратического отклонения, но можем оценить их. Оценка среднего, вычисленная по выборке, называется выборочным средним. Вы­борочное среднее обозначают Медиана и квартили как пишетсяи вычисляют по формуле: Медиана и квартили как пишется, где n – объем выборки.

Оценка среднего квадратического отклонения называется выборочным средним квадратическим отклонением (s) и определяется следующим образом: Медиана и квартили как пишется.

Эта формула отличается от формулы для среднего квадратического отклонения по совокупности. Во-первых, среднее m или Медиана и квартили как пишетсязаменяется его выборочной оценкой – Медиана и квартили как пишется. Во-вторых, в знаменателе из числа членов выборки вычитается единица. Это определяется требованием несмещённости оценки относительно истинного значения. Можно дать и такое нестрогое объяснение: разброс значений в пределах выборки никогда не бывает столь большим, как во всей совокупности, и деление не на n, а на n-1 компенсирует возникающее занижение оценки среднего квадратического отклонения.

Дата добавления: 2016-02-04 ; просмотров: 5104 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Источник

Структурные характеристики вариационного ряда распределения

8.2. Медиана, квартили, децили

Значения изучаемого признака всех единиц статистической совокупности можно расположить в порядке возрастания (или убывания). В этом случае мы получим ранжированный ряд. Если число единиц совокупности нечетное, то значение признака, находящееся в середине ранжированного ряда, будет являться медианой. Если число единиц совокупности четное, то медианой будет средняя величина из двух значений признака, находящихся в середине ряда.

Пример 8.5. Имеются следующие данные о результатах сдачи экзамена по статистике в студенческой группе:

Таблица 8.2. Данные о результатах сдачи экзамена по статистике в студенческой группе

Номер студента1234567891011
Оценка по статистике34234443455

Представим их в виде ранжированного ряда:

Таблица 8.3.

Номер студента3148256791011
Оценка по статистике23334444455

Пример 8.6. Имеются данные о цене антоновских яблок в шести магазинах города. Представим их сразу в виде ранжированного ряда:

Таблица 8.4.

Название магазина«Огонек»«Маяк»«Заря»«Татьяна»«Ночной»«Любимый»
Цена яблок, руб. за кг404142444445

В середине ранжированного ряда находятся цены двух магазинов, причем они разные. Медиана определяется как средняя величина из этих значений признака. Она равна 43 руб. [(42 + 44) : 2 = 43].

Медиана и квартили как пишется

Медиана и квартили как пишется

Способы расчета рассматриваемых структурных показателей зависят от вида вариационного ряда. Рассмотрим их подробнее.

8.2.1. Определение структурных средних в дискретных вариационных рядах

Для определения медианы в дискретных вариационных рядах:

Медиана и квартили как пишется

Пример 8.7. Определим медианный стаж сотрудников страховой компании на основе следующих данных:

Таблица 8.5.

Время работы, лет, xiЧисло сотрудников, чел., fiНакопленная частота, Si
155
2712
3416
4925
51338
61048
71664
81377
Итого77

Номер медианы равен

Медиана и квартили как пишется

Квартили и децили определяют аналогично медиане: сначала находят их номер, затем среди накопленных частот ищут такую, которая первая равна или превышает порядковый номер показателя, ей соответствует варианта, которая является искомым показателем. Номера квартилей рассчитываются по формулам:

Порядковые номера децилей исчисляются следующим образом:

Определим квартили по данным примера 8.7. Их номера равны:

Медиана и квартили как пишется

Аналогично определяются децили. Например, восьмой дециль вычисляется следующим образом:

Медиана и квартили как пишется

8.2.2. Определение структурных средних в интервальном вариационном ряду

В интервальных рядах сначала определяют медианный интервал. Для этого так же, как и в дискретных рядах, рассчитывают порядковый номер медианы

Медиана и квартили как пишется

Накопленной частоте, которая равна номеру медианы или первая его превышает, в интервальном вариационном ряду соответствует медианный интервал. Обозначим эту накопленную частоту SМе. Непосредственно расчет медианы проводят по формуле:

Медиана и квартили как пишется

Пример 8.8. По следующим данным определим медианное значение суммы выданных банками кредитов:

Таблица 8.6.

Сумма выданных кредитов, млн ден. ед.Количество банков, fiНакопленная частота, Si.
20-4088
40-601523
60-802144
80-1001256
100-120965
120-140772
140-160476
Итого76

Медиана и квартили как пишется

т.е. у 50% банков сумма выданных кредитов не превышает 74,286 млн ден. ед.

Далее произведем расчет квартилей и децилей в интервальном вариационном ряду.

Для приведенного интервального ряда необходимо определить:

тогда ей соответствует интервал «40-60», в котором находится первый квартиль;

тогда ей соответствует интервал «100-120», в котором находится третий квартиль;

Медиана и квартили как пишется

т.е. у 25% банков сумма выданных кредитов не превышает 54,7 млн ден. ед.;

Медиана и квартили как пишется

т.е. у 75% банков сумма выданных кредитов не превышает 102,2 млн ден. ед.

Аналогично квартилям определяем децили. Формулы, используемые в ходе расчетов, поместим в таблицу.

Таблица 8.7. Формулы для расчета децилей в интервальных вариационных рядах

Медиана и квартили как пишется

Номер шестого дециля равен: Медиана и квартили как пишетсяследовательно SQ6 = 56, этой накопленной частоте соответствует интервал «80-100», в котором находится шестой дециль. Величина децильного значения равна: Медиана и квартили как пишется(млн ден. ед.), т.д. у 60% банков сумма выданных кредитов не превышает 82,7 млн ден. ед.

В статистике для характеристики степени неоднородности совокупности часто используют коэффициенты дифференциации (квартильные и децильные). Децильный коэффициент дифференциации представляет собой отношение девятого дециля к первому:

Медиана и квартили как пишется

Данный коэффициент показывает, во сколько раз варианта, выше которой находятся 10% единиц совокупности, имеющих самые большие значения признака, больше варианты, ниже которой находятся 10% единиц совокупности с самыми маленькими значениями признака. Аналогично квартильный коэффициент дифференциации определяется как отношение третьего квартиля к первому.

В заключение отметим, что приблизительное равенство средней арифметической, моды и медианы, рассчитанных по отношению к одному и тому же ряду, говорит о том, что значения признака в изучаемой совокупности имеют нормальный закон распределения (или приближаются к нему).

Медиана может быть определена графически по кумуляте. Для этих целей на оси ординат, где отмечаются накопленные частоты, находится точка, соответствующая полусумме всех частот (т.е. порядковому номеру медианы). Из нее проводится прямая параллельно оси абсцисс до пересечения с графиком (кумулятой распределения). Абсцисса точки пересечения соответствует медиане данного ряда распределения.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *