Медиана и квартили как пишется
Расчет медианы и квартилей для дискретного ряда запросом
Что такое медиана и квартили?
Медиана — числовое значение признака, которое делит упорядоченную по возрастанию совокупность на две равных части.
Квартили — числовые значения признака, которые делят упорядоченную по возрастанию совокупность на четыре равных части.
Раз квартили делят совокупность на четыре части, то квартилей бывает три варианта: первый (нижний), второй(средний), третий (верхний). Второй квартиль это и есть медиана.
Пример
Имеем числовой ряд [1,3,5,7,9,11,13]:
Все становится немного сложнее, когда элементов, например, нечетное количество — выбрать конкретный элемент уже не получится.
Зачем все это нужно?
Медиана
Такой показатель как «среднее» знаком всем и ни у кого не возникает вопросов о его необходимости. Проблема со средним в том, что оно хорошо описывает данные, если они распределены нормально. Иначе, как правило, разумнее использовать медиану.
Самый простой пример: средняя зарплата в России. Показатель в некотором смысле отражает «среднюю температуру по больнице», так как на него оказывают сильное влияние выбросы — условно, слишком большие зарплаты олигархов. В то же время, медиана показывает такой размер зарплаты, который делит население пополам — половина получает меньше этой суммы, половина больше. В итоге, медиана почти в 1.5 раза меньше средних показателей зарплаты.
Более близкий пример к 1С: средний чек. Если хочется оценить динамику этого показателя, то лучше использовать медиану. Причина: на среднее сильно влияют выбросы — очень маленькие покупки или наоборот очень большие.
Квартили
Например, есть задача оценки адекватности закупочной цены на товар на текущий момент.
Один из вариантов — посмотреть по каким ценам продавался этот товар ранее и исходя из наценки рассчитать целевую закупочную цену. Но смотреть на среднее, как было сказано выше, плохая затея. Можно, например, попытаться определить такую цену, что 75% товара продавалось по ней или выше — это и будет 1-й квартиль. Все это, правда, будет работать, если у нас достаточно наблюдений — например, товар продавался хотя бы раз 30, чтобы было на основе чего все рассчитывать.
Безусловно, все это не может быть единственным критерием для определения разумной закупочной цены и нужно использоваться что-то еще.
Формулы
В общем случае можно посчитать порядковый номер медианы и квартилей:
В общем случае, все эти порядковые номера могут быть нецелыми (например, если количество элементов нечетно).
Если номер квартиля – нецелое число, то значением квартиля будет сумма, состоящая из значения элемента, для которого порядковый номер равен целому значению номера квартиля, и указанной части (нецелая часть номера квартиля) разности между значением этого элемента и значением следующего элемента.
Так же в общем случае, не всегда есть порядковый номер: один и тот же признак может встречаться в выборке несколько раз и пронумеровать их можно будет только условно. Например, в статье //infostart.ru/public/539316/ рассматривается как раз такой вариант решения.
В общем случае, можно использовать понятие накопленной частоты для каждого уникального элемента ряда. Подробнее про теорию можно почитать, например, тут: https://studfile.net/preview/5316597/page:3/#9. Там же есть хорошие примеры расчета.
Запрос
Постарался прокомментрировать все действия в самом запросе
Квантили
Рассмотрен расчет медианы и квартилей, но запрос легко доработать для расчета любых других квантилей, в частности децилей и перцентилей.
Статистика — это грамматика науки о данных. Часть 3
Mar 30, 2019 · 4 min read
Повторение статистики для начала путешествия по науке о данных
Меры расположения
Процентили
Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки.
50-й процентиль — это медиана.
Например, на графике ниже показано развитие ребенка от рождения до 2 лет. Получается, что 98% развития ребенка за первый год жизни составляет в весе меньше 11,5 кг.
Другим примером является ра с пределение доходов в стране. 99-й процентиль — это уровень дохода, при котором 99% населения зарабатывают меньше этого значения и 1% — больше. Так в Великобритании, как показано на графике ниже, 99-й процентиль составляет 75.000 фунтов стерлингов.
Квартили
Квартили — это процентили, которые делят набор данных на четверти. Первый квартиль, Q1, равен 25-ому процентилю, третий квартиль, Q3, равен 75-ому процентилю. Медиана может быть обозначена либо вторым квартилем, Q2, либо 50-ым процентилем.
Интерквартильный размах (IQR)
IQR — число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы. IQR — это разница между Q3 и Q1.
Выбросы — это, проще говоря, те значения данных, которые находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR.
Диаграмма «ящик с усами»
Диаграмма «ящик с усами» показывает:
Ящик с усами имеет горизонтальную и вертикальную оси и прямоугольный ящик.
«Усы» (выделенные фиолетовым цветом) начинаются с концов ящика и заканчиваются на самом минимальном или максимальном значениях данных. Также бывают ящики с усами, у которых есть отмеченные значения выбросов (выделены красным цветом). В таких случаях, усы не достигают минимального и максимального значений.
Ящики с усами на графике нормального распределения Ящики с усами на нормальных распределениях имеют некоторые особенности: Несмотря на то, что первый и третий квартили (Q1 и Q3) имеют такие названия, они, на самом деле, не составляют 25% от числа данных! Они показывают 34,135%. Также второй квартиль (Q2) составляет не 50%, а 68,27%.
Моменты случайной величины
Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.
#1 — первый момент случайной величины — среднее значение данных, которое показывает место распределения.
#2 — второй момент случайной величины — дисперсия, которая показывает разброс распределения. Большие значения имеют больший размах, чем маленькие.
#3 — третий момент случайной величины — коэффициент асимметрии — мера того, насколько неравномерным является распределение. Коэффициент асимметрии положителен, если распределение наклонено влево и левый хвост короче правого. То есть среднее значение находится правее. И наоборот:
#4 — четвертый момент случайной величины — коэффициент эксцесса, который описывает то, насколько толстый хвост и насколько острый пик распределения. Этот коэффициент показывает, насколько вероятно найти точки экстремума в данных. Чем выше значение, тем вероятнее выбросы. Это похоже на разброс (дисперсию), но между ними есть отличия.
Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.
Медиана и квартили.
Как выяснилось, для описания нормально распределённых признаков достаточно вычислить среднее и среднее квадратическое отклонение. Но для других распределений количественных признаков, например асимметричных, полагаться на среднее и среднее квадратическое отклонение нельзя.
Для описания таких данных лучше подходит не среднее, а медиана. Медиана – это значение, которое делит распределение пополам: половина значений больше медианы, половина – меньше (точнее, не больше). Для определения медианы надо все имеющиеся значения упорядочить по возрастанию или убыванию, в центре этого ряда и будет находиться медиана. Медиану обозначают Me.
Для характеристики разброса можно использовать квартили, они в отличие от медианы делит ряд не пополам, а на четыре части. Их будет три, четверть всех значений будет меньше первого квартиля, половина (две четверти) значений – меньше второго квартиля и три четверти значений – меньше третьего квартиля. Медиану получается можно считать вторым квартилем. Вычисляются квартили аналогично медиане, по упорядоченному ряду, только отслеживается четверть, две четверти и три четверти всех значений. Квартили обозначают соответственно Q1, Q2, Q3.
Конечно, медиана и квартили, в отличие от среднего и среднего квадратического отклонения, не дают полного описания распределения. Однако между первым и третьим квартилями находится половина значений – значит, мы можем судить, в каких пределах находится среднее значение. По положению медианы относительно 1-го и 3-го квартилей можно судить о том, насколько асимметрично распределение. И, наконец, теперь мы примерно знаем, какие значения показателя можно считать большими в данной совокупности (выше 3-го квартиля), а какие маленькими (ниже 1-го квартиля).
Для описания распределения чаще всего применяют 1-й и 3-й квартили. Однако ряд распределения можно разбить на любое другое число частей, а не только на две или четыре. Так разбиение на 10 частей будет осуществляться децилями, а на 100 частей процентилями. Порядок их вычисления аналогичен медиане и квартилям. Например, в качестве границ нормы лабораторных показателей часто используют 5-й и 95-й процентили.
Вычисление квартилей или процентилей, кроме того – хороший способ разобраться в том, насколько распределение близко к нормальному. Напомним, что для нормального распределения 95% значений заключено в пределах двух средних квадратических отклонений от среднего и 68% – в пределах одного среднего квадратического отклонения; медиана совпадает со средним. Соответствие между процентилями и числом средних квадратических отклонений от среднего таково:
| Процентили | 2,5 | 97,5 | |||
| Отклонения от среднего | m-2s | m-s | m | m+s | m+2s |
А соответствие между квартилями и отклонениями от среднего:
| Квартили | Q1 | Q2 | Q3 |
| Отклонения от среднего | m-0,7s | m | m+0,7s |
Если соответствие между квартилями или процентилями и отклонениями от среднего не слишком отличаются от приведенных, то распределение близко к нормальному и его можно описать при помощи среднего и среднего квадратического отклонения.
Есть еще одна, и очень важная, причина, по которой нужно знать, близко ли распределение к нормальному. Дело в том, что многие методы проверки гипотез, основаны на предположении, что распределение близко к нормальному. Только в этом случае эти методы будут надежны. Такие методы называются параметрические, т.е. основанные на параметрах распределения (нормального).
Выборочные оценки.
До сих пор нам удавалось получить данные обо всех объектах совокупности, поэтому мы могли точно рассчитать значения среднего, дисперсии и среднего квадратического отклонения. На самом деле обследовать все объекты совокупности удается редко: обычно довольствуются изучением выборки, полагая, что эта выборка отражает свойства совокупности. Выборку, отражающую свойства совокупности, называют представительной или репрезентативной. Основным способом обеспечения репрезентативности является случайный характер отбора элемента из совокупности в выборку. Имея дело с выборкой, мы, конечно, не узнаем точных значений среднего и среднего квадратического отклонения, но можем оценить их. Оценка среднего, вычисленная по выборке, называется выборочным средним. Выборочное среднее обозначают 

Оценка среднего квадратического отклонения называется выборочным средним квадратическим отклонением (s) и определяется следующим образом: 
Эта формула отличается от формулы для среднего квадратического отклонения по совокупности. Во-первых, среднее m или 

Дата добавления: 2016-02-04 ; просмотров: 5104 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ
Структурные характеристики вариационного ряда распределения
8.2. Медиана, квартили, децили
Значения изучаемого признака всех единиц статистической совокупности можно расположить в порядке возрастания (или убывания). В этом случае мы получим ранжированный ряд. Если число единиц совокупности нечетное, то значение признака, находящееся в середине ранжированного ряда, будет являться медианой. Если число единиц совокупности четное, то медианой будет средняя величина из двух значений признака, находящихся в середине ряда.
Пример 8.5. Имеются следующие данные о результатах сдачи экзамена по статистике в студенческой группе:
| Номер студента | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Оценка по статистике | 3 | 4 | 2 | 3 | 4 | 4 | 4 | 3 | 4 | 5 | 5 |
Представим их в виде ранжированного ряда:
| Номер студента | 3 | 1 | 4 | 8 | 2 | 5 | 6 | 7 | 9 | 10 | 11 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Оценка по статистике | 2 | 3 | 3 | 3 | 4 | 4 | 4 | 4 | 4 | 5 | 5 |
Пример 8.6. Имеются данные о цене антоновских яблок в шести магазинах города. Представим их сразу в виде ранжированного ряда:
| Название магазина | «Огонек» | «Маяк» | «Заря» | «Татьяна» | «Ночной» | «Любимый» |
|---|---|---|---|---|---|---|
| Цена яблок, руб. за кг | 40 | 41 | 42 | 44 | 44 | 45 |
В середине ранжированного ряда находятся цены двух магазинов, причем они разные. Медиана определяется как средняя величина из этих значений признака. Она равна 43 руб. [(42 + 44) : 2 = 43].
Способы расчета рассматриваемых структурных показателей зависят от вида вариационного ряда. Рассмотрим их подробнее.
8.2.1. Определение структурных средних в дискретных вариационных рядах
Для определения медианы в дискретных вариационных рядах:
Пример 8.7. Определим медианный стаж сотрудников страховой компании на основе следующих данных:
| Время работы, лет, xi | Число сотрудников, чел., fi | Накопленная частота, Si |
|---|---|---|
| 1 | 5 | 5 |
| 2 | 7 | 12 |
| 3 | 4 | 16 |
| 4 | 9 | 25 |
| 5 | 13 | 38 |
| 6 | 10 | 48 |
| 7 | 16 | 64 |
| 8 | 13 | 77 |
| Итого | 77 | — |
Номер медианы равен
Квартили и децили определяют аналогично медиане: сначала находят их номер, затем среди накопленных частот ищут такую, которая первая равна или превышает порядковый номер показателя, ей соответствует варианта, которая является искомым показателем. Номера квартилей рассчитываются по формулам:
Порядковые номера децилей исчисляются следующим образом:
Определим квартили по данным примера 8.7. Их номера равны:
Аналогично определяются децили. Например, восьмой дециль вычисляется следующим образом:
8.2.2. Определение структурных средних в интервальном вариационном ряду
В интервальных рядах сначала определяют медианный интервал. Для этого так же, как и в дискретных рядах, рассчитывают порядковый номер медианы
Накопленной частоте, которая равна номеру медианы или первая его превышает, в интервальном вариационном ряду соответствует медианный интервал. Обозначим эту накопленную частоту SМе. Непосредственно расчет медианы проводят по формуле:
Пример 8.8. По следующим данным определим медианное значение суммы выданных банками кредитов:
| Сумма выданных кредитов, млн ден. ед. | Количество банков, fi | Накопленная частота, Si. |
|---|---|---|
| 20-40 | 8 | 8 |
| 40-60 | 15 | 23 |
| 60-80 | 21 | 44 |
| 80-100 | 12 | 56 |
| 100-120 | 9 | 65 |
| 120-140 | 7 | 72 |
| 140-160 | 4 | 76 |
| Итого | 76 | — |
т.е. у 50% банков сумма выданных кредитов не превышает 74,286 млн ден. ед.
Далее произведем расчет квартилей и децилей в интервальном вариационном ряду.
Для приведенного интервального ряда необходимо определить:
тогда ей соответствует интервал «40-60», в котором находится первый квартиль;
тогда ей соответствует интервал «100-120», в котором находится третий квартиль;
т.е. у 25% банков сумма выданных кредитов не превышает 54,7 млн ден. ед.;
т.е. у 75% банков сумма выданных кредитов не превышает 102,2 млн ден. ед.
Аналогично квартилям определяем децили. Формулы, используемые в ходе расчетов, поместим в таблицу.




















следовательно SQ6 = 56, этой накопленной частоте соответствует интервал «80-100», в котором находится шестой дециль. Величина децильного значения равна:
(млн ден. ед.), т.д. у 60% банков сумма выданных кредитов не превышает 82,7 млн ден. ед.