22 апреля 2010 г.

Медиана

Копипаст из "Бреши в Мироздании" от 4 июня 2009 г.
Специально для любителей статистики. Сука, это охуенно :)
Медиана

Выражение, что «есть ложь, есть большая ложь, а есть статистика» придумал человек, слабо себе представляющий статистику. Действительно, когда у одного месячный доход составляет 5 тыс. рублей, а у другого миллион, то на более чем 500 тыс. рублей в месяц жить можно. Но такого не бывает.

Средняя величина это вообще бред сивой кобылы, не имеющий никакого отношения к реальности. Средняя величина ни о чем не говорит. Решительно ни о чем. Для установления истины или для возможности хотя бы к ней приблизится следует пользоваться медианой. В США и в Европе применяют понятие медианной заработной платы. При этом заработная плата менее 50-60 % от медианной является признаком бедности. У нас вообще не измеряют этот показатель.

Важность статистической медианы проиллюстрирую следующим примером. Взял я дома все устройства с часами и выписал на бумажку показания этих часов. Получилась следующая последовательность:
10:22, 10:21, 10:23, 08:37, 10:27, 10:26, 11:26, 10:21, 10:22.

Одни часы не были переведены на летнее время, тогда как другие стояли. Следующим этапом рассортировал полученные значения по возрастанию:
08:37, 10:21, 10:21, 10:22, 10:22, 10:23, 10:26, 10:27, 11:26.

Выбрал срединное значение в полученной последовательности. Этим значением оказалось 10:22. Таким образом было обнаружено время на средних часах, которое максимально приближено к истинному. Это все несмотря на то, что одни часы стояли, а другие спешили на один час. Для ценителей средних значений сообщаю, что средним показанием моих часов было 10:18.

Позволю только заметить, что автор немного ошибается: используемое в тексте понятие "среднего значения" на самом деле относиться к среднему арифметическому - одной из средних величин, коей является и медиана.
Использование среднего арифметического на практике оправдано только в тех случаях, когда колебания значений вариационного ряда (это ряд в котором числа расположены в ранговом порядке - по возрастанию или, реже, по убыванию), относительно друг друга, весьма незначительны. На примере с часами это будет выглядеть так: 10:21, 10:21, 10:22, 10:22, 10:23, 10:26.*
Но вот если крайние значения ряда слишком расходятся - 08:37 и 11:26 - необходимо более корректное вычисление средней величины, а поскольку использование одних только чисел ряда недостаточно - вводят некоторые дополнительные значения, необходимые для расчета, такие как частота встречаемости и др.
Вот здесь оптимальной величиной для нахождения среднего значения и является медиана, для определения которой используется большинство вводимых параметров.

Все, что я воспроизвел здесь, опирается только на опыт, поэтому вероятно некоторое расхождение понятий, с используемыми в литературе. Смысловая нагрузка осталась прежней.**

* - для расчета колебаний крайних значений используются свои формулы, о которых я не буду здесь говорить, дабы не затруднять читателя и не уклоняться от основной темы. Коэффициенты, получаемые в резутьтате этих расчетов являются указателями на то, какие именно средние величины наиболее целесообразно рассчитывать.

** - на кафедре ОЗиЗ работают железнялобые люди, не склонные к дискуссии.

3 комментария:

  1. Среднее арифметическое из выборки или генеральной совокупности имеет смысл только тогда, когда имеется нормально распределение этих величин. Это и есть "когда колебания значений вариационного ряда (это ряд в котором числа расположены в ранговом порядке - по возрастанию или, реже, по убыванию), относительно друг друга, весьма незначительны".

    ОтветитьУдалить
  2. Кто же спорит. Но я писал для человека, не отягощеного соответствующими знаниями и кое-что упростил или расписал. Как было указано в первой сноске:"дабы не затруднять читателя".
    Целью поста было описание сути выбора использования той или иной величины, и, думаю, это получилось.

    ОтветитьУдалить
  3. Я тут в сторонке пока покурю...

    ОтветитьУдалить