7 заметок с тегом

static

Демографический параллелепипед

Придумал новый вид графиков — демографический параллелепипед! (Это прямоугольник, ну так и демографический треугольник — не пирамида).

Демография России 1897—2036

На английский «демографический параллелепипед» переводится как chorotable. Потому что это, на самом деле, просто экселевская таблица с условным форматированием.

Вообще, дополнительное цветовое кодирование значений следует использовать во всех публикуемых таблицах. Обычно в таблице интересует среднее и отклонения от него. И зачем читать цифры, если на глаз это различается в долю секунды?

 15420   2018   demography   done   excel   russia   static   table

Демографические (половозрастные) пирамиды по всем переписям

Пять месяцев назад я опубликовал видео «История России в демографических пирамидах», и только сейчас понял, что сами пирамиды не выложил. Выкладываю (это листабельная галерея)

Демографическая (половозрастная) пирамида России 2017 Демографическая (половозрастная) пирамида России по переписи 2010 Демографическая (половозрастная) пирамида России по переписи 2002 Демографическая (половозрастная) пирамида России (СССР, РСФСР) по переписи 1989 Демографическая (половозрастная) пирамида России (СССР, РСФСР) по переписи 1979 Демографическая (половозрастная) пирамида России (СССР, РСФСР) по переписи 1970 Демографическая (половозрастная) пирамида России (СССР, РСФСР) по переписи 1959 Демографическая (половозрастная) пирамида России (СССР, РСФСР) по переписи 1939 Демографическая (половозрастная) пирамида России (СССР, РСФСР) по  переписи 1926 Демографическая (половозрастная) пирамида России по первой переписи 1897

И ведь нельзя было просто взять и заскриншотить. Как минимум, нужно добавить заголовки и источники. Пригодится сетка для разглядывания. Не забыть выложить собранные данные всех переписей в xls.

Пока делал, думал про форматы предоставления информации. Вот листалка картинок, карусель. Можно изучать всё в удобном для себя темпе (в отличие от гифок и видео), переход между изображениями интуитивный (в отличие от любого интерактивного решения), и ничего лишнего. В видео было удобно показать, как получается эхо демографических спадов, и как вообще история пережевывает поколения. Сейчас бы я, пожалуй, сконцентрировался на подписях к ключевым событиям, типа, вот пила Чурова, вот революция, вот эхо.

Но это ведь все равно не решит главную проблему. Все равно раз в год, когда публикуют свежую статистику по демографии, интернет взрывается от новости, что Россия вымирает, или наоборот, встрепенулась. Блин, ну как будто сейчас не видно, как все будет в ближайшие 20 лет.

Предлагаю для такого термин old news, по аналогии с fake news.

 1 комментарий    3820   2018   demography   history   population pyramid   russia   static

Gender gap в России

Интересно, отличаются ли зарплаты женщин и мужчин в России?

Зарплаты женщин и мужчин по должностям и профессиям в России

Отличаются. Инсайты:

  1. Мужчина со средней квалификацией получает больше, чем женщина с высшей квалификацией.
  2. Выполняя ту же работу, что и мужчина, женщины получают меньше зарплату — это наблюдается по всем категориям профессий. Только на не очень квалифицированных работах в аграрном секторе у женщин зарплата чуть-чуть выше.
  3. У женщин хуже складывается карьера: среди специалистов высокой и средней квалификации женщин почти три четверти, а среди руководителей — меньше половины. Значит, они реже идут на повышение.
  4. Среди должностей с низкими зарплатами женщин также намного больше.

UPD. Я думал, что gender gap в России вообще толком не изучают — но нашлась отличная статья! С графиками!

 855   2018   done   dot plot chart   jobs   pie chart   russia   salary   static   table

Самые частотные слова русского и английского языков

Можно ли по частоте слов в русском и английском языке сделать какие-то выводы относительно языка и культуры?

Частотность слов в русском и английском языках (самые частые существительные, прилагательные и глаголы)

Различия в глаголах носят скорее грамматический характер. Прилагательные отражают только то, что у нас не особо распространена расовая проблематика. А вот существительные — это интересно. Английский список явно намного практичнее. Может быть, дело в подборе корпуса текстов — ну, значит, в английском практичные тексты более распространены, это примерно то же самое.

 1611   2018   done   language   static   table

Семейное положение россиян

Сколько осталось незамужних девушек моего возраста в России женатых, холостых, разведенных и вдовых по возрастным группам?

Количество незамужних, разведенных и холостых мужчин и женщин по возрастам в России Количество незамужних, разведенных и холостых мужчин и женщин по возрастам. Кавказ Количество незамужних, разведенных и холостых мужчин и женщин по возрастам. Московская область Количество незамужних, разведенных и холостых мужчин и женщин по возрастам. Москва

Брачную демографическую пирамиду с делением на децили я первый и единственный раз увидел в книжке 1898-го года, после чего почувствовал неудержимое стремление перерисовать по нашим данным — уж очень богатый на инсайты график.

Старая инфографика. Демографическая (половозрастная) пирамида

Любопытно сравнить, как делают брачные пирамиды сейчас. Выглядит свежо, но без сетки децилей — пустышка.

Брачная демографическая пирамида

И поучительный вывод, чтобы не забыть: если хочется сравнить разные регионы, то лучше сделать специальный график со сравнением, а не пытаться найти десять отличий в нескольких , почти идентичных картинках.

 2124   2018   demography   done   population pyramid   russia   static

Статистика проката российского кино (2004—2017)

Услышал новость, что самым кассовым российским фильмом недавно стал мультик «Последний богатырь». А с учётом инфляции? Что вообще происходит с российским кино?

С помощью ParseHub собрал данные из «Бюллетеня кинопрокатчика».

С помощью «Статбюро» выровнял кассовые сборы по инфляции. Понял, что цифры получаются неточные, билеты ведь не единоразово продаются. И вообще, количество проданных билетов точнее показывает, на какой фильм люди больше ходили.

Интересней всего — что изменилось за прошедшие с 2004-го года 13 лет. Без промышленного анализа или, на худой конец, визуализации, действительно непонятно что. Картинку сделал просто в новом (прекрасном) Экселе. Стала понятней сезонность, но что происходит с кино — по-прежнему не ясно.

Параллельно прочитал детальнейший доклад Фонда кино «Российская киноиндустрия — 2016. Цифры и мнения». Стал понятен масштаб вопросов и то, что имеющихся данных для объяснения общей картины сильно недостаточно.

Дорисовал на график подписи, на этом пока всё. По количеству зрителей «Последний богатырь» — второй, «Девятая рота» — пятая, а первое место — у «Иронии судьбы-2».

Таблицу с данными выложил в папочку, если что-то из неё сделаете путное — пришлите посмотреть, интересно!

 676   2017   cinema   column chart   done   excel   histogram   russia   static

«Школа злословия»: время выхода в эфир

Люблю программу «Школа злословия». Но вот этот текст из Википедии вообще не понимаю.

Данные

Переписываю данные руками в таблицу. Чувствую себя идиотом, но другого решения не вижу.

Пока переписываю, вижу что время выхода в эфир иногда указывается как «в 0:55/1:00». Ну, запишем среднее на глазок, — подумал я. Ближе к концу появляются монстры типа «0:55/1:00/1:30/1:35/1:50/1:55/2:30». Что это значит? Полез в программу телепередач, проверил последние 14 выпусков (на сайте НТВ есть архив телепрограммы). Выяснилось, что правда. Сегодня эфир в 2.30, а на прошлой неделе был в час ночи. Данные из телепрограммы запишем в таблицу для очистки совести, но в целом учитывать не будем, потому что может сложиться впечатление, что прыгать время эфира стало только в конце жизненного пути программы, а это нифига не факт. Но ведь в Википедии время эфиров уже изначально указано с разной точностью? Эх, полный фейл. Будем считать, что для наших целей (понять, как именно программа уплывала в ночной эфир) это не сильно важно.

Вики пишет, что снят был 431 выпуск, у меня количество выпусков получилось на 20% больше. Ну, учел перерывы между сезонами, осталось 485. Добрый человек сделал машиночитаемый список, в какой программе какой гость был, пытаемся соединить таблицы. Остается много смутных мест. Пытаюсь прояснить ситуацию по косвенным уликам (блоги, новости, программы телепередач). Потратил час на выяснение, грубо говоря, выходил ли выпуск передачи 2 июня 2003 года и кто там был. Понял, что в интернете просто нет достоверных данных, а ошибки копируются и еще больше путают. Помогли бы архивы телеканалов, конечно, но добывать их — уже чересчур.

Итоговую таблицу с данными выложил, может кому-то понадобится.

Картинка

Время: если программа переехала с 23:50 на 01:10, как это показать на одной оси? Формат данных задаем как [HH] :MM:SS (в двух квадратных скобках), считаем абсолютное количество часов. «01:10» превращается в «25:10». Уродски, но понятно.

Дни недели: за 12 лет существования программа ездила по сетке от вечера среды до поздней ночи понедельника. Если брать 15-минутные интервалы, в промежутке получится больше 500 делений. Ничего не видно. Может, выбрать только значимые промежутки? Сделать отклонение от прайм-тайма? Думаю, достаточно было бы раскрасить дни недели разными цветами, но как это сделать в Опен.Офисе, непонятно.

И что в итоге? Имеем время начало эфира и длительность, получаем время конца эфира. Отображаем начало и конец биржевой свечкой. Что-нибудь подписать в Фотошопе? Попробуем. Ну и, в принципе, всё, тупик.

Итого

Данные не слишком корректны. На графике плохо видно динамику сползания в ночной эфир из-за масштаба. Плоховато видны сезоны и длительность программы. Совсем не видны дни недели.

Ставим себе трояк за старание, публикуем, потому что отрицательный результат — это тоже результат.

 415   2016   candlestick   done   static   tv