Я подумал, что было бы полезно посмотреть на динамику эпидемии в регионах, в которых статистика не выглядит искусственно сглаженной. Таких регионов на данный момент меньше половины, но всё же их довольно много и какое-то представление они дадут.
Можно ожидать, что сейчас, после решения о проведении голосования 1 июля, информация об эпидемической обстановке будет еще сильнее приглаживаться. Поэтому интересно оценить состояние дел как мы его видели в апреле-мае и посмотреть на начинающиеся в июне изменения, удерживая в голове обе возможности: что они могут быть проявлением как реального изменения динамики, так и увеличения административного давления на чиновников, отчитывающихся о заболеваемости.
В качестве критерия несглаженности данных я смотрел на среднее за 5 дней отклонение текущего значения заболеваемости от среднеарифметического от значений на день раньше и на день позже, деленное на текущее значение в некоторой степени. Классический закон больших чисел учит, что для того, чтобы распределение полученного числа не зависело от текущего уровня заболеваемости (и следовательно, можно было бы сравнивать по этому показателю Москву с тысячами заболевших в день и, скажем, Калмыкию или Вологодскую область с 10-20 случаями) "некоторая степень" должна быть равна 1/2, но есть основания полагать, в которые я сейчас не буду вдаваться, что наш процесс может этому закону не подчиняться и правильный скейлинг флуктуаций может быть другим. Поэтому я чисто эмпирически посмотрел, при каком значении степени зависимость получаемого показателя от уровня текущей заболеваемости пропадает. Оказалось, что оптимальный показатель скорее близок к 2/3, чем к 1/2. Если отклонения оказываются аномально низкими - это свидетельство того, что данные искусственно приглаживали. Наконец, как мне кажется, мне удалось более-менее разумно откалибровать шкалу, т.е., оценить, насколько невероятным является то или иное значение среднего пятидневного отклонения. Подробное описание процедуры, а заодно и классификация регионов по тому, когда они начали исправлять данные и насколько активно это делают, требует отдельного большого поста, который я всё никак не соберусь написать.
В список "хороших" я отобрал те регионы, у которых за период с 10 апреля по 1 июня ни разу не было (или "почти не было", см. оговорки ниже) гладких недельных участков, гладкость которых имела бы вероятность ниже ~0.1% Из первых 70 регионов по заболеваемости (больше 900 зарегистрированных заболевших на сегодня) в список вошли
Москва, Свердловская, Челябинская, Самарская, Саратовская, Астраханская, Ульяновская, Иркутская, Омская, Тюменская, Воронежская, Орловская, Ивановская, Смоленская, Тверская, Кировская, Новгородская, Псковская, Архангельская и Мурманская области, республики Коми, Якутия, Бурятия, Калмыкия, Адыгея, Хакасия и Тыва, Забайкальский край, Ямало-Ненецкий и Ханты-Мансийский округа, всего 30 регионов из 70 (закончить анализ и посмотреть оставшиеся 15 регионов пока не хватило времени, но в любом случае их вклад в общую заболеваемость мал). Поскольку я старался получить максимально широкий список, в него включены несколько пограничных случаев. Так, данные Тюмени и особенно Воронежа за апрель вызывают большие сомнения, но и там, и там уже более месяца как данные нормализовались. С другой стороны, есть большие сомнения относительно данных Смоленска, Саратова и Твери за последнюю неделю мая. У некоторых других из перечисленных регионов также встречаются странные области повышенной гладкости данных, но степень их невероятности не доходит до "1 из 1000". Обращу внимание, что предложенный алгоритм отсеивает только один тип возможных манипуляций с данными - сглаживание, при этом критерий поставлен достаточно мягкий, 4-5 "гладких" дней недостаточно, нужна неделя. С другой стороны, не нужно думать, что во всех 40 регионах, не прошедших фильтр, все данные полностью фальсифицированы. В середине апреля рисование сглаженных кривых было единичным явлением, липецко-курским ноу-хау. В целом с течением времени рисуют всё больше, но встречается и движение в обратном направлении.
Видно, что список нерепрезентативный - как это обычно у нас бывает (см. выборы и т.п.) регионов с качественными данными систематически больше на севере и в Сибири, и систематически меньше в Черноземье, на Юге и на Северном Кавказе. Но обращаю внимание, что попадание регионов в список зависит только от величины флуктуаций вокруг тренда но не от восходящего или нисходящего направления этого тренда, т.е. нет оснований ожидать, что в списке окажутся преимущественно регионы с ухудшающейся ситуацией. Действительно, в список попали, например, Мурманск и Коми, где были большие вспышки в начале эпидемии, а затем ситуация была взята под контроль, и не попали Красноярск и Ростов, не ставшие скрывать недавние крупные вспышки, т.к. к их данным есть серьезные претензии на других участках (у Ростова - в апреле-начале мая, у Красноярска - в последнее время, после вспышки).
Итак, на картинке - суммарный график дневных приростов по 29 из 30 "хороших" регионов (без Москвы) с 10 апреля по сегодняшний день. Видно, что никакого даже намека на плато на этом графике нет, есть ровный непрекращающийся рост. Майские данные демонстрируют постоянный рост на 2.6% в день или в 2.25 раза за месяц (фит - оранжевая прямая). Средний прирост за последние 10 дней даже чуть больше - 3% (красная прямая). Последние 4 точки (после назначения голосования 1 июля), вроде бы, отклоняются вниз, но пока невозможно сказать, флуктуация это или смена поведения.
Что из всего этого следует? Судя по всему, эпидемия за пределами Москвы продолжает разгораться. Одновременно с этим происходит ослабление карантинных мер. Из мер контроля, способных заменить карантин, более-менее, худо-бедно вводится только масочный режим. О быстром тестировании и эффективном трекинге контактов речь по-прежнему не идет. Поэтому представляется, что сохранение в ближайший месяц имеющегося тренда - это самый оптимистичный возможный сценарий. Голосование 25 июня - 1 июля пройдет за пределами Москвы в эпидемических условиях существенно худших, чем сейчас. Совершенно очевидно, что проведение голосования, связанные с ним скопления людей, поквартирные обходы стариков и т.д. неизбежно приведут к всплеску заболеваемости и большому числу жертв.