Коронавирус. Лукавство статистики. Тесты
Из сегодняшнего сообщения агентства "Интерфакс" (30.04.2020): "За последние сутки в России выявлено еще 7099 заболевших новой коронавирусной инфекцией, сообщает оперштаб. Это рекордный прирост за все время".
Да, рекорд. Но было бы неплохо пояснять, откуда берутся такие рекорды.
Ниже сухие показатели по России:
30.04.2020: +07,1% | +10,4% | +7099, =106498, #1073 (1,00%)
==> {дата, доля прироста выявленных, доля прироста умерших | прирост выявленных, всего выявленных, умерших, летальность}
— ФИЗИЧЕСКИЙ СМЫСЛ ПОКАЗАТЕЛЕЙ. ТЕСТЫ
Очень важно понимать, как именно собираются данные и какой физический смысл они несут.
Самый важный показатель, на который смотрят во всех странах мира: количество больных (confirmed cases, подтвержденные случаи, в терминологии ВОЗ и Роспотребнадзора). Разумеется, в действительности это не количество больных. Ибо есть больные, а есть бессимптомные. И даже не количество инфицированных. Поскольку выявление в популяции здесь происходит не по симптоматике, а исключительно по тестам. И вот здесь начинается самое интересное.
Дело даже не столько в том, что тесты ошибаются (ложноположительные и ложноотрицательные). Ошибаются по разным причинам (и не только из-за чувствительности и работы персонала).
Проблема в том, что тестирование (во всех странах) ведется не на контрольной сбалансированной выборке (скажем, 10 тыс. в сутки, баланс по возрасту, полу и т.д.), а как придется. Проводится столько-то лабораторных исследований в сутки (включая и среди тех, кого накануне тестировали) по всем лабораториям данной страны (у России их сейчас 536) и фиксируется полученный результат, выданный в ходе каждого теста.
А теперь посмотрим, как меняется объем тестирования в отношении России по статистике последних 7 дней (собирал по офиц. данным Роспотребнадзора). Абсолютное значение, прирост по отношению к предыдущей дате (база тестирования) и процент прироста по отношению к базе.
30.04.2020: 3,498,308 (+194,591), +05,9%
29.04.2020: 3,303,717 (+164,459), +05,2%
28.04.2020: 3,139,258 (+119,824), +04,0%
27.04.2020: 3,019,434 (+141,735), +04,9%
26.04.2020: 2,877,699 (+156,199), +05,7%
25.04.2020: 2,721,500 (+171,500), +06,7%
24.04.2020: 2,550,000 (+148,384), +06,2%
Чтобы было еще понятнее. Процент выявляемости по тестам у разных стран разный. Считается он легко: количество выявленных случаев делим на количество проведенных тестов за тот же период (напр., за сутки). Это возможность быстро оценить количество выявленных, если известно количество тестов.
Посмотрим данные по России и США.
У России процент ежедневной выявляемости (по данным за последние 7 дней) находится в диапазоне 3,48-5,35%. У США: 7,91%-16,12%. Кстати, у европейских стран он близок к показателям США.
Перепады в базе тестирования у США ото дня ко дню тоже наблюдаются (как у нас), и они весьма заметны: 368 тыс., 293 тыс., 279 тыс., 201 тыс., 197 тыс., 185 тыс., 281 тыс.
Но если для США можно предположить, что искажения идут на уровне ресурсов-посредников, дающих не итоговое значение тестов за сутки, а некое промежуточное, моделируемое (это надо перепроверять), то для России все предельно ясно: данные каждое утро публикует Роспотребнадзор. Посредников нет. Публикует практически в одно и то же время. Но скачки налицо: 148 тыс., 172 тыс., 156 тыс., 141 тыс., 120 тыс., 164 тыс., 195 тыс. Ниже подробнее.
== Россия
30.04.2020: 3498308 (+194591), +7099 (3,65%)
29.04.2020: 3303717 (+164459), +5841 (3,55%)
28.04.2020: 3139258 (+119824), +6411 (5,35%)
27.04.2020: 3019434 (+141735), +6198 (4,37%)
26.04.2020: 2877699 (+156199), +6361 (4,07%)
25.04.2020: 2721500 (+171500), +5966 (3,48%)
24.04.2020: 2550000 (+148384), +5849 (3,94%)
А теперь попробуем прикинуть, сколько лишних пациентов у нас насчитали просто за счет наращивания базы тестирования.
Итак, на 29.04.2020 эта база была 165 тыс. тестов. Её за сутки нарастили на 30 тыс. тестов (на 30132). Исходя из процента выявляемости (возьмем для надежности минимум – 3,48%) получаем потенциально “лишних” 1049 человека. Всё довольно просто. Это та “погрешность”, которая существенно влияет и на ключевой показатель и, разумеется, на выводы и орг.выводы, а также на рост алармистских, тревожных настроений. Далеко не всегда обоснованных.
Причем, что характерно, из сегодняшнего прироста в +7099 почти 40% (39,9%) – бессимптомные носители, не больные (если считать, что тесты безупречны).
Для понимания всей непрозрачности, мутности мировой статистики: база ежедневного тестирования в сутки на такую страну, как Япония (126,23 млн человек), составляет около 8 тыс. тестов. (в 4 раза меньше нашего “довеска” погрешности в 30 тыс.). Китай свои данные тестирования не раскрывает. Вообще. Ни раньше, ни сейчас.
——— ДОП. ИНФОРМАЦИЯ
• Коронавирус. Россия. Прогноз на 30 апреля: http://proza.ru/2020/04/30/186
• Коронавирус. Россия. 30 апреля: http://proza.ru/2020/04/30/1066
• Коронавирус. Эпидемия. Модель лесного пожара: http://proza.ru/2020/04/23/1046
• Коронавирус. Москва и Россия. Бессимптомные и тяжелые. Реальная картина: http://proza.ru/2020/04/24/2228
Свидетельство о публикации №220043001438
В лукавстве статистики есть ещё один подводный камень.
При инфекционной болезни возможны две трактовки термина "больной".
1. Тот, кого надо лечить.
2. Тот, кто способен распространять заразу.
В разных странах к вопросу подходят по разному.
А иногда и в одной стране разные ведомства дают разную статистику. Скажем, в Китае полиция и органы снабжения учитывают всех вирусоносителей, а медики только "симптомных".
Беднарский Константин Викторович 08.05.2020 02:51 Заявить о нарушении