Используются материалы Financial Times Financial Times

Поддержите VTimes, чтобы мы могли работать для вас.
Мнение
Время прочтения: 4 мин
Обновлено:

Запрос на коронавирус

Цифровая эпидемиология как альтернатива официальной статистике ковида

Качество официальной российской статистики, описывающей эпидемию коронавируса, вызывает очень много вопросов, по крайней мере у людей, занимающихся анализом данных. Тут и проблемы с полнотой и доступностью тестирования, которые очень сильно варьируются от региона к региону, и многочисленные признаки прямой фальсификации статистики – как на уровне регионов, так и на федеральном уровне.

Недоверие к официальным данным порождает интерес к альтернативным способам оценки силы и динамики эпидемии. Логично, что одним из таких способов (основным?) стало использование самого большого и детального, по крайней мере из общедоступных, массива данных о поведении и интересах россиян. Что это за массив? Статистика поисковых запросов, которую в агрегированном виде публикуют и «Яндекс», и Google.

В ее основе – задаваемые россиянами сотни миллионов поисковых запросов в сутки.

На основе простой идеи, что рост количества людей, столкнувшихся с какой-то проблемой со здоровьем, должен вызывать и рост количества поисковых запросов, связанных с этой проблемой, в последние годы в мире стремительно развивается по сути целое новое направление в эпидемиологии – digital epidemiology.

Как и любой другой метод научного исследования, использование поисковой статистики – не идеальный и местами крайне непростой в использовании инструмент, но в целом этот метод работает. Естественно, что его стали активно использовать и с началом вспышки пандемии коронавируса – например, Google публикует специальный датасет по ковидным запросам для исследователей, а количество научных статей, в которых одновременно упоминается ковид и Google Trends, уже превысило 1000.

В России изучением того, как эпидемия отражается на поисковых запросах и как с помощью поисковой статистики можно отслеживать географию и динамику эпидемии, энтузиасты начали заниматься уже в апреле, и с тех пор мы сильно продвинулись в понимании того, какие поисковые запросы являются наиболее показательными и как в поисковой статистике отделять влияние пандемии, например, от влияния частоты упоминания коронавируса в медиа. «Мы» – это никак между собой организационно не связанные эксперты с большим опытом анализа открытых данных, в том числе и поисковой статистики. Например, я впервые использовал поисковую статистику в рамках научной статьи еще 19 лет назад, а автор лучших текстов про то, почему поисковая статистика позволяет оценить динамику эпидемии, Александр Драган – маркетолог в одной из самых сильных команд на рынке eTravel.

За эти месяцы выявлены даже не десятки, а сотни различных поисковых запросов (правильнее будет сказать «поисковых фраз» – поскольку сервис wordstat.yandex.ru показывает статистику не по конкретному запросу, а по всем запросам, в состав которых входят ключевое слово или слова), частота появления которых коррелирует с динамикой пандемии коронавируса. Это и запросы, связанные с симптомами коронавируса, и запросы, связанные с лекарствами и с получением медицинской помощи. Речь не идет о том, что мы исходим из жесткого предположения, будто ковидные запросы задают только те, кто действительно заболел, и тем более – будто такие запросы задают все заболевшие. Конечно, это не так – есть и те, кто болеет и не ищет ничего на эту тему в поисковиках, есть и те, кто задает запросы из любопытства, поддавшись общему страху или неверно интерпретировав симптомы обычной простуды, хотя в действительности не больны коронавирусом.

Но если с уровня данных об индивидуальном поведении переходить к агрегированной статистике по тысячам и миллионам интернет-пользователей, то мы видим устойчивую связь между силой и динамикой эпидемии, с одной стороны, и количеством и динамикой поисковых запросов про симптомы и лечение – с другой стороны. Накопленный за последние месяцы опыт анализа поисковой статистики, в том числе и ее сравнения с данными официальной статистики заболеваемости, заполняемости больничных коек, избыточной смертности, только укрепляет меня и коллег в убеждении, что статистика поисковых запросов позволяет с хорошей точностью оценивать географию и динамику эпидемии – притом, что важно, независимо от полноты тестирования и интересов чиновников.

Лично я для постоянного и быстрого мониторинга выбрал ключевое слово «обоняние»; выбор этот был сделан исходя из баланса нескольких факторов: запросы про «обоняние» почти всегда связаны с коронавирусом (до весны 2020 г. его искали в основном в контексте учебной темы органов обоняния, но количество запросов даже на пиках было примерно в 25 раз меньше, чем сейчас); потеря обоняния – самый специфический из частых симптомов коронавируса, он сравнительно редко возникает при других заболеваниях; количество запросов об обонянии слабо зависит от активности обсуждения коронавируса в СМИ; запросов об обонянии много, что позволяет анализировать динамику даже в разрезе отдельных некрупных городов; наконец, использование однословного маркера, а не фраз из нескольких слов, просто технически удобнее с точки зрения сбора данных из wordstat.yandex.ru.

И в завершение – несколько технических деталей. Мой мониторинг основан только на статистике «Яндекса» и не учитывает в регулярном ежедневном режиме данные Google Trends – это связано с тем, что второй сервис показывает только относительные значения, которые несопоставимы или малосопоставимы за разные периоды и для разных регионов. Беглые примерные сравнения обнаруживают, что два сервиса показывают похожие, не противоречащие друг другу картины развития эпидемии.

Хотя сервис поисковой статистики «Яндекса» в этом смысле и удобнее для анализа, структура представления данных на wordstat.yandex.ru все равно накладывает существенные ограничения – данные доступны только помесячно или понедельно, данные за неделю выкладываются с лагом примерно в двое суток – вечером во вторник или утром среды на следующей неделе, через один запрос к сервису (неавтоматизируемый) можно получить данные только по одной территории (какой-либо стране, региону или городу или группе таких единиц без разбивки по ним).

Частично это обходится с помощью ежедневного копирования данных по географии запроса «обоняние» за 30 «последних» дней – анализ изменения таких 30-дневных сумм день ото дня позволяет прогнозировать результаты за текущую неделю уже в четверг или пятницу, а главное – позволяет оценивать количество запросов со словом «обоняние» в любом регионе или городе за любой день или за любой произвольный интервал из нескольких суток. Однако при этом приходится от точных данных, предоставляемых сервисом, переходить к основанным на достаточно сложном алгоритме оценкам – которые для отдельных городов могут давать существенные погрешности в случае, если динамика запросов внутри последних 30 дней резко нелинейная или если за это время «Яндекс» существенно изменил набор диапазонов IP-адресов, которые считаются относящимися к данному городу.

Мнение автора может не совпадать с позицией редакции VTimes.

Спасибо, что читаете эту статью!

Поддержите VTimes, чтобы мы могли продолжать работать для вас.

На этом сайте используются средства веб-аналитики, файлы cookie и другие аналогичные технологии. Также могут обрабатываться ваши персональные данные. Подробности в Политике конфиденциальности.

Для работы с сайтом подтвердите, что вы ознакомились и согласны с условиями Политики.