Тема про то, как врать с помощью статистики далеко не нова и, признаться, довольно избита. Например, есть хорошая статья на Хабре, где подробно разбираются основные случаи неверного толкования статистических данных. Однако, СМИ всё равно не успокаиваются и зачастую выдают результаты статистических исследований за причинно-следственные, обнажая шокирующую правду-матку о том, что, например, голубые глаза являются фактором риска алкоголизма, да. Мало того, другие важные данные исследования намеренно опускаются. Ну в самом деле, кому интересны какие-то там скучные проценты и стрёмные слова вроде «корреляции» и «стратификации»?

ScienceNewsCycle

Очевидное — коррелированное

Статистические исследования, коих в последние полвека стало ну уж очень много (настолько много, что некоторые научные журналы уже отказываются публиковать «статистически значимые» работы) не раскрывают причинно-следственную связь между явлениями, а лишь могут указать на её потенциальное наличие. Чтобы с уверенностью сказать, что А влияет на Б надо провести точное исследование, раскрывающее то, как именно происходит это взаимовлияние. Всё остальное — суета и томление духа.

Более того. В мире существует куча явлений, которые, очевидно, вообще не связаны друг с другом, но при этом, с точки зрения статистики, имеют очень тесное взаимоотношение (с очень высокой корреляцией). Вот, например, график, показывающий траты США на науку и космос по отношению к количеству суицидов путём повешения (в США). Связь очевидна! Корреляция больше 99%!

Statistics_Suicide

На сайте Тайлера Вигена представлены ещё тонны таких абсурдных статистических взаимосвязей. При этом всём, конечно, нельзя бросаться в другую крайность и утверждать, что статистика бесполезна. Это, очевидно, не так, но к результатам статистических исследований надо относится очень осторожно.

Голубоглазые алкоголики

Наглядный пример профанации, который зажёг во мне огонь желания наконец выразить своё личное фи по этому вопросу, прислал мне мой друг. Эта, кхм, новость — практически хрестоматийный пример «журналистики» прямо по картинке выше — о том, что группа генетиков из Вермонта пришла к выводу, что голубые глаза являются фактором риска алкоголизма. Чтобы продемонстрировать чудовищную разницу между изложением информации и, собственно, исследованием, я просто процитирую переведённую мной аннотацию к оригинальной статье, ссылка на которую представлена прямо в новости. Просто оцените разницу между тем, что написал безымянный копирайтер (по ссылке выше) и тем, что было сказано изначально (осторожно, много странных буков).

В архивных примерах представителей европейской родословной было обнаружено, что светлоглазые индивиды потребляют больше алкоголя, чем тёмноглазые. Не было опубликовано ни одного популяционного исследования по исследованию прямой связи между алкогольной зависимостью (АЗ) и цветом глаз. Нами была выдвинута гипотеза, что светлоглазые индивиды имеют большую предрасположенность к АЗ, чем тёмноглазые. Была использована смешанная модель (mixture model) для отбора гомогенных примеров из 1.263 европейских американцев при контроле за стратификацией популяции. После контроля качества, нами было проведено ассоциативное исследование с использованием логистической регрессии для адаптации к посторонним факторам (возраст, пол, генетическое родство). Нами была найдена потенциальная связь между АЗ и голубым цветом глаз (P = 0.0005 и отношение шансов = 1,83 (1,31-2,57), поддерживающая предположение, что светлый цвет глаз является фактором риска по отношению к тёмному.

Тут я прервусь, чтобы подчеркнуть полученную авторами работы корреляцию: ρ = 0,0005 (это целых 0,05%!). Идём дальше.

Сетевой анализ показал статистически значимое (P = 0.02) число взаимодействий между генами голубых глаз и генами, ассоциированными с АЗ. Мы нашли доказательство неравновесного сцепления генов между АЗ-ассоциированными генным кластером ГАМК рецепторов, GABRB3/GABRG3 и генами голубых глаз, OCA2/HERC2, а так же между АЗ-ассоциированным GRM5 и пигментационным геном TYR. Наши популяционно-фенотипный, сетевой, и генносцепный анализы поддерживают предположение о связи между голубым цветом глаз и алкогольной зависимостью. Несмотря на то, что мы проводили контроль за стратификацией, мы не можем исключить некоторую подлежащую стратификацию, воздействующую на результат этого исследования. Несмотря на то, что необходимо подтверждение результатов исследования, наши находки предполагают, что информация о цвете глаз может быть полезна при исследовании алкогольной зависимости. Дальнейшая характеризация этой ассоциации может открыть новые этиологические факторы АЗ.

Отметим ещё раз полученную корреляцию (уже между взаимодействиями генов): ρ = 0,02 (2%). Что же, учёные абсолютно корректны в своих выражениях — они обнаружили некоторую, пусть и слабую, но «статистически значимую» связь между цветом глаз и алкогольной зависимостью и сделали вывод о том, что эта зависимость может быть полезна и, в дальнейших исследованиях, должна быть конкретно и точно характеризирована. То есть, своим исследованием они наметили почву для возможных дальнейших исследований и показали, что подобные исследования могут быть оправданы, хотя, признаться, при корреляции в 0,05% особого смысла в этом я не вижу. Но нигде в оригинальной статье не говорится о том, что связь между этими вещами достоверно установлена.

Каково, а? То есть, сначала учёные представили какие-то смутные, но всё же корректные результаты, после чего СМИ просто взяли и поставили эти результаты с ног на голову в духе «скандалов/интриг/расследований». Так что не верьте статистике, особенно когда о статистике говорят СМИ.

comments powered by HyperComments