Исследования, в которых после завершения изменились основные результаты

Предыдущая 9 10 11 12 13 14 151617 18 19 20 21 22 23 24 Следующая

Если во время проведения исследования измеряется несколько точек клинической эффективности, но автор расценивает улучшение в любой из них как положительный результат, то такие результаты недействительны. Наши тесты, необходимые, чтобы решить, является ли результат статистически значимым, предполагают, что исследователь измеряет только один параметр, одну точку клинической эффективности. Измеряя десяток параметров (точек клинической эффективности), ученый создает ситуацию, когда у него появляются десятки шансов получить положительный результат вместо одного, но при этом не декларирует это открыто. Получается, что в таком случае исследование является нечестным по своей структуре, и во время его проведения можно будет с большей вероятностью получить положительные результаты, чем они будут проявляться в действительности.

Представьте, что мы играем в кости и договариваемся, пусть даже в одностороннем порядке, о простой вещи: если я выбрасываю две шестерки, вы даете мне 10 фунтов. Я бросаю кубик, и выпадает две тройки, но я все равно требую выплатить мне 10 фунтов, заявляя, что именно об этом мы договорились изначально и что вы должны были мне дать 10 фунтов за выброс двух троек. Вы платите, и все довольны. По такому сценарию ведется сегодня игра в сфере клинических научных исследований. Такая практика, когда люди производят так сказать замену одних изначально установленных точек клинической эффективности на другие, является обычной и общепринятой. А нам, пациентам, приходится мириться с ней.

До проведения клинического исследования нужно написать его план. Это документ, в котором описывается то, что вы собираетесь сделать: сколько участников вы собираетесь набрать, где и как вы будете это сделать, какой препарат будет назначен каждой группе и какие точки клинической эффективности вы будете измерять. В исследовании нужно будет измерять все параметры как возможные точки клинической эффективности: вероятно, будет даже несколько различных шкал оценок для измерения боли, или депрессии, или чего-либо другого, что заинтересует вас (качество жизни или мобильность, которую вы измеряете при помощи какой-нибудь анкеты, смерть по разным причинам, смерть по каждой из ряда представленных причин и прочие параметры).

Все это делается до начала исследования для того, чтобы избежать одной простой проблемы: если вы измеряете много параметров, некоторые из них будут более привлекательными и статистически значимыми просто благодаря возникновению естественных случайных вариаций в данных исследования. Помните, что вы имеете дело с живыми людьми, проживающими в материальном мире, и их болевой порог, глубина депрессии, степень мобильности, качество жизни и т. д. будут разными от человека к человеку по ряду причин, и многие из них не будут иметь ничего общего с вмешательством, последствия от которого вы проверяете в ходе вашего исследования.

Если вы честный исследователь, вы будете использовать статистические тесты специально для выявления истинных полезных свойств лекарства, которое вы проверяете. Вы будете пытаться отличить эти реальные изменения от обычных случайных изменений в фоновых данных, которые вы увидите в результатах ваших пациентов при проведении различных тестов. Больше чем что бы то ни было вы захотите избежать получения ложноположительных результатов.

Традиционная пропорция статистической значимости совпадений 1 к 20. Грубо говоря, объясняя эту формулу простыми словами, если вы проведете одно и то же исследование много раз, используя те же методы, с теми же участниками из той же группы населения, то вы получите такие же положительные результаты, которые наблюдались в одном из 20 исследований, просто по случайности, даже если лекарство не оказывало совсем никакого полезного эффекта. Если вы будете зачерпывать двумя стаканчиками из одной бадьи с красными и белыми шариками, то и дело, чисто случайно, в одном стаканчике будет оказываться необычно мало красных шариков, а в другом – необычно много красных шариков. То же самое происходит и при измерении параметров здоровья пациентов: будут встречаться некоторые случайные вариации, и иногда все будет выглядеть так, как будто одно лекарство лучше другого, с точки зрения улучшения параметров организма, но на самом деле такое улучшение будет случайным. Статистические тесты разработаны для того, чтобы не дать этим самым случайным колебаниям параметров организма сбить нас с толку.

Поэтому сейчас давайте представим, что вы проводите исследование, при котором измеряете 10 разных независимых точек клинической эффективности. Если мы установим пропорцию статистической значимости как 1 к 20, тогда даже если ваше лекарство вообще не будет оказывать никакого полезного эффекта, в одном исследовании у вас все равно будет вероятность в пределах 40 % найти положительное действие лекарства по крайней мере на одну из точек клинической эффективности просто из-за случайных колебаний в ваших данных. Если вы предварительно не укажете, какие из параметров являются конечными точками эффективности, установленными изначально для исследования, то вы схитрите, а получив положительный результат по любой из 10 выбранных точек, вы объявите о позитивном результате вашего исследования.

Можете ли вы сразу открыто заявить о том, что делаете: «Эй, мы измерили 10 точек эффективности, и по одной из них наблюдается улучшение показателей, поэтому наше лекарство классное»? Да, наверное, так можно сделать, и в определенных обстоятельствах это сработает, потому что многие чтецы научных статей с удовольствием проглотят такую наживку и переключат внимание с одних точек клинической эффективности на другие. Однако большинство заметит вашу уловку. Им захочется увидеть отчет с результатами по изначально намеченным точкам клинической эффективности. Они-то знают, что, если измерять 10 параметров сразу, один из них уж точно будет выглядеть привлекательным просто по счастливой случайности.

Проблема состоит в том, что, даже если люди и знают, что вы должны устанавливать конечную точку клинической эффективности перед началом исследования, эти точки часто оказываются разными в плане исследования и в научной статье: они меняются после того, как проводящие исследование люди просмотрели результаты. Даже вы, случайный читатель, нашедший эту книгу на скамейке в метро, а не профессор статистики или врач, и то поймете, что это настоящее безумие. Если конечная точка клинической эффективности, упоминаемая в законченной статье, отличается от конечной точки клинической эффективности, намеченной до начала исследований, тогда создается совершенно абсурдная ситуация: весь смысл конечной точки клинической эффективности в том, что она назначается до того, как начинаются исследования. Однако люди меняют конечные точки клинической эффективности, и это не просто случайная проблема. На самом деле, это почти что обычное дело, нормальная практика среди исследователей.

В 2009 году группа исследователей собрала все работы, которые только могла найти, посвященные различным случаям использования лекарства под названием габапентин.24 Затем они посмотрели на данные тех исследований, по которым им удалось получить внутренние документы, где была указана первоначальная конечная точка клинической эффективности для каждого. Конечно, материалы половины всех исследований вообще не публиковались (возмущений по этому поводу не должно быть меньше с каждым новым случаем). Были опубликованы результаты по 12 исследованиям, и ученые проверили, действительно ли конечная точка клинической эффективности, упомянутая в научной статье, совпадала с той, которая декларировалась как таковая во внутренних документах до начала исследований.

Данные, которые были найдены, представляли собой настоящий хаос. Из 21 первичной конечной точки клинической эффективности, предварительно указанной в планах исследования, о которых следовало сообщить, было упомянуто только 11. О шести точках клинической эффективности, установленных первоначально, не упоминается нигде ни в какой форме, а еще четыре хоть и были включены в отчет, но упоминались в таком контексте, как будто они были вторичными точками клинической эффективности. Можно посмотреть на все с другого конца телескопа: в 12 опубликованных статьях об исследованиях сообщалось о 28 конечных точках клинической эффективности, но половина из них были новыми и никогда в действительности не были заявлены изначально как такие точки. Это было просто смешно. Никаких отговорок ни для исследователей, изменивших одни точки на другие, ни для работников научных журналов, которые не потрудились проверить информацию, быть не может. Однако были проверены исследования и отчеты о них только по одному лекарству. Можно ли назвать все произошедшее странной случайностью?

Нет. В 2004 году несколько исследователей опубликовали работу, в которой были изучены все области медицины. Были отобраны все исследования, одобренные комитетами по этике двух городов в течение двух лет, после чего опубликованные работы были проанализировали.25 Почти половина всех конечных точек клинической эффективности в отчетах была указана неправильно. Почти в двух третях опубликованных работ была изменена по крайней мере одна конечная точка клинической эффективности, и это было сделано совсем не случайно: как и можно было догадаться, о положительных результатах сообщали должным образом в два раза чаще, а искажений в них не наблюдалось. Другие исследования, авторы которых изучали изменение конечных точек клинической эффективности в отчетах, имели сходные результаты.

Чтобы прояснить ситуацию до конца, следует сказать о следующем. Если вы меняете изначально установленную конечную точку клинической эффективности без предоставления вразумительного объяснения, зачем вы это сделали, тогда вы просто нарушаете правила проведения исследований. Ваше исследование пристрастно, хаотично и представляет собой настоящую профанацию. Для всех исследований нужно установить одно универсальное правило: в отчете всех исследований изначально указанная конечная точка клинической эффективности должна оставаться неизменной и в конце исследования. За этим должны следить редакторы журналов, и так нужно было сделать еще на заре проведения клинических исследований. Сложного здесь ничего нет, однако все мы почему-то не соблюдаем такое простое, очевидное и самое главное требование. И так дела обстоят во всем мире.

Последним случаем, показывающим, к чему приводит на практике такое отношение к конечным точкам клинической эффективности, является история с пароксетином и исследованием, проведенным с участием детей. Хочу вам напомнить, что, когда над какой-нибудь компанией нависает потенциальная угроза проведения некоего судебного разбирательства, часто в руки исследователей попадают документы, которые в другой ситуации никогда не были бы показаны им. В результате у них появляется возможность выявить проблемы и несоответствия, что в обычной ситуации было бы невозможно. Такие документы в большинстве своем должны быть достоянием общественности, но их почему-то скрывают от глаз широкой публики. В этом отношении пароксетину повезло ничуть не больше, чем остальным лекарствам (как мы увидели из описанного выше исследования, перемена конечных точек клинической эффективности происходит везде и всюду). Я лишь просто описываю случай, по которому у нас есть больше всего информации.

В 2008 году группа исследователей решила изучить документы, доступ к которым был открыт после судебного процесса по одному из случаев рассмотрения пароксетина, и проверить, в какой форме были представлены опубликованные результаты клинического исследования («исследование 239»).26 В конце 2007 года систематические обзоры, посвященные этой работе, отзывались о ней так, будто это исследование принесло положительные результаты. Во всяком случае, во всех публикациях они назывались успешными. Но в действительности это было неправдой: в оригинальных протоколах были указаны две конечные точки клинической эффективности и шесть вторичных точек. В конце исследования разницы между пароксетином и плацебо при сравнении результатов этих точек отмечено не было. Помимо этого были измерены дополнительно еще 19 точек клинической эффективности, таким образом, их общее количество составило 27. Из них положительные результаты наблюдались только по четырем. Они и вошли в отчет, где информация преподносилась так, как будто бы они и были основными точками клинической эффективности.

Хотелось бы думать, что искажение данных в отчетности «исследования 239» всего лишь частный случай, исключение из правил и досадное недоразумение, которое не имеет ничего общего с остальными исследованиями. Грустно признавать, но исследователи очень часто поступают подобным образом, как в случае, описанном выше.

Эта практика так широко распространена, что работы здесь – непочатый край, если, конечно, найдутся достаточно смелые ученые для того, чтобы заняться реализацией такого грандиозного проекта. Кто-то ведь должен найти все исследования с измененными основными конечными точками клинической эффективности. Кто-то же должен потребовать предоставить доступ к изначальным, необработанным данным и в далекой перспективе провести их правильный анализ, специально для горе-исследователей, подделывающих результаты. Если вы решитесь на это и опубликуете ваши работы, они немедленно превратятся в справочник по этим исследованиям, потому что в них будут грамотно указаны предварительно установленные конечные точки клинической эффективности. Публикации оригинальных исследователей станут всего лишь сборниками ненужных и не имеющих отношения к науке цифр.

Я уверен, что они будут только рады, если вы окажете им посильную помощь.

Хитрый анализ подгрупп

Если лекарство не проявило себя с положительной стороны на протяжении всего исследования, можно сгруппировать данные по какому-либо признаку различными способами, чтобы посмотреть, оказалось ли оно эффективным в какой-либо подгруппе. Возможно, препарат идеально работает при приеме пациентами мужского пола китайского происхождения, которые принадлежат к возрастной группе между 56 и 71 годами. Это так же глупо, как играть в «орел – решка» по правилу «два из трех и три из пяти». Однако такие способы применяются исследователями повсюду.

Снова и снова нам приходится возвращаться к одному и тому же принципу этой главы: если вы увеличиваете свои шансы нахождения положительного результата, но используете статистические тесты, которые предполагают получение лишь одного параметра, тогда вы сильно повышаете вероятность нахождения нужных вам данных. Ведь если бросать монетку достаточно долго, то можно в конечном счете выбросить орел или решку четыре раза подряд.

Новый способ увеличить вероятность получения нужного результата – провести анализ подгрупп данных. Уловка заключается в следующем: вы закончили ваше исследование и получили отрицательный результат. Разницы между двумя группами не было никакой: пациенты, принимавшие плацебо, чувствовали себя точно так же, как и те, кто принимал ваш препарат. Ваше лекарство не работает. Это плохая новость. Но затем вы копнули поглубже, провели ряд анализов и обнаружили, что лекарство отлично сработало на группе некурящих мужчин испанского происхождения возрастом от 55 до 70 лет. Если вам непонятно, почему нельзя использовать такой способ при анализе, нужно вернуться к уже прочитанному и подумать о случайной вариации данных, имеющихся в любом исследовании. Предположим, ваше лекарство должно предотвращать летальные исходы у всех участников на протяжении всего исследования. Мы знаем, что смерть может наступить по ряду причин и часто довольно неожиданно, и ее, к сожалению, можно предсказать лишь частично на основе имеющейся в наличии информации о здоровье человека. Вы надеетесь, что после проведения исследования ваше лекарство будет способно предотвратить некоторые из этих случайных, непредвиденных смертей (хотя, конечно, не все, потому что ни одно лекарство не может уберечь от смерти по всем причинам!) и что вы сможете заметить это изменение в частоте смертей, если в исследовании принимает участие достаточно большое количество людей.

Но если посмотреть на результаты после завершения исследования и составить группу из умерших пациентов или из тех, кто выжил, вы не сможете сделать вид, что и та и другая не были сформированы произвольно.

Если вы до сих пор не поняли, почему этот способ нечестный, представьте себе рождественский пудинг с монетами, распределенными в его толще в произвольном порядке. Если вы хотите узнать, сколько в нем всего монет, то отрезаете наугад любой кусочек (одну десятую пудинга), считаете монеты, умножаете на десять и получаете общее число монет. Это исследование, в котором вы выбрали образец, не зная точно, где и сколько монет находилось. Если бы вы просветили пудинг рентгеновскими лучами, то увидели бы, что в нем есть такие места, где монет больше просто из-за их случайного скопления. И при умении хорошо управляться ножом можно было бы вырезать нужный кусок пудинга с наибольшим количеством монет, чем было в первоначальном образце. Если вы помножите количество монет в этом куске на десять, то получится, будто бы в пудинге намного больше монет, чем на самом деле. Однако это типичное мошенничество. Монеты все равно распределены в пудинге по случайному принципу. Кусок с наибольшим количеством монет, который вы вырезали после просвечивания пудинга рентгеном, не является репрезентативным и не дает достоверной информации о том, что на самом деле находится внутри него.

И несмотря на это такой способ оптимистичного анализа кочует из одной бизнес-презентации в другую, из одной компании в другую, и так день ото дня, год от года. «Вы видите, что в целом не наблюдается положительной динамики, – может сказать некий исследователь. – Но интересно, что благодаря нашей рекламной компании объемы продаж дешевых ноутбуков в регионе Богнора значительно возросли». Если раньше нельзя было сказать, что центр продаж в Богноре как-то отличается от других магазинов компании и нет причины полагать, что и компьютеры там отличаются от остальных ваших продуктов, тогда это самый сомнительный и неверный аргумент, выбранный из всех.

В более общих терминах можно было бы сказать: если вы уже видели ваши результаты, вы не можете искать в них вашу гипотезу. Гипотеза должна появляться до того , как вы увидели результаты, которые ее проверяют. Так что анализ данных по подгруппам – довольно толковый метод, но при условии, если его проведение было предусмотрено до начала исследования (или при условии, что вы учли в вашем анализе количество выполненных подгрупповых анализов). Иначе это просто еще один способ увеличить ваши шансы на нахождение спорных, ложнопозитивных результатов. Однако такие увертки очень популярны у исследователей, и редко кто из них устоит перед соблазном прибегнуть к подгрупповому анализу, так как результаты получаются исключительно привлекательными.

Корни этой проблемы находятся так глубоко, что она стала предметом целого ряда нарочито издевательских работ, проведенных исследователями-методологами, стремящимися ткнуть носом слишком оптимистичных исследователей, которые не видят изъянов в том, что они делают, в их собственные ошибки. Тридцать лет назад, Ли и его коллеги опубликовали классическую поучительную работу на эту тему в журнале «Circulation».27 Они набрали 1 073 пациента с коронарной болезнью сердца и назначили им в произвольном порядке препарат 1 и препарат 2. Оба лекарства были фикцией, так как ученые не проводили настоящее исследование, а всего лишь делали вид. Однако исследователи собирали действительные данные по этим пациентам, чтобы посмотреть, что можно обнаружить в случайном, беспорядочном наборе параметров.

Они не были разочарованы. В целом, как и можно было ожидать, не было никакой разницы в динамике сердечно-сосудистых болезней у пациентов обеих групп, так как всем им давали одинаковые таблетки. Однако в выделенной подгруппе, состоящей из 397 пациентов (для них было характерно трехсосудистое поражение или ненормальное сокращение левого желудочка), показатель выживаемость среди тех, кого «лечили» препаратом 1, значительно отличался от того же показателя тех, кто принимал препарат 2, просто по случайному совпадению. Так что, оказывается, можно продемонстрировать эффективность препарата при помощи подгруппного анализа данных даже при ненастоящем лечении, так как и для первой, и для второй группы пациентов не делалось абсолютно ничего.

Можно найти ложные эффекты от лекарства в подгруппах в настоящих исследованиях, если сделать достаточно большое число хитрых анализов.28 Исследователи, занимавшиеся оценкой эффективности хирургической процедуры под названием эндартерэктомия, решили шутки ради проверить, до каких пределов можно дойти, разделяя пациентов по разным возможным подгруппам и анализируя результаты в пределах каждой из них. Сначала они обнаружили, что успешное проведение хирургического вмешательства зависело от того, в какой день недели родился пациент (см. таблицу ниже).29 Разумеется, если врач при принятии клинических решений основывается на этой информации, то его можно смело назвать дураком. Была заметна также прекрасная, почти линейная зависимость между месяцем рождения пациента и клиническим результатом: у пациентов, родившихся в мае и июне, наблюдался огромный положительный эффект, а затем, по мере смены месяцев, положительное воздействие все больше снижалось до марта, после чего операция становилась просто опасной. Если бы данные относились к такой биологически правдоподобной переменной, как возраст, этот результат в данной подгруппе было бы очень трудно игнорировать.

Наконец, при проведении исследования ISIS-2 сравнивался полезный эффект, оказываемый аспирином или плацебо на пациентов, которые предположительно недавно пережили сердечный приступ. Обнаружилось, что аспирин улучшал ряд показателей, однако исследователи смеха ради решили сделать подгруппный анализ. В ходе его выяснилось, что, хоть в целом аспирин и был эффективным, он не оказывал влияния на пациентов, родившихся под знаками Весов и Девы. Еще раз повторимся: если группировать данные различными способами, можно просто произвольно формировать какие угодно подгруппы с любыми, даже самыми нелепыми показателями.

Так значит ли это, что родившимся под знаками Весов и Девы пациентам не нужно давать лекарств? Вы конечно скажете «нет» и будете правы. Вы окажетесь гораздо мудрее всех тех медиков, кто прибегал к подгруппному анализу. Исследование CCGS обнаружило, что аспирин был эффективен при предотвращении инсультов и смертельных случаев у мужчин, но не у женщин,30 в результате женщин в течение почти 10 лет лишали необходимого лечения, пока дальнейшие исследования и обзоры не показали, что аспирин положительно действует и на их организм.

Эффект от каротидной эндартерэктомии у пациентов с ≤70 % симптоматическим стенозом при европейском исследовании операции 126 в зависимости от дня недели, в который родился пациент

Это один из множества подгруппных анализов. По их вине в медицинскую литературу попадают неверные данные и часто некорректно выявляются подгруппы людей, которым не становится лучше от лечения, считающегося эффективным. Так, например, мы думали, что тамоксифен, лекарство для блокирования гормонов, не подходил для лечения рака груди у женщин, если они были моложе 50 лет (мы были не правы). Мы думали, что тромболитики были неэффективными и даже вредными при лечении сердечных приступов у людей, которые уже имели его в анамнезе (мы ошибались). Мы думали, что лекарство под названием АКФ-ингибиторы прекращало понижать количество смертельных случаев у пациентов с сердечной недостаточностью, если они также принимали аспирин (мы заблуждались). Интересно и необычно то, что ни один из этих результатов не был получен в результате жадности до денег исследователей. Людьми двигали амбиции, возможно, стремление получить новые результаты. Сыграло свою роль и незнание рисков при проведении подгруппного анализа, и игнорирование фактора случайности.

Предыдущая 9 10 11 12 13 14 151617 18 19 20 21 22 23 24 Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: