Обновление убеждений в доказательствах новых данных

Введение

Теория вероятностей - это раздел математики, изучающий неопределенность. Некоторые события с соответствующей вероятностью - это прогноз дождя, злокачественная опухоль или выигрышная комбинация в игре в покер.

Однозначного определения концепции вероятности не существует, что дает начало различным школам, которые понимают это понятие в соответствии с объектом, к которому оно относится. Вероятность можно понимать как

  • Долгосрочные частоты (школа Frequentist).
  • Физические наклонности (школа Склонность).
  • Степени веры (байесовская школа).
  • Степени логической поддержки (Логическая школа).

Все эти определения дополняют друг друга и совместимы с одной общей концепцией. Обратите внимание, что во всех случаях должны выполняться аксиомы Колмогорова:

  1. Вероятность любого события больше или равна 0.
  2. Вероятность того, что произойдет хотя бы одно из возможных событий случайного процесса, равна 1.
  3. Для набора неперекрывающихся событий вероятность того, что произойдет хотя бы одно событие, равна сумме вероятностей отдельных событий в наборе.

В этой статье мы исследуем байесовскую концепцию вероятности в области здоровья и ее сравнение с классическим определением вероятности. Для более подробного объяснения остальных школ или самой концепции вероятности вы можете обратиться к следующему посту:



Классическое определение вероятности восходит к 17 веку и определяет пространство возможностей как набор взаимоисключающих исходов, предполагающих случайный характер события. Таким образом, вероятность наступления определенного события будет определяться как отношение количества благоприятных исходов к количеству возможных исходов.

Например, учитывая популяцию из 18 больных раком, 23 пациентов с пневмонией и 287 здоровых пациентов, вероятность того, что случайно выбранный человек будет болен, будет

Однако мы определяем другие вопросы, на которые нельзя ответить с помощью классической вероятности, например:

  • Учитывая, что последние три раза на пробежку у меня болело колено, какова вероятность, что при следующей пробежке будет больно?
  • Если я замечаю, что в последнее время не могу сосредоточиться на своей работе, какова вероятность того, что я страдаю от стресса?
  • У меня было два последовательных теста на COVID. Первый был отрицательным, а второй - положительным. Какова вероятность того, что я заражен?

Байесовская статистика рассматривает вероятность как меру степени уверенности в наступлении события или правдивости определенной гипотезы; он представляет собой знания и опыт. Эта концепция вероятности позволяет связывать вероятности с событиями, даже если они не повторяются.

Основное отличие от предыдущих школ состоит в том, что это позволяет нам обновлять априорную вероятность на основе новых данных, поскольку мы можем получить к ним доступ. Только значения 0 или 1 указывают на абсолютную достоверность, тогда как промежуточные значения представляют собой неопределенность.

Постановка задачи

Рассмотрим следующий клинический сценарий:

Примерно 1% женщин в возрасте от 40 лет, которые проходят плановое сканирование, страдают раком груди. У нас есть модель маммографического анализа, способная точно идентифицировать рак груди в 80% реальных случаев. Однако, поскольку модель не идеальна, у 9,6% женщин, не страдающих раком груди, модель также обнаруживает заболевание (ложноположительный результат).

В этом случае мы будем обозначать как гипотезу наличие (или отсутствие) рака груди, а как свидетельство результаты теста.

У 40-летней женщины обычный тест дал положительный результат. Какова вероятность того, что у нее действительно рак груди?

Различные исследования [4, 5, 6] показывают, что 85% врачей неправильно отвечают на этот вопрос, оценивая вероятность от 70% до 80%, что очень далеко от реальности. Эти результаты показывают, насколько парадоксальным является байесовское мышление.

Наиболее частая ошибка заключается в том, что в этой статистике не учитывается начальная вероятность для женщины сорока лет иметь рак груди (ранее) и частота ложных срабатываний, обнаруженных тестом. Следовательно, P (C | +) ≠ P (+ | C).

Теорема Байеса

Давайте начнем с рассмотрения вероятности того, что женщина больна раком груди И получит положительный результат маммографии. Обратите внимание: поскольку результат теста зависит от наличия (или отсутствия) заболевания, мы не можем рассматривать эти события как независимые. Другими словами:

Таким образом, используя условную вероятность, предыдущая вероятность может быть выражена двумя разными и эквивалентными способами:

где P (A | B) указывает вероятность события A ДАННОЕ событие B. Наконец, из этого последнего равенства мы можем получить выражение, которое связывает обе условные вероятности; знаменитая теорема Байеса.

Чтобы получить вероятность того, что маммография будет положительной, мы должны учитывать как истинно положительные, так и ложноположительные сценарии.

где вероятность не заболеть раком P (¬C) = 1 – P (C). Обратите внимание, что это выражение просто указывает долю больных раком с положительным тестом среди всех пациентов с положительным тестом.

У нас уже есть все необходимые инструменты для решения вопроса о том, какова вероятность рака груди при положительном результате теста (также известном как апостериорная вероятность).

Для более подробной геометрической демонстрации выполненных процедур см. Это видео и это другое видео.

Абсолютная уверенность

Правило Байеса больше бесполезно перед лицом абсолютной априорной уверенности. В этом случае апостериорные данные не зависят от новых данных.

Если мы уверены, что женщина не болеет раком, P (C) = 0,

Если мы уверены, что женщина страдает раком, P (C) = 1,

Это подчеркивает важность допуска неопределенности относительно априорной вероятности гипотезы, особенно в медицинских приложениях.

Практический пример

Одна из основных проблем байесовской статистики - знать априорную вероятность, также известную как распространенность в медицинском контексте. Часто используемая стратегия заключается в сравнении количества людей, у которых обнаружено это заболевание, с общим количеством изученных людей. Постановка задачи предоставляет эту информацию, указывая на то, что «примерно 1% женщин в возрасте от 40 до 40 лет, которые проходят плановое сканирование, страдают раком груди.», то есть P (C) = 0,01.

Априорные условные вероятности будут характеристикой модели и могут быть определены из матрицы неточностей. Постановка задачи предоставляет эту информацию, указывая на то, что «Модель способна точно идентифицировать рак груди в 80% реальных случаев. Однако, поскольку модель не идеальна, в 9,6% случаев женщин, не страдающих раком груди, модель также выявляет болезнь. ”, то есть P (+ | C) = 0,8 и P (+ | ¬ C) = 0,096.

Введя эти значения в ранее полученную формулу Байеса,

То есть, если для женщины в возрасте 40 лет наша модель анализа маммографии дает положительный результат, вероятность того, что у нее действительно рак груди, составляет 7,8%. Эта очевидно низкая вероятность объясняется влиянием низкой доли женщин с раком груди в популяции и количеством ложноположительных результатов.

Теперь предположим, что женщина прошла вторую маммографию из совершенно другой лаборатории (что позволяет предположить независимость с помощью первого теста), которая снова дает положительный результат. Так какова теперь вероятность того, что у нее рак груди?

Чтобы получить ответ, мы можем снова использовать формулу Байеса, где теперь результат первого теста обновляет наши предыдущие знания о вероятности того, что женщина болеет раком. То есть P (C) = 0,078. Следовательно,

Мы обнаружили, что даже с двумя положительными тестами, полученными в независимых лабораториях, вероятность рака груди у женщины составляет всего 41,3%. Мы можем повторять эту операцию итеративно, получая, что с тремя положительными тестами вероятность рака будет 85,4%, а с четырьмя положительными тестами - 98%.

Чтобы получить апостериорную вероятность подтверждения гипотезы в 99%, требуется около пяти положительных свидетельств.

Выводы

Эти результаты подчеркивают трудность человека делать статистические предположения, основанные на инстинкте, и то, как байесовскую статистику следует понимать как динамическую концепцию вероятности, способную включать новые знания в уравнение. Тем не менее, существуют открытые дебаты о байесовской природе человеческого разума.



Одним из основных недостатков байесовской статистики [Y] является ее сильная зависимость от априорных вероятностей и отсутствие стандартизированной методологии для их выбора. С практической точки зрения иногда бывает трудно убедить экспертов в предметной области, которые не согласны с обоснованностью выбранного априорного решения.

Способность модели правильно определять наличие болезни (чувствительность) или ее отсутствие (специфичность) напрямую связана с условными вероятностями, присутствующими в формуле Байеса. .

Все эти показатели можно определить и использовать для расширенной оценки, выходящей за рамки точности моделей медицинской классификации.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: все медицинские данные, использованные в этой статье, были выбраны в педагогических целях и ни в коем случае не должны рассматриваться как действительные для любого реального медицинского применения.

использованная литература

[1] Вероятностный мир », блог The Cthaeth.

[2] « Справочник по байесовской статистике для студентов», книга Бена Ламберта.

[3] Байесовская ловушка », видео Veritasium.

[4] Кэссселлс В., Шенбергер А., Грабойс ТБ. Интерпретация врачами результатов клинико-лабораторных исследований. N Engl J Med. 1978; 299 (18): 999–1001.

[5] Эдди, Дэвид М. (1982). Вероятностные рассуждения в клинической медицине: проблемы и возможности. Суждение в условиях неопределенности: эвристика и предубеждения (стр. 249–267). Нью-Йорк: Издательство Кембриджского университета.

[6] Гигеренцер, Г., & Хоффраге, У. (1995). Как улучшить байесовские рассуждения без инструкции: частотные форматы. Психологический обзор, 102 (4), 684–704.

[7] Введение в процедуру байесовского анализа, Документация SaS.

[8] Является ли мозг байесовским?, Джон Хорган (2016).

[9] Теорема Байеса, видео 3blue1brown.

[10] Быстрое доказательство теоремы Байеса », видео от 3blue1brown.