Ivan Veselov

a software developer, chess player, geek and traveller

Обзор книги "Superforecasting: The art and science of prediction".

posted on Apr 26, 2016

Среди плотно заставленных полок в разделе “Smart Thinking” как-то мне на глаза попалась книга “Superforecasting”. Интригующая тема, подумал я, много упоминаний в элитной прессе – нужно читать! Если кратко, то эта книга о том, насколько хорошо люди могут предсказывать результаты важных глобальных событий, как это измерить и чему можно научиться у тех, кто предсказывает лучше.

Superforecasting cover

Каждый из нас регулярно занимается прогнозированием: мы размышляем над тем, на сколько нам повысят зарплату, упадёт ли доллар, и кто выиграет завтра в футбол. Вопросы могут быть очень разными: от обыденных вроде “пойдёт ли завтра дождь?” до жизненно важных: “стоит ли делать эту операцию?”. Иногда мы ошибаемся, иногда – нет. Неуспешные прогнозы быстро вылетают из головы, мало кто ведёт им счёт и пытается сделать выводы. Ладно, мы-то простые смертные.

Но когда в мире происходит что-то непонятное и неожиданное, мы обращаемся к экспертам. Они легко могут рассказать свои соображения на тему того, когда будет следующий кризис, кто победит в выборах США, когда искусственный интеллект наконец завоюет планету и тому подобные вопросы. Мы не всегда согласны с их мнением, но эксперты говорят уверенно и убедительно, мы склонны им верить, на то ведь они и эксперты! Однако даже знатоки иногда ошибаются. Часто это сходит с рук: в конце концов, вопрос был сложным, всякое могло произойти. Но измеряет ли кто-то точность предсказаний конкретных экспертов? Как это ни странно, ответ – “почти нет”. Даже в случае действительно важных решений и профессиональных аналитиков. Неудивительно, ведь в общем случае мнения специалистов слишком сложно трактовать однозначно: они защищают себя и избегают конкретных деталей и чётких фраз. Часто можно услышать “существует риск” (какой?), “вероятно, что” (насколько?) и прочие размытые фразы. Профессионалы не хотят лезть на рожон и в публичных высказываниях оставляют пути к отступлению. Если предсказанное не происходит, выражения можно обернуть в свою пользу: “риск на самом деле был небольшим”, “вероятно – не значит гарантированно” и т.д. Кроме того, люди часто не указывают временные рамки предсказаний: “ждите, всё ещё будет, как я сказал”.

В итоге, мы пребываем в ситуации, аналогичной состоянию медицины до начала двадцатого века. Врачи тогда лечили, базируясь на своём опыте и уверенности в своих методах. Никто и не думал количественно проверять какие лекарства работают, а какие нет; выздоровел ли больной именно от лекарства или сам по себе. Кровопускание, например, было популярно со времён Галена, лечившего римских императоров, до конца девятнадцатого века. Многие учёные мужи даже не сомневались, что оно работает. Однако качественный прорыв в медицине произошёл именно с изобретением клинических исследований, когда люди догадались использовать статистику: разбить случайным образом людей на две группы, одним дать лекарство, другим – нет и посмотреть, что будет. Одним – кровопускание, другим – пиявок, третьим – ничего и измерить результаты через две недели. Вот это подход! Но этот, кажущийся теперь весьма разумным, метод не сразу завоевал доверие. Мало кто из врачей хотел ставить на кон свою карьеру, дав измерить результаты своего лечения. Так и сейчас: эксперты с опаской и недоверием смотрят на попытки превратить свои глубокие и тонкие анализы в бездушные проценты вероятностей.

Филип Тетлок (Philip Tetlock), автор книги, считает, что это нужно наконец изменить: точность предсказаний следует измерять. Таким образом можно понять, кто предсказывает лучше и какие факторы на это влияют. Измерение даёт необходимый фидбек: люди могут понимать, что не работает и корректировать свои методы и рассуждения. В результате это может привести к революции, сходной с революцией в медицине.

У Филипа слова не расходятся с делом: с 1984-го по 2003-й, на протяжении почти двадцати лет, он проводил эксперименты и собрал около 28 тысяч предсказаний от 284 экспертов, которые согласились поучаствовать на условиях анонимности. Результаты были неутешительными: в среднем эксперты предсказывали чуть лучше случайного угадывания. Причём любопытно, что чем известнее персона, тем хуже у неё прогнозы. Эти результаты получили широкую огласку после того, как Тетлок опубликовал свою книгу “Expert Political Judgement”. Об экспертах стали говорить, что у них получается примерно так же, как у “dart-throwing chimpanzee”, что стало мемом в определённых кругах.

Так что же, всё, предсказать ничего нельзя и стоит покориться судьбе и бросать монетку? Зачем тогда эта новая книга “Superforecasting”? Оказалось, что не всё потеряно и у эксперимента Тетлока были и другие, менее замеченные результаты: во-первых, точность предсказаний значительно улучшается для более близких событий (до двух лет от даты предсказания), во-вторых, существовала некоторая группа людей, которые демонстрировала результаты заметно лучше средних, что давало пищу для размышлений.

Через некоторое время появилась возможность провести новый эксперимент. Разведка США допускает очень серьёзную ошибку, неверно предсказав наличие оружия массового поражения в Ираке. Результатом этого провтыка было вторжение в Ирак, дорогая и непопулярная кампания, которую Джордж Буш впоследствии назвал главной ошибкой своего президентства. Последовали разбирательства: кто виноват и что делать? Оказалось, что разведка не просто подыграла политикам, которые хотели начать войну, а действительно была сильно уверена в наличии ОМП в Ираке, что поставило под сомнение надёжность её методов. Как следствие, постановили организовать новый элитный отдел IARPA (аналогичная знаменитой DARPA, ответственной за создание Интернета) – Intelligence Advanced Research Projects Activity и заняться, наконец, предсказаниями серьёзно.

Для этого решили провести турнир по прогнозированию, в котором участвовало несколько исследовательских групп из известных университетов США. Каждый день, на сайте появлялся новый вопрос, вроде такого (примеры реальных вопросов): “Will Serbia be officially granted EU candidacy by 31 December 2011?”, “Will former Ukrainian Prime Minister Yulia Tymoshenko be found guilty on any charges in a Ukrainian court before 1 November 2011?”, “Will Japan officially become a member of the Trans-Pacific Partnership before 1 March 2012?” и т.д. В ответ ожидается число – вероятность события. Ответы можно (и нужно!) обновлять по мере поступления новой информации. Задача исследователей: найти много экспертов, понять как научить их предсказывать лучше, затем агрегировать полученные прогнозы и выдавать “на гора” ответы по каждому вопросу. Когда ответы на вопросы становятся известными, результаты каждого университета сравниваются с контрольной группой. Для сравнения использовались так называемые оценки Брайера (Brier score).

После первого года турнира одна группа исследователей заметно вырвалась вперёд, опережая контрольную группу и соперников на 30 процентов. Неплохо справляются, подумала разведка. Но может совпадение? На второй год эта же группа опередила контрольную группу на 60 процентов, а ближайших соперников – на 40 процентов. Причём согласно редактору Washington Post, они смогли даже побить аналитиков из разведки, которые имели доступ к засекреченной информации! Эксперимент решили приостановить – победители были известны. Surprise, surprise, ими оказалась группа Филипа Тетлока – “The Good Judgement Project”. Около 2800 добровольцев, очень разных людей: программисты на пенсии, танцоры, агрономы, студенты. Они участвовали в проекте в основном из интереса, получая в качестве награды подарочный сертификат на Амазоне стоимостью в $250. После первого года турнира, исследователи выбрали 2% участников с наилучшими результатами (так называемых “суперфорекастеров”), сгруппировали их в команды, и именно эти люди дали наиболее точный результат во втором году, который позволил выиграть турнир.

Целью эксперимента было не просто получение точных предсказаний и победа в турнире, а понимание того, что влияет на качество прогнозов. Собственно, об этом и повествует книга “Superforecasting”. Чем суперфорекастеры отличаются от большинства обычных экспертов, что даёт им возможность предсказывать лучше? Представьте себе суперфорекастера. Наверняка это умный и эрудированный человек, хорошо разбирается в экономике и политике, регулярно следит за новостями, дружит с математикой и программированием (чтобы строить хитрые модели и считать их на компьютере). Далее, автор, глава за главой, анализирует каждый из этих факторов и показывает насколько важным он оказался на практике.

Например, что насчёт IQ? Тесты показывают, что суперфорекастеры действительно умнее большинства людей, но не на уровне гениальности: IQ среднего суперфорекастера выше, чем у 80% людей. Важнее чем чистый интеллект оказалась способность смотреть на факты с разных точек зрения.

Философ Исайя Берлин когда-то написал эссе, где он выделял два типа людей: ежи и лисы. “Лисы знают много вещей, а ежи знают одну большую вещь”. Ежи любят выстраивать всё в одну систему, которая позволяет оценивать новые факты с точки зрения этой системы. Их взгляд сфокусирован: они видят мир через линзу основной идеи. Они когда-то решили придерживаться определённого мнения в политике, культуре, экономике и т.д. Они смогли разобраться в вопросе, найти аргументы в поддержку своих убеждений и уверены в своей правоте. Если новые знания противоречат системе, то их можно либо игнорировать, как очевидную неправду, либо как-то дискредитировать. Лисы же более осторожны, прагматичны, пытаются не иметь фиксированных взглядов и в спорах пытаются взглянуть на аргументы с обоих сторон. У них как правило нет резко выраженных мнений, они более склонны к сомнению и самокритике. Их любимые слова: “с одной стороны, с другой стороны”, в то время как у ежей: “более того”, “кроме этого, ещё”.

Угадайте, кто более популярен в качестве экспертов на телевидении? Конечно же ежи. Зрителям нравятся простые, доходчивые объяснения без излишних сомнений. Тогда не нужно думать самим, эксперт ведь так понятно объяснил! К сожалению, реальность часто выбивается из простых схем, и, как показывает практика, гораздо лучше справляются с предсказаниями именно лисы. Ежи часто бывают затуманены своей системой и закрыты к фактам, которые по хорошему должны повлиять на их мнение. “When the facts change, I change my mind. What do you do, sir?”, как говорится в известной цитате.

Это наблюдение насчёт лис и ежей мне показалось очень занимательным. Теперь, когда я читаю всякие интервью и статьи, на меня отовсюду смотрят лисы и ежи! “Если в руках есть молоток, всё кажется гвоздём”. Недавно Хиллари Клинтон во время избирательной компании заявила, что полезно посмотреть на мир глазами людей, которые поддерживают Дональда Трампа и даже попытаться их понять. “The Economist” одобрил. “Лиса!”, подумал я.

В общем, идея здесь в том, что не так важен багаж знаний в определённых областях, как умение посмотреть на вопрос с разных точек зрения и умело скомпоновать их. Нельзя быть одновременно экспертом в израильско-палестинском конфликте, криптовалютах, политике Руанды и экономике США, но тем не менее можно агрегировать имеющиеся мнения по каждой из этих тем, взвесить “за” и “против” и выдать неплохой прогноз.

Ещё в книге рассказывается о том, что важно уметь чередовать так называемый “внешний” взгляд с “близоруким” взглядом. Что имеется в виду? Предположим, что вам описывают семью Ронцетти из Нью-Йорке: папа Фрэнк, которому 42, мама Джулия и сын Томми, пяти лет. Они живут в небольшом доме в Бруклине, отец работает бухгалтером, мать временами подрабатывает официанткой, а ещё с ними живёт бабушка Камилла, мать Фрэнка. Вопрос: какова вероятность того, что у них есть собака?

Можно начать внимательно изучать детали: ага, семья, похоже, итальянская, наверняка Фрэнк сам вырос в многодетной семье, но теперь не может себе позволить больше одного ребёнка. Наверняка, он захочет немного пополнить свою семью домашним любимцем, так что вероятность большая, скажем процентов 75. Такие истории звучат убедительно, но это не то, как поступят суперфорекастеры. Они пойдут и банально погуглят статистику: у скольких семей в Нью-Йорке есть собака. Это сразу даст неплохую оценку, которую уже можно настраивать в зависимости от более тонких деталей. Почему важно сначала применить внешний взгляд, а потом тюнинговать, а не наоборот? Потому что существует такой забавный эффект, как “anchoring” – первое упомянутое число (даже если оно совершенно случайно и люди об этом знают) оказывает на нас значительное влияние, потому важно, чтобы оно было как можно более точным и непредвзятым. Anchoring подтверждается многими любопытными психологическими экспериментами.

Вообще, в книге рассматривается много экспериментов, многие из которых наверняка будут знакомыми прочитавшим бестселлер нобелевского лауреата Даниэля Канемана “Thinking fast and slow”. Эти эксперименты демонстрируют разные эвристики, которые наш мозг применяет для того, чтобы быстро получить ответ. Иногда эти эвристики приводят к тому, что мы легко приходим к простому, но неправильному ответу.

Ещё в одной главе рассматривается влияние командной игры на качество анализа и предсказаний. С одной стороны хорошо, в команде люди могут делиться информацией или конструктивно критиковать друг друга, с другой стороны – согласие в команде может привести к иллюзии, что “миллион леммингов не может ошибаться” и излишней самоуверенности. Что окажется важнее? Интересна также “проблема лидера” – можно ли быть одновременно рациональным форекастером, чётко осознающим границы своего видения, и при этом уверенным в себе лидером, ведущим за собой компанию или армию?

Отдельно хочется отметить большое количество ссылок на оригиналы: ни одна цитата не остаётся без явного указания источника, даже если источником является личная переписка автора. После такого подхода становится сложно читать обычные научно-популярные книги, в которых вместо источников в конце просто библиография.

Если по прочтению книги, вам захочется попробовать свои силы в прогнозировании – к вашим услугам авторы подготовили открытый турнир форекастеров GJOpen.com, где можно развлекаться и продвигать науку одновременно. Мне кажется, что это должно сильно вдохновить гиков, которые любят всё измерять, в том числе и себя. А здесь можно делать всё сразу: смотреть на вероятности событий, используя это для ориентирования на геополитической местности, самому влиять на предсказания, видеть насколько твои предсказания хороши и в идеале даже улучшать свои методы.

В заключение хочу сказать следующее. Эта книга не сделает из вас суперфорекастера сама по себе, она лишь даёт понять, что для этого важно, а что нет. Основная работа, как всегда, за читателем. Но однозначно книга даёт пищу для любопытных размышлений, ставит под сомнение вещи, которые считаются очевидными, подчёркивает важность экспериментов. В целом, она может достаточно сильно поменять взгляд на вещи, что для меня является признаком действительно хорошей книги.

“Beliefs are hypotheses to be tested, not treasures to be protected.” – Philip Tetlock