Если вас кто-нибудь спросит, сколько медалей получит на Олимпиаде каждая из стран, то вы, прежде всего, начнете с выявления спортсменов-фаворитов, а уж потом перейдете к прогнозированию.
Но двое специалистов из компании Discovery Corps Inc. — братья Тим и Дэн Греттинджеры — использовали совсем другой подход: они вообще отказались сравнивать спортсменов. Вместо этого, предложенная Тимом и Дэном модель распределения медалей на Сочинской олимпиаде включает следующие параметры: площадь государства, ВВП на душу населения, общая стоимость экспорта, географическая широта. Кстати, модель предсказывает, что США выйдут на первое место, собрав в общей сложности 29 медалей.
Братья Греттинджеры - отнюдь не первые, кто пытался использовать такой подход к прогнозированию распределения олимпийских медалей. В свое время похожие модели для распределения медалей по странам-участницам пяти Олимпийских игр, состоявшихся в промежутке между 2000 и 2008 годами, предлагал еще профессор экономики из Колледжа Колорадо Дэниел Джонсон. Точность его предсказаний в целом составила 94%. Правда, Джонсон не разработал модель Сочинской олимпиады.
И вот, к разработке модели подключились братья Дэн и Тим. Раньше Дэн занимался стандартными задачами, типа прогнозирования потока потенциальных клиентов фирмы, но четыре года назад, во время зимних Олимпийских игр в Ванкувере, он первым из братьев заинтересовался применением методов математической статистики для прогнозирования результатов спортивных состязаний. «Я использую данные о прошлом, чтобы предугадывать будущее, — заявляет Дэн. — Каждый раз, когда вечерами по ТВ показывали информацию о количестве медалей, я постоянно спрашивал себя: а мы смогли бы предсказать эту цифру?»
Дэн рассуждал так: личные достижения спортсменов непредсказуемо меняются, но все-таки выявить взаимосвязь между фундаментальными экономическими показателями той или иной страны (ее размера, климата и накопленного богатства) и общим числом олимпийских медалей вполне возможно. Конечно же, при таком подходе нельзя вычислить, кто из спортсменов победит в данном конкретном состязании, но при наличии достаточного количества исходной информации можно достаточно точно предсказать общее число медалей для каждой страны.
Сначала Дэн и Тим решили разработать прогнозную модель для Летних Олимпийских игр 2012 года в Лондоне. Сначала они собрали самые различные виды исходных данных по каждой из стран-участниц: география, история, религиозные особенности, показатели благосостояния и политическое устройство. Затем с помощью регрессионного анализа и других математических методов они выявили те переменные, которые сильно коррелировали со статистическими данными об олимпийских медалях за предыдущий период.
В результате, Греттинджеры обнаружили, что такие факторы, как ВВП страны, численность населения, географическая широта и уровень экономической свободы (он измеряется с помощью индекса Heritage Foundation) лучше всего соотносились с распределением медалей по странам во время летних Олимпийских игр в 2004-м и 2008-м годах. Но математическая модель Греттинджеров могла выявлять лишь страны-победительницы (т.е. те из них, которые выиграют две и более медалей), а не общее число этих медалей по каждой стране.
Братья решили модифицировать свою математическую модель специально для Игр в Сочи. Для этой цели разработанная ранее модель не годилась, поскольку разрабатывалась для летних олимпиад. Итак, новая модель, подготовленная специально для Сочинской олимпиады, решает задачу в два этапа. Поскольку около 90 процентов государств мира никогда не выигрывали ни одной медали на зимних олимпиадах (здесь имеются в виду спортсмены из стран Ближнего Востока, Южной Америки, Африки и Карибского бассейна), то алгоритм сначала выбирает оставшиеся десять процентов государств, которые могут выиграть, по крайней мере, одну медаль, а потом прогнозирует распределение медалей.
«Некоторые зависимости уже и так угадывались. Скажем, чем больше население страны, тем больше вероятность выигрыша медали, — говорит Тим. — Вобщем, необходимо найти более мощный статистический алгоритм, который способен перерабатывать большие объемы данных, а выдавать вероятностное распределение величин».
В результате, братьям Греттинджерам удалось выявить несколько факторов, которые в точности отделяют девяносто процентов стран, никогда не выигрывавших ни одной медали, от тех десяти процентов государств, спортсмены которых могут выиграть. Среди этих факторов — коэффициент миграции, число врачей на душу населения, географическая широта, ВВП, а также информация о том, получала ли данная страна медали на предыдущих летних играх (дело в том, что ни одной стране никогда не удавалось выигрывать медали на зимних олимпийских играх, если она до того не получала медали на предшествующих им летних играх; это, в частности, происходит по той причине, что число спортсменов, побеждавших на летней олимпиаде, намного превосходило число победителей на зимних играх). Эту модель братья испытали на данных, описывавших две предыдущие зимние Олимпиады. Точность прогноза составила 96,5%.
Итак, братья Греттинджеры исключили из списка 90% стран, а затем создали модель, которая с помощью регрессионного анализа позволила предсказать распределение медалей у оставшихся 10% стран.
Некоторые из факторов модели, типа географической долготы, вполне очевидны: понятно, что государства, расположенные на более высоких широтах, способны добиться большего успеха в зимних видах спорта, чем остальные страны. Но вот другие факторы, прямо скажем, нас озадачили.
«А мы-то думали, что важным фактором будет являться численность населения, а вовсе не площадь государства», — говорит Дэн. Ученые пока не знают, почему же имеется более тесная корреляционная связь между площадью и количеством медалей? Может быть, по той причине, что из выборки были исключены данные по нескольким густонаселенным странам (например, по Индии и Бразилии), которые не выигрывали на зимних олимпиадах ни одной медали.
Предложенная модель отнюдь не совершенна, даже в применении к предыдущим олимпиадам. «Наш подход — это „вид с птичьего полета“. Имеются факторы, которых мы не можем объяснить», — говорит Тим. Число медалей, полученное некоторыми странами, неоднократно превышало данные, предсказанные моделью (например, Южная Корея выиграла в большом числе соревнований по шорт-треку), в то время как другие показали результаты намного худшие, чем ожидалось (например, Великобритания, спортсмены которой продемонстрировали намного лучшие результаты на летних олимпиадах, чем можно было ожидать; возможно, это произошло потому, что, несмотря на географическую широту, в этой стране гораздо чаще идут дожди, чем снег).
Кроме того, братья Греттинджеры сделали вполне ожидаемый вывод: как показали данные, страна-хозяйка олимпиады, как правило, собирает больше медалей, чем обычно. Например, спортсмены Италии (на играх в Турине в 2006 году) и Канады (в 2010 году в Ванкувере) получили медалей больше, чем предсказывала математическая модель, причем Канада установила свой абсолютный рекорд, выиграв 14 золотых медалей.
Тем не менее, основываясь на строгом математическом подходе, братья Греттинджеры уверены, что в целом их модель способна прогнозировать распределение медалей с относительно высокой степенью точности.
Наблюдаются ли расхождения между предсказаниями модели Греттинджеров и прочих экспертов, использующих традиционные математические алгоритмы? Расхождения - незначительные. Например, в рамках традиционной методики расчета тоже выделяется группа государств (Норвегия, Канада, Россия), выигрывавших большое число медалей, а также группа стран (Китай, Нидерланды, Австралия), которые получили несколько меньше медалей.
Тим и Дэн Греттинджеры пока не заключали пари на базе своих прогнозов, но они собираются перед стартом олимпийских игр сравнить данные, полученные на базе своей модели, с официальным прогнозом, выставленным перед началом игр. И если братья убедятся в превосходстве своей модели, то, конечно же, медлить не станут.