Кембридж. — Большие данные получаются из цифрового следа, который мы оставляем за собой, когда используем кредитные карты, мобильные телефоны и Интернет. При аккуратном и правильном использовании эти данные дают нам возможность беспрецедентного размаха понять наше общество, а также улучшить наши методы жизни и работы. Но то, что работает в теории, может не так удачно воплотиться в реальном мире, где сложные человеческие взаимодействия не всегда могут быть охвачены даже при помощи самых сложных моделей. Большие данные требуют от нас экспериментов в больших масштабах.
Моя собственная лаборатория, например, создает веб-сайт, который, основываясь на картах Google, использует цифровой след общества, чтобы наносить на карту уровни бедности, детскую смертность, уровни преступности, изменения в ВВП и другие социальные показатели, район за районом — и все это ежедневно обновляется. Эта новая возможность позволяет увидеть, например, где правительственные инициативы работают, а где терпят провал.
Однако, хотя такие впечатляющие средства визуализации могут резко повысить уровень прозрачности и общественных знаний, они удивительно ограничены при решении проблем общества. Одна из причин этого заключается в том, что такие богатые потоки данных поощряют проведение ложных корреляций.
Даже использование стандартного научного метода больше не работает; с учетом настолько большого количества измерений, а также большого числа потенциальных связей между тем, что мы измеряем, наши стандартные статистические инструменты генерируют бессмысленные результаты. Не зная всех возможных альтернатив, мы не можем сформировать ограниченный, тестируемый набор четких гипотез. И если мы не можем полагаться на лабораторные эксперименты для проверки причинности, мы должны проверить ее в реальном мире, используя огромные объемы данных в реальном времени. Это влечет за собой выход за пределы закрытого процесса вопросов и ответов, который типичен для лабораторий, и применение наших идей в обществе раньше и чаще, чем когда-либо прежде.
Чтобы увидеть, как это на самом деле работает, мы должны построить живые лаборатории — то есть сообщества, желающие попробовать новые способы ведения дел (или, выражаясь более понятным языком, побыть в качестве подопытных кроликов). Примером подобных живых лабораторий является «город открытых данных», который я запустил в городе Тренто в Италии, вместе с Telecom Italia, Telefónica, исследовательским университетом Fondazione Bruno Kessler, Институтом Data Driven Design (управляемых данными решений) и местными компаниями. Важно отметить, что эта живая лаборатория получила одобрение всех участников, и они осознанно согласились на это; они понимают, что они участвуют в гигантском эксперименте, целью которого является создание лучшего образа жизни.
Одной из основных проблем этой живой лаборатории является защита неприкосновенности частной жизни без уменьшения потенциала по улучшению управления. Лаборатория в Тренто, например, будет тестировать предложенный мной «Новый курс для данных», который дает пользователям больше контроля над своими персональными данными через программное обеспечение для так называемых «сетей доверия», как, например, наша открытая система PDS (персональное хранилище данных). Мы надеемся, что возможность безопасно обмениваться данными при соблюдении неприкосновенности частной жизни поощрит частных лиц, компании и правительства делиться своими идеями в большем масштабе и тем самым увеличивать производительность и креативность по всему городу.
Однако самая большая трудность в использовании больших данных для построения лучшего общества заключается в возможности развития в человеческих масштабах интуитивного понимания социальной физики. Хотя поступающие плотным и непрерывным потоком данные и современные вычисления позволяют нам отмечать множество деталей об обществе и объяснять, как они могут работать, такие сырые математические модели содержат слишком много переменных и сложных отношений, чтобы их могли понимать большинство людей.
Необходим своего рода диалог между человеческой интуицией и очевидной реальностью больших данных — диалог, который на сегодняшний день отсутствует в системах управления и самоуправления. Если люди хотят эффективного развертывания больших данных, они должны быть в состоянии понять и интерпретировать соответствующие статистические данные.
Это требует нового понимания человеческого поведения и социальной динамики, что выходит за рамки традиционных экономических и политических моделей. Только развивая науку и язык социальной физики, мы сможем сделать мир больших данных миром, в котором мы хотим жить.