Как сделать открытые данные реальностью

Идея открытых данных уже стала общепринятой. Но, несмотря на значительные выгоды свободного доступа к данным, предстоит пройти ещё длинный путь, прежде чем он станет обычной практикой.

В течение последних пяти лет крупные частные и государственные спонсоры исследований, в том числе Фонд Билла и Мелинды Гейтс, фонд Wellcome Trust, Национальные институты здравоохранения США (сокращённо NIH), а также НАСА, утвердили политику публикации данных, а власти на уровне муниципалитетов, штатов и федерального правительства начали развивать порталы открытых данных. Научные издатели тоже поддерживают открытые данные, а некоторые научные журналы утвердили нормы, которые стимулируют, предполагают и даже требуют предоставления доступа к данным.

Однако в реальной практике предоставление доступа к данным развивается слабо. Согласно выпущенному в 2017 году компанией Figshare докладу об открытых данных, 60% из 2300 опрошенных исследователей заявили, что делятся своими данными «часто или иногда», но лишь 20-30% делали это «часто». А по данным другого недавнего опроса 1200 исследователей, «менее 15% опрошенных делились своими данными через хранилища данных». В моей сфере деятельности – социальные науки – открытость данных совершенно точно не является нормой по умолчанию.

Очевидно, что доминирующий нормативный подход к продвижению идеи открытых данных (по принципу «прикажи, и они начнут ими делиться», если перефразировать фильм «Поле его мечты») не работает. Перемен можно добиться, если исследователи сами будут поддерживать идею открытого доступа к данным. А для этого нам необходимо правильное информирование и стимулы. Иными словами, нам нужно больше пряников, а не только кнуты.

Не стоит заблуждаться: требование публикации данных, по сути, является кнутом. Как и воспроизведение, а это ещё один наиболее часто приводимый аргумент в пользу открытия доступа к данным. Да, воспроизведение исследований критически важно, а наука сейчас страдает от кризиса воспроизводимости. Но в ходе проведённого в 2016 году опроса 4600 исследователей лишь 31% опрошенных, деливших своими данными, заявили, что их мотивом была «прозрачность и повторное использование».

Согласно тому же опросу, среди основных причин, по которым исследователи не торопятся делиться своими данными: проблемы с интеллектуальной собственностью и конфиденциальностью, страхи перед ошибочной интерпретацией или злоупотреблениями результатами их труда, а также опасения, что их могут опередить в исследованиях. Учитывая, что научная карьера определяется принципом «публикуйся или погибнешь», а также на фоне конкурентной среды финансирования для всех учёных, исследователям выгоднее «владеть» данными, лежащими в основе их публикаций, чем делиться ими.

Настало время перенести акцент в дискуссиях о культуре доступа к данным с вопроса о том, что исследователи могут «потерять», на вопрос, что они выигрывают, – начиная с признания их авторства. Хорошая новость в том, что журналы данных, где исследователи могут публиковать свои массивы данных, уже набирают популярность. Объёмы цитирования в трёх крупнейших журналах, посвящённых открытому доступу (Data in Brief, Biodiversity Data Journal и Scientific Data), резко выросли – с трёх в 2012 году до 1028 в 2016 году.

Ещё один «пряник» – предоставление доступа к данным помогает получить максимальную отдачу от инвестиций как исследователю, так и спонсору. Сегодня разношёрстность реестров исследований и порталов данных затрудняет исследователям, собирающих данные для публикации во влиятельном журнале, поиск похожих проектов. Тем самым, возрастает риск, что время исследователя и доллары спонсора будут потрачены на работу, которая напрямую совпадает с работой кого-то другого. Открытый доступ к данным позволил бы решить эту проблему.

Или же, например, для рандомизированной оценки в Замбии мои коллеги и я собрали данные о примерно 2500 подростках и молодых взрослых. Выполняя условия спонсора, мы опубликовали результаты анализа примерно 10% собранных данных в реферируемых журналах, но у нас нет финансирования для дальнейшего анализа этих данных (это, кстати, общая проблема для исследователей). Если бы наши неиспользованные данные находились в открытом доступе, мы могли бы привлечь новых сотрудников, чтобы вернуться к этим данным и потенциально получить более сильные аналитические результаты.

С помощью существующих и открыто распространяемых данных исследователям будет легче применять междисциплинарные подходы и формулировать инновационные вопросы и программы исследований, которые с намного большей вероятностью приведут к прорывным открытиям. Сотрудничество, опирающееся на раскрытие данных, не только ускорит прогресс, но и повысит возможности исследователей в привлечении необходимого им финансирования, потому что спонсоров привлекает междисциплинарная, инновационная работа.

Впрочем, для извлечения максимума пользы от открытых данных спонсоры должны изменить свой менталитет и больше инвестировать в качественный сбор и управление данными в ходе реализации проектов, а также поддерживать финансирование для хранения, обработки и непрерывного анализа массивов данных. Исследователям нужно предоставлять адекватное время и ресурсы для максимального использования собранных ими данных, с тем чтобы они могли сделать более глубокие выводы на их основе.

Ещё один позитивный эффект публикации данных в том, что это помогает будущим исследователям: они могут использовать собранные нами данные, например, для диссертации. В начале моей карьеры, когда я был сотрудником NIH, мне посчастливилось получить доступ к множеству внутренних массивов данных, собранных исследователями в NIH, а также в университете Джона Хопкинса, где я провёл два года, занимаясь вторичным анализом информации по различным параметрам. Опираясь на проделанную ранее работу, я смог опубликовать несколько статей, которые помогли продвижению моей научной карьеры.

Для ускорения научного прогресса необходимо не только улучшать стимулы для исследователей и спонсоров; нужен фундаментальный сдвиг в научной культуре, и уже есть несколько многообещающих инициатив на этом направлении.

Например, «Центр открытой науки» (COS) содействует открытости, честности и воспроизводимости научных исследований. В рамках инициативы университета Беркли «Прозрачность в социальных науках» предоставляются открытые данные и проводятся тренинги на тему прозрачности исследований с целью повысить честность исследований и данных, используемых при принятии политических решений. Премия Cochrane-REWARD помогает максимизировать пользу от финансирования исследований (согласно оценкам, $170 млрд из этого финансирования каждый год тратится впустую).

Хотя эти инициативы устраняют отдельные препятствия на пути к открытым данным, нужно делать больше для того, чтобы исследователи действительно стали движущей силой процесса раскрытия и публикации данных. Возглавляемый мною глобальный центр исследования подростков при Совете по народонаселению – Центр инноваций, исследований и обучения девочек (GIRL Center) – создаёт сейчас крупнейший в мире «Хаб данных о подростках». Это уникальный глобальный портал, где исследователи, организации и другие смогут делиться и получать доступ к высококачественным количественным данным о более чем миллионе человек.

Мы уверены, что открытые данные способны повысить прозрачность исследований и способствовать инновационным решениям, которые значимо повлияют на жизнь крупнейшего в истории человечества поколения подростков – 1,2 млрд человек. Мы также уверены, что, когда практика открытия данных станет более распространённой, польза от сотрудничества и обмена, возникающих благодаря этой практике, значительно расширится.

https://www.project-syndicate.org/commentary/open-data-research-science-by-thoai-ngo-2018-08