Гордон Белл (gordon bell) | microsoft research...

11
ЧЕТВЕРТАЯ ПАРАДИГМА ДЖИМ ГРЕЙ ПРО е-НАУКУ XIII XII Введение Гордон Белл (Gordon Bell) | Microsoft Research Э та книга — о новой для науки четвертой парадигме, основанной на вы- числениях с использованием большого объема данных. В исследовани- ях такого рода мы находимся на этапе развития, аналогичном времени изобретения печатного станка. Технологии печати понадобилась тысяча лет, чтобы развиться и эволюционировать в множество существующих сегодня форм. Использование компьютеров для понимания данных, созданных и сохра- няющихся в наших электронных хранилищах информации, скорее всего, займет десятилетия — или меньше. Авторы, которые внесли свой вклад в создание этой книги, проделали выдающуюся работу, чтобы помочь понять эту новую пара- дигму с точки зрения различных дисциплин. Во многих случаях наука отстает от коммерческого мира в возможностях понимания и использования данных. Однако коммерция сама по себе относи- тельно проста: вещи, которые можно описать несколькими цифрами или назва- нием, изготавливают, после чего продают и покупают. Научные дисциплины не удастся так просто описать несколькими понятными цифрами и названиями, и большая часть научных данных не имеет достаточно высокой экономической ценности для подпитки более быстрого развития научных открытий. Иоганн Кеплер (Johannes Kepler), помощник Тихо Браге (Tycho Brahe), взял его каталог систематических астрономических наблюдений и открыл законы движения планет. Так было установилено разделение между поиском, анализом и приведением в порядок собранных данных и разработкой научных теорий. Такое разделение является одним из аспектов Четвертой Парадигмы. В XX веке данные, на которых основывались научные теории, зачастую были скрыты в личных блокнотах, или, для некоторых аспектов «большой науки», сохранялись на магнитных носителях, которые со временем становились нечи- таемыми. Такие данные, особенно от отдельных людей или небольших лабора-

Upload: others

Post on 05-Jun-2020

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XIIIXII

Введение

Гордон Белл (Gordon Bell) | Microsoft Research

Эта книга — о новой для науки четвертой парадигме, основанной на вы-числениях с использованием большого объема данных. В исследовани-ях такого рода мы находимся на этапе развития, аналогичном времени изобретения печатного станка. Технологии печати понадобилась тысяча

лет, чтобы развиться и эволюционировать в множество существующих сегодня форм. Использование компьютеров для понимания данных, созданных и сохра-няющихся в наших электронных хранилищах информации, скорее всего, займет десятилетия — или меньше. Авторы, которые внесли свой вклад в создание этой книги, проделали выдающуюся работу, чтобы помочь понять эту новую пара-дигму с точки зрения различных дисциплин.

Во многих случаях наука отстает от коммерческого мира в возможностях понимания и использования данных. Однако коммерция сама по себе относи-тельно проста: вещи, которые можно описать несколькими цифрами или назва-нием, изготавливают, после чего продают и покупают. Научные дисциплины не удастся так просто описать несколькими понятными цифрами и названиями, и большая часть научных данных не имеет достаточно высокой экономической ценности для подпитки более быстрого развития научных открытий.

Иоганн Кеплер (Johannes Kepler), помощник Тихо Браге (Tycho Brahe), взял его каталог систематических астрономических наблюдений и открыл законы движения планет. Так было установилено разделение между поиском, анализом и приведением в порядок собранных данных и разработкой научных теорий. Такое разделение является одним из аспектов Четвертой Парадигмы.

В XX веке данные, на которых основывались научные теории, зачастую были скрыты в личных блокнотах, или, для некоторых аспектов «большой науки», сохранялись на магнитных носителях, которые со временем становились нечи-таемыми. Такие данные, особенно от отдельных людей или небольших лабора-

Page 2: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XVXIV

торий, в большинстве своем недоступны. Обычно их выбрасывали при уволь-нении ученого, или, в лучшем случае, некоторое время хранили в библиотеке института. Долговременный источник данных, а также доступ сообщества к рас-пределенным данным — всего лишь малая часть задач.

К счастью, некоторые «центры информации», такие как Национальный центр атмосферных исследований1 (National Center for Atmospheric Research, NCAR), старались собрать специалистов, которые проводят эксперименты пу-тем анализа проверенных данных, полученных из измерений и компьютерных моделей. Таким образом, в одной организации создавали цепочку сбора, кури-рования и анализа информации для целой дисциплины.

В XXI веке большая часть огромного объема научных данных, непрерывно получаемых при помощи новых инструментов, вместе с информацией, создан-ной в искусственных мирах компьютерных моделей, скорее всего, будет сохра-няться вечно, в живом, общедоступном и проверенном состоянии в целях посто-янного анализа. Этот анализ приведет к разработке множества новых теорий! Я уверен, что вскоре наступит время, когда информация будет жить вечно в виде архива — подобно библиотеке для бумажных книг — с публичным доступом в «облако» для людей и машин. Лишь недавно мы осмелились думать о таком постоянстве информации так же, как о предметах, которые хранятся в наших национальных библиотеках и музеях! Такое постоянство до сих пор кажется чем-то далеким, пока не приходит понимание, что сбор источников данных, включая записи отдельных исследователей и иногда всей информации о них самих — это то, на чем настаивали и к чему всегда стремились библиотеки. «Облако» намаг-ниченных закодированных данных и документов в цифровой библиотеке станет современным аналогом километров библиотечных полок с бумагой и частичка-ми чернил.

В 2005 г. Национальный совет по делам науки (National Science Board) при Национальном научном фонде (National Science Foundation) опубликовал отчет «Коллекции-долгожители цифровых данных: поддержка исследований и обра-зования в 21 веке» («Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century»), который стал началом диалога о важности сохра-нения данных и представил проблему работы с растущей группой, названной «учеными по данным».

«Интересы ученых по данным — специалистов в области информации и компьютеров, программистов и инженеров баз данных и программного обеспечения, экспертов по дисциплинам, кураторов и экспертов-аннота-торов, библиотекарей, архивоведов и других специалистов, необходимых для успешного управления коллекциями цифровых данных — заклю-чаются в полном признании их творческого и интеллектуального вкла-да» [1].

ЧЕТВЕРТАЯ ПАРАДИГМА: ФОКУС НА СИСТЕМАХ И НАУЧНОЙ КОММУНИКАЦИИ С ИСПОЛЬЗОВАНИЕМ БОЛЬШОГО ОБЪЕМА ДАННЫХ

Последнее обращение Джима Грея (Jim Gray) к Совету по компьютерным на-укам и телекоммуникациям (Computer Science and Telecommunications Board) 11 января 2007 г. [2] было посвящено его видению четвертой парадигмы научных исследований. Он описал двухкомпонентный процесс для финансирования ин-струментов сбора, проверки и анализа данных, а также инфраструктуры пере-дачи информации и публикации. Грей защищал идею создания современных хранилищ данных и документов наравне с традиционными библиотеками. При-веденная в этой книге отредактированная версия речи Джима, составленная на основании расшифровки его слайдов, важна для понимания последующих статей.

Использование большого объема данных состоит из трех основных действий: сбор, проверка и курирование. Данные поступают в разных масштабах и разме-рах, охватывая крупные международные эксперименты, межлабораторные, ла-бораторные и личные наблюдения, а возможно, и жизни отдельных людей2. Дис-циплины и масштабы отдельных экспериментов, а особенно объемы их данных, делают вопрос инструментов пугающей проблемой. Австралийская квадратная километровая решетка радиотелескопов3, Большой адронный коллайдер CERN4 и решетка астрономических телескопов Pan-STARRS5 способны создавать не-сколько петабайт (Пб) данных в день, но текущие планы ограничивают их до сбора более управляемого количества данных. Машины для секвенирования ге-нов являются самыми умеренными в выработке данных ввиду своей дороговиз-ны, поэтому секвенированы только отдельные кодирующие области гена (25 Кб для нескольких сотен тысяч пар оснований) для каждого человека. Но такая си-туация в лучшем случае временная — она сохранится, пока какой-либо частной группе ученых не удастся создать методику, позволяющую расшифровывать 100 геномов человека в течение не более чем 10 дней и не дороже, чем за 10 тыс. долл. за геном (по 3 млрд пар оснований для каждого генома каждого человека), чтобы получить за это объявленную премию XPRIZE по геномике в размере 10 млн долл.

Финансирование необходимо для создания общего набора инструментов, охватывающего полный спектр действий — от сбора и утверждения данных, курирования, анализа, и до их постоянного хранения. Курирование охватывает широкий спектр действий, начиная от поиска правильных структур для распре-деления в различные хранилища. Оно включает в себя схему и необходимые ме-таданные для долговечности и интеграции в различные приборы, эксперименты и лаборатории. Без такой четкой схемы и метаданных интерпретация получа-

1 www.ncar.ucar.edu

2 http://research.microsoft.com/en-us/projects/mylifebits3 www.ska.gov.au4 http://public.web.cern.ch/public/en/LHC/LHC-en.html5 http://pan-starrs.ifa.hawaii.edu/public6 http://genomics.xprize.org

Page 3: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XVIIXVI

ется нечеткой и в большой степени зависит от конкретных программ, которые используются для анализа. В конечном итоге такие необработанные данные га-рантированно теряются.

Мы должны тщательно продумать, какие данные должны иметь возмож-ность храниться вечно и какие дополнительные метаданные следует собрать, чтобы это было выполнимо.

Анализ данных охватывает полный спектр действий в течение рабочего про-цесса, включая использование баз данных (в противовес коллекциям неструк-турированных файлов, к которым может иметь доступ база данных), анализ и моделирование, и затем визуализацию данных. Рецепт проектирования базы данных для конкретной дисциплины, сформулированный Джимом Греем, за-ключается в том, что она должна иметь возможность ответить на 20 ключевых вопросов, которые ей может задать ученый. Сегодня большинство наук исполь-зует базы данных для хранения тех или иных представлений данных, а не мас-сивов данных целиком. Это вызвано тем, что время, необходимое для сканиро-вания всех данных, делает их анализ невыполнимой задачей. Десять лет назад повторное считывание данных было возможно достаточно редко. В 2010 г. объем памяти дисков стал уже в тысячу раз больше, а скорость чтения-записи увеличи-лась только в два раза.

ЦИФРОВЫЕ БИБЛИОТЕКИ ДОКУМЕНТОВ И ИНФОРМАЦИИ: СОВРЕМЕННЫЙ ВИД БИБЛИОТЕКИ

Взаимодействие ученых, включая обзор работы коллегами, также фундамен-тально изменяется. Общественные цифровые библиотеки перенимают роль хранилищ публикаций у традиционных библиотек — ввиду стоимости, необхо-димости в хронологизации и хранении данных и документов по экспериментам, проведенным с этими данными, вместе.

На момент написания этой статьи библиотеки цифровых данных все еще находятся на этапе формирования, с различными размерами, формами и правами. Безусловно, веб-сайт Национального центра атмосферных иссле-дований (NCAR) является одним из старейших сайтов, посвященных модели-рованию, сбору и курированию данных науки о Земле. Суперкомпьютерный центр Сан-Диего (San Diego Supercomputer Center, SDSC) в Калифорнийском университете, Сан-Диего, который обычно ассоциируется с обеспечением вы-числительных мощностей для научного сообщества, был одной из первых ор-ганизаций, которая поняла необходимость добавления данных к своей миссии. SDSC создал свой веб-сайт Data Central7, содержащий 27 Пб информации в более чем 100 специализированных базах данных (например, по биоинформатике и водным ресурсам). В 2009 г. он зарезервировал 400 терабайт (Тб) дискового про-странства для публичных и частных баз данных и коллекций данных, которые

обслуживают широкий спектр научных организаций, включая лаборатории, би-блиотеки и музеи.

Австралийская национальная служба данных8 (Australian National Data Service, ANDS) начала предлагать сервисы, начиная с Register My Data, «карточ-ного каталога», в котором регистрируется определение, структура, название и размещение (IP-адрес) различных баз данных, включая поступающие от част-ных лиц. Простой акт регистрации проходит долгий путь к организации долго-временного хранилища. Цель ANDS — оказать воздействие на национальную политику по управлению данными и проинформировать о лучших практиках курирования данных, тем самым трансформируя несопоставимые наборы ис-следовательских данных в связную коллекцию исследовательских ресурсов. В Великобритании Комитет объединенных информационных систем (Information Systems Committee, JISC) профинансировал образование Центра по цифровому курированию9 для изучения этих проблем. Со временем можно ожидать появ-ления множества подобных центров обработки данных. Отдел компьютерных и информационных наук и проектирования Национального научного фонда (National Science Foundation’s Directorate for Computer and Information Science and Engineering) недавно призвал к подаче заявок на получение долговремен-ных грантов для исследователей в области вычислений с использованием боль-шого объема данных и долговременного архивирования.

В статьях этой книги читателю предлагается рассмотреть множество возмож-ностей и задач науки с использованием большого объема данных, включая меж-дисциплинарное взаимодействие и обучение, обмен данными между организа-циями, установление новых процессов и направлений и исследовательские планы по изучению возможностей и сохранению позиций на «гребне волны» данных. Для этих задач потребуются большие капитальные и операционные затраты. Для осуществления мечты о создании инфраструктуры данных с «вездесущими дат-чиками» для поддержки новых моделей научных исследований требуется рас-ширенное взаимодействие между организациями-спонсорами, учеными и инже-нерами. Эта мечта должна активно поощряться и финансироваться.

ССЫЛКИ

[1] Национальный совет по делам науки, «Коллекции-долгожители цифровых данных: поддержка исследований и образования в 21 веке». Технический отчет NSB-05-40, Национальный научный фонд, сентябрь 2005 г., www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.

[2] Обращение Джима Грея к Национальному научно-исследовательскому со-вету — Совету по компьютерным наукам и телекоммуникациям в Маунтин Вью, Калифорния, 11 января 2007 г., http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm.

7 http://datacentral.sdsc.edu/index.html 8 www.ands.org.au 9 www.ands.org.au

Page 4: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМА XIX

Джим Грей про е-Науку: Трансформированный научный метод

На основе стенограммы обращения Джима Грея к Совету по компьютерным наукам и телекоммуникациям Государствен-ного совета по исследованиям США1 в Маунтин Вью, Калифор-ния, 11 января 2007 г.2

Под редакцией Тони Хея (Tony Hey), Стюарта Тансли (Stewart Tansley) и Кристин Толле (Kristin Tolle) | Microsoft Research

Нам необходимо заняться созданием инструментов поддержки цикла исследований — от сбора данных и их курирования до анализа и ви-зуализации. Сегодняшние инструменты для сбора данных как в мега-, так и в микромасштабе, просто ужасны. После того, как вы получили

данные, вам нужно их курировать до тех пор, пока вы не сможете выполнять с ними какой-либо анализ; нам не хватает хороших инструментов как для куриро-вания данных, так и для их анализа. Затем происходит публикация результатов вашего исследования, и опубликованная литература является всего лишь вер-хушкой айсберга данных. Этим я хочу сказать, что люди собирают множество данных и затем уменьшают их до нескольких дюймов полосы в журнале Science или Nature — или до 10 страниц, если речь идет о специалистах по компьютер-ным наукам. Поэтому верхушка айсберга, о которой я говорил, означает, что существует огромное количество данных, которые собраны, но не курированы

1 Национальный научно-исследовательский совет, http://sites.nationalacademies.org/NRC/index.htm; Со-вет по компьютерным наукам и телекоммуникациям, http://sites.nationalacademies.org/cstb/index.htm.2 Эта презентация является последней опубликованной на веб-странице Джима в Microsoft Research перед тем, как он пропал без вести в море 28 января 2007 г. —http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.

Page 5: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XXIXX

или не опубликованы каким-либо систематическим образом. Существуют от-дельные исключения, и я думаю, что они могут стать хорошим источником для поиска наилучших практик. Я буду говорить о том, как должен измениться весь процесс обзора работы коллегами, и как, по моему мнению, он меняется, и что может сделать Совет по компьютерным наукам и телекоммуникациям, чтобы помочь нам в наших исследованиях.

Е-НАУКА: ЧТО ЭТО?

е-Наука появляется, когда «ИТ встречаются с учеными». Исследователи ис-пользуют множество различных методов для сбора или создания данных — от датчиков и ПЗС до суперкомпьютеров и коллайдеров частиц. Когда все данные наконец отображаются в вашем компьютере, что вы делаете со всей этой инфор-мацией в вашей цифровой обувной коробке? Меня постоянно находят люди и говорят: «Помоги! Я получил эту информацию. Что я должен с ней делать? Мои таблицы в Excel выходят из-под контроля!» Что же дальше? Что происходит, когда у вас десять тысяч таблиц Excel, в каждой из которых по 50 листов? Да, я систематически присвоил им имена, но что делать дальше?

НАУЧНЫЕ ПАРАДИГМЫ

В каждом своем выступлении я показываю этот слайд [Рисунок 1]. Я думаю, сле-дует честно отметить, что это озарение посетило меня во время исследования компьютерного будущего в Совете по компьютерным наукам и телекоммуни-

кациям. Мы говорили: «Смотрите, компьютерная наука — это третья опора». Изначально была только экспериментальная наука, затем появилась теоретиче-ская, с законами Кеплера, законами динамики Ньютона, уравнениями Максвел-ла и так далее. Затем, в результате многих причин, теоретические модели стали слишком сложными для аналитического решения, и пришлось заняться модели-рованием. Такое моделирование заняло большую часть второй половины про-шлого тысячелетия. Сегодня, вместе с огромным увеличением объемов данных от экспериментальных наук, такое моделирование образует кучу данных. Се-годня люди не смотрят прямо в телескопы. Вместо этого они «смотрят» через большие и сложные приборы, которые передают данные в центры обработки данных, и только затем они смотрят на информацию в своих компьютерах.

Мир науки изменился, и возврата нет. Новая модель предназначена для дан-ных, собранных приборами или созданных моделями, с последующей обработ-кой программным обеспечением и заключительным сохранением информации или знаний в компьютерах. Ученым требуется только посмотреть на свои данные в конце этого процесса. Техники и технологии для такой науки с использованием большого объема данных настолько разнообразны, что следует отделить от ком-пьютерной науки науку с использованием большого объема данных в качестве новой, четвертой парадигмы научных исследований [1].

Х-ИНФОРМАЦИЯ И Х-ВЫЧИСЛЕНИЯ

Как показано на следующем слайде [Рисунок 2], мы видим развитие двух разде-лов каждой дисциплины. Если рассмотреть экологию, сейчас существует вычис-

Научные парадигмы• Тысячи лет назад: наука была эмпирической описывала природные феномены• Последние несколько сотен лет: теоретическая ветвь использование моделей, обобщений• Последние несколько десятилетий: вычислительная ветвь моделирование сложных феноменов• Сегодня: исследование данных (е-Наука) соединение теории, экспериментов и моделирования – Данные собираются приборами или создаются моделирующим устройством – Обрабатываются программным обеспечением – Информация/знания хранятся в компьютере – Ученый анализирует базу данных / файлы при помощи управления данными и статистики}

РИСУНОК 1

ФактыF

Факты

Факты

Факты

• Поглощение данных• Инструменты запросов и визуализации• Управление петабайтами• Общая схема• Как ее организовать• Как ее реорганизовать

• Как обмениваться с другими• Создание и исполнение моделей• Интеграция данных и литературы• Документирование экспериментов• Курирование и долговременное хранение

Х-информация• Эволюция Х-информации и Х-вычислений для каждой дисциплины Х• Как систематизировать и представить наши знания

Общие проблемы

Вопросы

Ответы

Моделирование

Литература

Другие архивы

Экспериментыи приборы

РИСУНОК 2

Page 6: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XXIIIXXII

лительная экология, предназначенная для моделирования, и экоинформатика, которая работает со сбором и анализом экологической информации. Подобным образом существует биоинформатика, которая собирает и анализирует инфор-мацию множества различных экспериментов, и есть вычислительная биология, которая моделирует работу биологических систем и метаболических путей, или же поведение клетки или методов создания белка.

Это напоминает идею Жанетт Винг (Jeannette Wing) о «компьютерном мыш-лении», где техники и технологии компьютерных наук применяются к различ-ным дисциплинам [2].

Цель многих ученых — систематизировать свою информацию, чтобы они могли обмениваться ею с другими учеными. Зачем им нужно систематизировать свою информацию? Для того, чтобы мой компьютер понял заложенную в него информацию, нужно, чтобы информация была представлена алгоритмически. Чтобы обеспечить это, нужно иметь стандартное представление для гена, галак-тики или измерения температуры.

ОТ ЧЕТВЕРТИ ДО ПОЛОВИНЫ БЮДЖЕТОВ НА ЭКСПЕРИМЕНТЫ ЗАНИМАЕТ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

Я плотно общался с астрономами последние лет десять и посетил несколько их базовых станций. Одна из самых захватывающих для меня вещей — я смотрел в телескоп, и это просто невероятно. Его оборудование стоит 15—20 млн долла-ров, и им пользуется 20—50 человек. И это только то, что лежит на поверхности, а еще есть тысячи людей, которые пишут код для работы с информацией, полу-ченной при помощи этого инструмента, а для анализа всей этой информации нужны миллионы строк кода. Фактически стоимость программного обеспе-чения превышает капитальные затраты! Это действительно для Слоуновского цифрового обзора неба (Sloan Digital Sky Survey, SDSS), и это применимо и к бо-лее масштабным исследованиям неба, а также к множеству других крупномас-штабных экспериментов. Я не уверен, что заявление о превалирующих расходах на программное обеспечение действительно для сообщества физики частиц с их Большим адронным коллайдером (БАК), но это определенно верно для экспери-ментов, которые проводятся при помощи БАК.

Даже в науках с «малыми данными» можно увидеть людей, собирающих ин-формацию, которым затем нужно намного больше энергии для ее анализа, Так как существует всего несколько общих инструментов, которые есть у ученых в лаборатории для сбора, анализа и обработки данных, программное обеспечение обычно уникально. Это то, в чем мы — компьютерные ученые — можем помочь, создав общие инструменты для ученых.

У меня есть список направлений для разработчиков политик типа Совета по компьютерным наукам и телекоммуникациям. Первое — стимулировать со-здание и поддержку инструментов в общем. У Национального научного фонда сейчас есть организация киберинфраструктуры, и я не хочу сказать о них ни-чего плохого, но там должно быть больше, чем просто поддержка TeraGrid и

высокопроизводительных вычислений. Сейчас мы знаем, как построить класте-ры Beowulf для дешевых высокопроизводительных вычислений. Но нам неиз-вестно, как создать настоящую grid-систему управления данными или хранили-ща данных, построенные из недорогих «кирпичей», где можно размещать все ваши данные и затем анализировать информацию. Мы уже достаточно про-двинулись в инструментах моделирования, но инструменты анализа данных сильно отстают.

ПИРАМИДЫ ПРОЕКТОВ И ИХ ФИНАНСИРОВАНИЕ

Этот раздел — просто наблюдения о том, как работает большинство научных проектов. Есть несколько международных проектов. Намного больше проектов, объединяющих несколько организаций. И существует целое множество проек-тов отдельных лабораторий. Получается пирамида из проектов Уровня 1, Уров-ня 2 и Уровня 3, которую мы видим снова и снова в различных отраслях. Проек-ты Уровня 1 и Уровня 2 обычно имеют системную организацию и управление, но таких проектов лишь несколько. Такие большие проекты могут позволить себе бюджет на оборудование и программное обеспечение, а также на выделен-ные команды ученых для создания специализированного ПО для эксперимен-тов. Например, я видел, что совместная океанская обсерватория США и Кана-ды — проект Нептун — выделила около 30% своего бюджета (приблизительно 350 млн долларов) на киберинфраструктуру [3], — т.е. около 100 млн долларов! Аналогично, эксперименты БАК имеют весьма объемный бюджет на программ-ное обеспечение, и эта тенденция больших бюджетов также очевидна из более раннего эксперимента BaBar [4, 5]. Но если вы — лабораторный ученый в ниж-ней части пирамиды, что вы будете делать с бюджетом на программное обеспе-чение? Скорее всего вы купите MATLAB3 и Excel4, или подобное программное обеспечение, и будете использовать эти стандартные инструменты. Больше вы ничего сделать не сможете.

Таким образом, гига- и мега-проекты в большой степени управляются не-обходимостью в крупномасштабных ресурсах, таких как суперкомпьютеры, телескопы или другие масштабные экспериментальные средства. Такие сред-ства обычно используются крупными сообществами ученых, и требуют пол-ного финансирования такими организациями, как Национальный научный фонд (National Science Foundation) или Министерство энергетики (Department of Energy). Проекты меньшего масштаба обычно получают финансирование из более широкого спектра источников, с поддержкой финансирующим органом, зачастую сопоставимой с другой организацией — которой может быть и сам университет. В документе, написанном Гордоном Беллом (Gordon Bell), Алексом Шалай (Alex Szalay) и мной для IEEE Computer [6] мы рассматривали тот факт,

3 www.mathworks.com4 http://office.microsoft.com/en-us/excel/default.aspx

Page 7: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XXVXXIV

что проекты Уровня 1, такие как БАК, получают финансирование от междуна-родного консорциума организаций, но эксперименты БАК Уровня 2 и средства Уровня 3 финансируются исследователями, которые имеют собственные источ-ники финансирования. Поэтому финансирующие организации должны полно-стью финансировать огромные проекты Уровня 1, но при этом выделять другую половину бюджета на киберинфраструктуру для проектов меньшего масштаба.

СИСТЕМЫ УПРАВЛЕНИЯ ЛАБОРАТОРНОЙ ИНФОРМАЦИЕЙ

Подводя к итогу все сказанное мной о программном обеспечении, все, что нам нужно — это эффективные «системы управления лабораторной информацией». Такие программные системы обеспечивают связь прибора или модели с архи-вом данных, и мы близки к этому во многих случаях, с которыми я сталкивался. В общем, мы вводим данные от группы приборов в процесс, который калибрует и «очищает» данные, закрывая необходимые пробелы. Затем мы «упорядочи-ваем»5 информацию, после чего вводим ее в базу данных, которую вы можете опубликовать в Интернете для предоставления доступа к вашей информации.

Весь процесс на пути от прибора до веб-браузера требует массы различных навыков. Поэтому мы должны создать пакеты типа Beowulf и шаблоны, чтобы люди, проводящие практические эксперименты, могли просто собирать свои данные, вводить их в базу данных и публиковать. Это можно сделать при по-мощи создания и документирования прототипов. На это потребуется несколько лет, но результатом станет сильное влияние на методы развития науки.

Как я уже говорил, такие программные процессы называют Системами управления лабораторной информацией, или СУЛИ. Между прочим, существу-ют коммерчески доступные системы, вы можете купить стандартную систему СУЛИ. Проблема в том, что они достаточно дороги и ориентированы на про-мышленность. Также зачастую они приспособлены для решения тех или иных задач конкретных сообществ — например, для сбора данных секвенатора или масс-спектрометра, их обработки и получения результатов анализа.

УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ И АНАЛИЗ ДАННЫХ

Типичная ситуация выглядит так — люди собирают данные с приборов или дат-чиков, либо из работающих моделей. Вскоре они получают миллионы файлов, и простого пути управления этими данными или их анализа не существует. Я ходил и смотрел, чем занимаются ученые. В общем, они делают одно из двух — либо ищут иголки в стогах сена, либо ищут сами стога. Запросы на поиск «иголки в стоге сена» сами по себе очень просты — вы ищете особые аномалии данных, и обычно у вас есть общее представление, какого типа признаки вы ищете. Фи-

зики, которые изучают элементарные частицы, ищут бозон Хиггса в БАК, и они хорошо знают, как будет выглядеть распад этой тяжелой частицы в их датчиках. Решетки общих кластеров компьютеров очень хорошо подходят для таких за-просов на поиск «иголки в стоге сена», но эти параллельные компьютеры очень слабы в анализе тенденций, статистической группировке и выявлении глобаль-ных структур данных.

Нам действительно нужны намного более сильные алгоритмы для груп-пировки и глубинного анализа данных. К сожалению, алгоритмы группиров-ки имеют не порядок N или N log N, а обычно N3, поэтому когда N становится слишком большим, этот метод уже не работает. Мы вынуждены изобретать но-вые алгоритмы, и вам приходится жить только с приблизительными ответами, например, используя приближенную медиану.

В основном статистический анализ работает с созданием однородных образ-цов, некоторой фильтрацией данных, включением или сравнением нескольких моделей по методу Монте-Карло, и так далее. В результате образуется большое количество файлов. Но каждый файл — это просто набор байтов. Если я дам вам такой файл, вам нужно будет потрудиться, чтобы понять, что означает ин-формация в этом файле. Поэтому крайне важно, чтобы файлы объясняли сами себя. Когда мы говорим «база данных», мы подразумеваем, что данные должны описывать сами себя и иметь схему. Это действительно все, что означает слово «база данных». Поэтому, если я даю вам определенный набор информации, вы можете посмотреть на нее и сказать: «Мне нужны все гены с этим свойством», или «Мне нужны все звезды с этим свойством», или «Мне нужны все галакти-ки с этим свойством». Но если я вам дам просто несколько файлов, вы даже не сможете использовать концепцию галактики, и вам нужно будет самостоятельно определить эффективную схему для данных в этом файле. Если у вас есть схема, вы можете индексировать данные, соединять их, вы можете проводить парал-лельный поиск данных, вы можете иметь специальные запросы к этим данным. При этом вам будет намного проще создать некоторые общие инструменты ви-зуализации.

Честно говоря, я должен сказать, что научное сообщество изобрело различ-ные форматы, которые я квалифицирую как форматы баз данных. Один из таких форматов — HDF6 (формат иерархических данных), другой — NetCDF7 (Общая сетевая форма данных). Эти форматы используются для обмена дан-ными и переноса схемы данных при их перемещении. Но в целом науке нужны намного более совершенные инструменты для самоопределения данных, чем HDF и NetCDF.

5 Это означает упорядочить организацию данных до одной переменной в ряду, нормализация аналого-вой базы данных до реляционной.

6 www.hdfgroup.org7 www.unidata.ucar.edu/software/netcdf

Page 8: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XXVIIXXVI

ДОСТАВКА ДАННЫХ

Увеличение размера наборов данных — это другая ключевая проблема, и их уже невозможно обработать при помощи FTP или команды «grep». Петабайт дан-ных — это очень много для FTP! Поэтому на определенном этапе вам нужны индексы и параллельный доступ к данным, и тут вам могут помочь базы данных. При анализе данных один из вариантов — это переместить данные к вам, а вто-рой вариант — это переместить ваш запрос к данным. Вы можете перемещать либо ваши запросы, либо данные. Зачастую более эффективно перемещать за-просы, а не данные.

ИНСТРУМЕНТЫ ОБРАБОТКИ ДАННЫХ: ПУСТЬ РАСЦВЕТАЮТ СТО ЦВЕТОВ

Мое предположение состоит в том, что у нас ужасные инструменты для управле-ния данными в большинстве научных дисциплин. Коммерческие организации, такие как Walmart, могут позволить себе создавать собственное программное обеспечение для управления данными, но для ученых это роскошь. В настоящее время у нас практически нет инструментов визуализации и анализа данных. В некоторых исследовательских сообществах используют, например, MATLAB, но финансирующим организациям следует намного лучше поощрять создание ин-струментов, которые повысят производительность ученых. Если вы посмотри-те, чем каждый день вынуждены заниматься ученые, делая анализ данных, то увидите, что это действительно ужасно. И я подозреваю, что большинство из вас находятся в такой же ситуации, что и я, когда единственными доступными инструментами являются MATLAB и Excel!

У нас есть такие отличные инструменты, как кластеры Beowulf8, которые позволяют получить экономичные высокопроизводительные вычисления за счет объединения множества недорогих компьютеров. У нас есть программное обеспечение Condor9, которое позволяет использовать циклы обработки отрас-левых компьютеров. Также у нас есть программное обеспечение BOINC10 (от-крытая программная платформа университета Беркли для распределенных вы-числений), которое позволяет использовать циклы ПК таким же образом, как в проекте SETI@Home. И у нас есть несколько коммерческих продуктов, таких как MATLAB. Все эти инструменты появились в исследовательском сообществе, и вышло так, что именно эти инструменты стали успешными.

Еще у нас есть Linux и FreeBSD Unix. FreeBSD была раньше Linux, но поче-му-то Linux стала успешной, а FreeBSD — нет. Я думаю, это во многом связано с сообществом, личностями и временем. Поэтому я полагаю, что нам нужно мно-гое. У нас есть коммерческие инструменты, такие как LabVIEW11, но нам нужно

создать несколько подобных систем. И мы надеемся, что некоторые из них будут успешными. Создание большого количества проектов не должно быть слишком дорогим.

БУДУЩАЯ РЕВОЛЮЦИЯ В НАУЧНОМ ОБМЕНЕ ИНФОРМАЦИЕЙ

В первой части моего выступления я говорил о необходимости инструментов, которые помогли бы ученым собирать свои данные, курировать их, анализиро-вать и затем визуализировать. Вторая часть выступления — об обмене информа-цией в науке. Около трех лет назад Конгресс принял закон о том, что если для вашего исследования вы используете финансирование Национального институ-та здравоохранения (National Institutes of Health), рекомендуется, чтобы вы пре-доставили отчет о вашем исследовании в Национальную медицинскую библио-теку (National Library of Medicine), чтобы полный текст ваших документов был доступен общественности. Добровольное выполнение этого закона составило около 3%, так что теперь мы, скорее всего, увидим, как финансирующие орга-низации принудительно выводят в Интернет всю научную литературу, получив-шую общественное финансирование. Сейчас существует законопроект, который поддерживают сенаторы Корнин (Cornyn) и Либерман (Lieberman). После при-нятия этого законопроекта получатели грантов Национального института здра-воохранения будут обязаны передавать свою исследовательскую документацию в хранилище PubMed Central Национальной медицинской библиотеки12. В Вели-кобритании Wellcome Trust внедрил подобное требование для получателей их финансирования и создал зеркало хранилища PubMed Central Национальной медицинской библиотеки.

Но Интернет может не только предоставлять доступ к полному тексту ис-следовательской документации. Он может объединить все научные данные со всей литературой для создания среды, где данные и литература взаимодейству-ют друг с другом [Рисунок 3]. Вы можете читать чей-то документ, а затем по-смотреть на исходные данные. Вы даже можете заново провести их анализ. Или же вы можете просматривать какие-то данные, а потом найти всю связанную с ними литературу. Такая возможность увеличит «скорость оборота информации в научных кругах и улучшит научную производительность исследователей. И я уверен, что это было бы исключительно полезно для развития науки.

Возьмем, к примеру, специалиста, работающего на Национальный институт здравоохранения — о котором уже говорил, — который составляет отчет. Пред-положим, он открыл что-то о болезни Х. Вы идете к вашему доктору и говорите: «Доктор, я себя чувствую не очень хорошо». А он отвечает: «Энди, мы проведем группу тестов». И они проводят с вами группу тестов. Он звонит вам на следу-ющий день и говорит: «С вами все в порядке. Примите две таблетки аспирина и

8 www.beowulf.org9 www.cs.wisc.edu/condor10 http://boinc.berkeley.edu11 www.ni.com/labview

12 См. информационный бюллетень Петера Субера из Open Access по текущей ситуации: www.earlham.edu/~peters/fos/newsletter/01-02-08.htm.

Page 9: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XXIXXXVIII

немного отдохните». Вы возвращаетесь через год, и все повторяется. Через три года он звонит и говорит: «Энди, у вас болезнь Х! Мы ее обнаружили!» Вы спра-шиваете: «А что такое Х?» Он говорит: «Я не имею понятия, это очень редкое заболевание, но есть парень в Нью-Йорке, который знает о ней все». Вы заходите в Google13 и вводите все ваши симптомы. На первой странице результатов появ-ляется X. Вы щелкаете по ссылке и попадаете в PubMed Central к заголовку «Все об X». Вы щелкаете по нему, и попадаете на Медицинский журнал Новой Англии (New England Journal of Medicine), где говорится «дайте нам 100 долл., и вы смо-жете прочесть информацию про Х». Вы смотрите и понимаете, что этот парень работает на Национальный институт здравоохранения. Уплаченные вами нало-ги работают. Поэтому Либерман14 и другие говорят: «Это бред. Научная инфор-мация сейчас проверяется коллегами и выставляется на общественный доступ, но только за деньги. С чего бы вдруг? Мы уже заплатили за это».

Научные издания предлагают услугу проверки работ коллегами, печати журнала и распределения информации по библиотекам. Но сегодня Интернет распределяет все относительно бесплатно. Это все связано с тем, что сейчас об-щество проходит этап, где права интеллектуальной собственности заканчивают-ся, не успев начаться. Научная литература, особенно проверенная коллегами, возможно — одно из тех мест, где они заканчиваются. Если вам нужна информа-ция о Х, вы возможно найдете, что для лечения Х очень хорошо подходят перси-ковые косточки. Но эта информация попала сюда не из литературы, проверен-ной научными коллегами, а от продавца персиковых косточек, который хочет,

чтобы вы лечились ими от Х. Поэтому протаптывать тропинку к открытому до-ступу приходится обычным людям, так как качественная информация о здраво-охранении закрыта, а в Интернете доступны непроверенные данные.

НОВАЯ ЦИФРОВАЯ БИБЛИОТЕКА

Как работает новая библиотека? Она бесплатна, потому что в Интернете очень легко разместить страницу или статью. Любой из вас может опубликовать что-то в PubMed Central. Это будет вам стоить всего нескольких тысяч долларов за компьютер — правда, я не знаю, сколько потребуется трафика. Однако кури-рование — удовольствие не из дешевых. Ввод всей информации в компьютер и обеспечение перекрестной индексации стоят Национальной медицинской библиотеке около 100 долларов за курирование каждой отображаемой статьи. Если таких статей за год набирается миллион, что примерно соответствует ожи-даниям, то только на курирование информации потребуется 100 млн долларов. Поэтому нам нужно автоматизировать весь процесс курирования.

Сейчас хранилище PubMed Central, которое является цифровой частью На-циональной медицинской библиотеки, сделало себя мобильным. Существуют версии PubMed Central, которые работают в Великобритании, Италии, ЮАР, Японии и Китае. Британская версия появилась в Интернете на прошлой неделе. Французы, конечно, не хотят, чтобы их Национальная медицинская библиотека находилась в Бетесде, штат Мэриленд, или чтобы она была на английском языке. А англичане не хотят, чтобы тексты были на американском английском, поэтому в версии для Великобритании, в их веб-интерфейсе, скорее всего, будет исполь-зоваться местная орфография. Но в целом вы можете разместить документ в любом из этих архивов, и он появится во всех остальных. Обеспечивать работу этих архивов действительно недорого, но остаются большие задачи в отношении курирования и проверки работ коллегами.

СОВМЕЩЕННЫЕ ЖУРНАЛЫ

Все это может работать на принципе совмещенных журналов. Идея заключает-ся в том, что у вас есть архивы данных и архивы литературы. Статьи хранятся в архивах литературы, а данные — в архивах данных. Далее — есть созданная кем-то система управления журнала, которая позволяет нам, как группе, фор-мировать журнал по вопросу Х. Мы позволяем людям отправлять статьи в наш журнал, сохраняя их в архиве. Мы проводим проверку при помощи коллег, и для тех статей, которые нам понравились, создаем титульную страницу и гово-рим: «Эти статьи нам нравятся», после чего также помещаем ее в архив. Теперь поисковый механизм повышает рейтинг страниц со всеми этими статьями, так как они обновлены этой очень важной титульной страницей. Конечно же, эти статьи также могут указывать на данные. Затем будет система взаимодействия, которая позволит комментировать статьи журнала. Такие комментарии будут

Все научные данные в Интернете• Множество дисциплин пересекаются и используют данные из других отраслей науки

• Интернет может соединить всю литературу и данные

• Переходите от литературы к вычислению данных и обратно к литературе

• Информация доступна каждому и в любом месте

• Повышение скорости научной информации

• Огромное увеличение производительности науки

Извлеченныеи перестроенные данные

Литература

Необработанныеданные

РИСУНОК 3

13 Или, как сказал бы Джим сегодня, Bing.14 Федеральный закон о публичном доступе к исследованиям от 2006 г. (Корнин-Либерман).

Page 10: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XXXIXXX

сохраняться не в архиве, проверенном коллегами, а в другом месте, так как они не проверены — хотя они могут подвергаться модерации.

Национальная медицинская библиотека планирует сделать все это для био-медицинского сообщества, но этого не происходит в других научных сообще-ствах. Для вас, как для членов Совета по компьютерным наукам и телекоммуни-кациям, сообщество компьютерных наук могло бы помочь в этом, предоставив необходимые инструменты для других научных дисциплин.

Мы в Microsoft Research создали программное обеспечение, котороые назы-вается Инструмент управления конференциями (Conference Management Tool, CMT). Мы провели с его помощью около трехсот конференций, и убедились в том, что сервис CMT делает создание конференции обыденной задачей. Инстру-мент поддерживает весь процесс формирования программного комитета, пу-бликации веб-сайта, приемки рукописей, определения конфликтов интересов и самоотвода, проведения обзоров, определения принятых документов, создания программы конференции, уведомления авторов, выполнения редакций и так далее. Сейчас мы работаем над созданием кнопки для отправки статей в arXiv.org или PubMed Central и их вывода на титульную страницу. Теперь мы очень легко можем собирать симпозиумы и конференции. Но также это позволяет нам вести онлайн-журнал. Этот механизм сделает создание совмещенных журналов очень простым.

Кто-то раньше спрашивал, будет ли это трудно для научных изданий. Ответ положительный. Но это будет трудно и для IEEE, и для ACM, не так ли? Дело в том, что научные сообщества испуганы тем, что если у них не будет документа, чтобы отправить вам, вы к ним не присоединитесь. Но, по моему мнению, сво-бодный доступ — только вопрос времени. Я смотрю на зал, и вижу, что большая часть из нас стара, и не относится к поколению Х. Большинство из нас присоеди-няется к этим организациям, так как мы думаем, что это является частью поня-тия профессионала в этой отрасли. Проблема в том, что поколение Х не вступает в организации.

ЧТО ПРОИСХОДИТ С ОБЗОРОМ РАБОТЫ КОЛЛЕГАМИ?

Этот вопрос не относится к вам, но многие спрашивают: «Зачем нам нужен об-зор работ коллегами для всей этой информации? Почему не сделать это в фор-ме вики-страниц?» И, я думаю, ответ здесь в том, что обзор работы коллегами отличается от вики-страниц. Он очень структурированный, он проверяется, и дает степень уверенности в том, о чем говорится. Вики-страницы более уравни-тельные.

Я думаю, есть большой смысл собирать комментарии о литературе после пу-бликации документа. Нужна такая же структура, которую CMT предоставляет для процесса обзора работ коллегами.

ПУБЛИКАЦИЯ ДАННЫХ

Теперь я очень кратко расскажу о публикации данных. Я говорил о публикации литературы, но если ответ — 42, то каковы единицы измерения? Вы собираете какие-то данные в файл в Интернете, но это возвращает нас к проблеме файлов. Важный момент, чтобы показать вам работу в контексте, называется источником данных. Как вы получили число 42?

Вот вымышленный эксперимент. Вы сделали что-то научное, и хотите опу-бликовать это. Как вы опубликуете свою работу, чтобы другие смогли прочесть и повторить ваши результаты через 100 лет? Это сделал Мендель, это сделал Дар-вин, но это редкие примеры. Мы сегодня очень отстаем от Менделя и Дарвина в вопросе техник. Это хаос, и мы должны работать над этой проблемой.

ДАННЫЕ, ИНФОРМАЦИЯ И ЗНАНИЯ: ОНТОЛОГИЯ И СЕМАНТИКА

Мы пытаемся сделать знания предметными. Мы можем помочь с основными во-просами, такими как единицы измерения, что такое измерение, кто проводит измерения и когда они проводятся. Это общие моменты, которые применяют-ся ко всем направлениям. В Microsoft Research мы занимаемся компьютерной наукой. Что мы понимаем под планетой, звездой и галактикой? Это астроно-мия. Что такое ген? Это биология. Но что же такое предмет, что такое атрибут, и какие методы (в объектно-ориентированном смысле) для этих предметов? И обратите внимание, что Интернет уже превращается в объектно-ориентирован-ную систему, где люди выбирают предметы. В мире бизнеса они овеществляют понятие заказчика, выставленного счета и так далее. В науке, например, нам по-добным образом нужно сделать предметным понятие гена — этим занимается GenBank15.

И здесь нужно предупредить, что, двигаясь дальше, мы столкнемся с онто-логией, схемой и управляемыми словарями. То есть двигаясь по этому пути, вы столкнетесь с семантикой, иначе говоря: «А что это значит?» И, безусловно, у каждого есть разное мнение о значении разных понятий, поэтому споры могут быть бесконечными.

Наилучший пример для этого — Entrez16, поисковый механизм для науки о жизни, созданный Национальным центром биотехнологической информации (National Center for Biotechnology Information) для Национальной медицинской библиотеки. Entrez позволяет выполнять поиск литературы в PubMed Central, но, кроме того, в PubMed Central есть и данные филогенеза, есть нуклеотидные последовательности, протеиновые последовательности и их трехмерные струк-туры, а еще в нем есть GenBank. Это на самом деле очень впечатляющая система. Еще там есть база данных PubChem и многое другое. Это все — пример взаимо-действия данных и литературы. Вы можете читать статью, затем перейти к дан-

15 www.ncbi.nlm.nih.gov/Genbank16 www.ncbi.nlm.nih.gov/Entrez

Page 11: Гордон Белл (Gordon Bell) | Microsoft Research Эdownload.microsoft.com/documents/rus/devcenter/Part 0...XII ДЖИМ ГРЕЙ ПРО е-НАУКУ ЧЕТВЕРТАЯ ПАРАДИГМА

ЧЕТВЕРТАЯ ПАРАДИГМАДЖИМ ГРЕЙ ПРО е-НАУКУ XXXIIIXXXII

ным гена, проследить ген до заболевания, вернуться к литературе и так далее. Это очень здорово!

В этом мире у нас традиционно были авторы, издатели, кураторы и потре-бители. В новом мире отдельные ученые могут работать в сотрудничестве, а журналы превращаются в веб-сайты для данных и других подробностей экспе-риментов. Кураторы теперь следят за большими цифровыми архивами, и прак-тически единственное, что осталось без изменения — это ученый. Это очень хо-рошее основательное изменение методов, которыми делается наука.

Одна из проблем состоит в том, что все проекты в определенный момент завершаются, и непонятно, что потом происходит с данными. Есть данные лю-бого масштаба. Есть антропологи, которые собирают информацию и вводят ее в свои ноутбуки. А есть физики, которые изучают элементарные частицы в БАК. Большинство байтов информации высокотехнологичные, а большинство наборов данных — нет. Появляются смешанные данные, где наборы данных из различных мест связаны вместе, образуя третий набор данных. Поэтому в таком же смысле, как архивы для публикаций в журналах, нам требуются архивы для данных.

И вот моя последняя рекомендация для Совета по компьютерным наукам и телекоммуникациям: стимулируйте библиотеки цифровых данных. Откро-венно говоря, цифровая библиотека Национального научного фонда больше относилась к метаданным для библиотек, а не к самим цифровым библиотекам. Мы должны создать настоящие цифровые библиотеки для данных и для лите-ратуры.

РЕЗЮМЕ

Суть моего выступления в том, что практически все, связанное с наукой, изме-няется под воздействием информационных технологий. Экспериментальная, теоретическая и вычислительная наука находятся под шквалом данных, и возни-кает четвертая научная парадигма — научные исследования с использованием большого объема данных. Цель — получить такой мир, где вся научная лите-ратура находится в Интернете, все научные данные находятся в Интернете, и они взаимодействуют друг с другом. Для того, чтобы это произошло, требуется множество новых инструментов.

ПРИМЕЧАНИЯ РЕДАКТОРА

Полную расшифровку слайдов выступления Джима Грея можно найти на веб-сайте Четвертой парадигмы17. В данном тексте отсутствует запись сессии во-просов и ответов, но она доступны на веб-сайте. (Обратите внимание, что авторы вопросов не указаны). Представленный здесь текст был немного отредактиро-

ван для улучшения читаемости, также мы добавили сноски и ссылки, но мы уве-рены, что он сохранил свое соответствие презентации Джима.

ССЫЛКИ

[1] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, no. 5919, pp. 1297–1298, 2009, doi: 10.1126/science.1170411.

[2] J. Wing, «Computational Thinking», Comm. ACM, vol. 49, no. 3, Mar. 2006, doi: 10.1145/1118178.1118215.

[3] NSF Regional Scale Nodes, http://rsn.apl.washington.edu.[4] Large Hadron Collider (LHC) experiments, http://public.web.cern.ch/Public/en/

LHC/LHCExperiments-en.html.[5] BaBar, www.slac.stanford.edu/BFROOT.[6] G. Bell, J. Gray, and A. Szalay, «Petascale Computational Systems», IEEE Computer,

pp. 110–112, vol. 39, 2006, doi: 10.1109/MC.2006.29.

17 www.fourthparadigm.org