Новый путь для науки?download.microsoft.com/documents/rus/devcenter... ·...

4
НАУЧНАЯ ИНФРАСТРУКТУРА ЧЕТВЕРТАЯ ПАРАДИГМА 111 Новый путь для науки? Н аучные задачи 21 века усилят партнерство прави- тельства, индустрии и науки, которое образовалось и вызрело за последние сто лет или около того. На- пример, в США, начиная с образования Националь- ного научного фонда (National Science Foundation) в 1950 г., система национальных исследовательских университетов расцвела и сегодня доминирует в сегменте фундаментальных исследований. (Сегмент прикладных исследований, намного больший по размеру, изначально финансировался и внедрял- ся в частном секторе.) Успешность этой системы преувеличить невозможно, но в основном она работает в пределах отдельных научных дис- циплин и поощряет усилия отдельных ученых при помощи публикаций, продвижения и должностей в образовательных учреждениях. Кроме того, вечное «беспокойство» системы означает, что исследователи постоянно ищут новые идеи и новые пути финансирования [1, 2]. Неожиданным результа- том работы этой системы является растущий разрыв между предложением научных знаний и спросом на такие знания со стороны частного и государственного секторов [3, 4]. Вну- тренняя система поощрений в университетах, а также систе- ма обзора работ коллегами, предпочитает исследовательские проекты, имеющие непосредственный интерес для научного сообщества, но не обязательно находящиеся вне академиче- ских кругов. НОВЫЕ ДВИЖИТЕЛИ Пришло время заново изучить базовые структуры нашего ме- ханизма исследований. Например, с учетом острой необходи- мости в новых методах для исследования климата и энергии в контексте рационального использования природных ресур- МАРК Р. ЭББОТТ (MARK R. ABBOTT) Университет штата Орегон (Oregon State University)

Upload: others

Post on 14-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Новый путь для науки?download.microsoft.com/documents/rus/devcenter... · 2018-12-05 · струментов, веб-инструментов, а также при

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 111НАУЧНАЯ ИНФРАСТРУКТУРА110

Новый путь для науки?

Научные задачи 21 века усилят партнерство прави-тельства, индустрии и науки, которое образовалось и вызрело за последние сто лет или около того. На-пример, в США, начиная с образования Националь-

ного научного фонда (National Science Foundation) в 1950 г., система национальных исследовательских университетов расцвела и сегодня доминирует в сегменте фундаментальных исследований. (Сегмент прикладных исследований, намного больший по размеру, изначально финансировался и внедрял-ся в частном секторе.)

Успешность этой системы преувеличить невозможно, но в основном она работает в пределах отдельных научных дис-циплин и поощряет усилия отдельных ученых при помощи публикаций, продвижения и должностей в образовательных учреждениях. Кроме того, вечное «беспокойство» системы означает, что исследователи постоянно ищут новые идеи и новые пути финансирования [1, 2]. Неожиданным результа-том работы этой системы является растущий разрыв между предложением научных знаний и спросом на такие знания со стороны частного и государственного секторов [3, 4]. Вну-тренняя система поощрений в университетах, а также систе-ма обзора работ коллегами, предпочитает исследовательские проекты, имеющие непосредственный интерес для научного сообщества, но не обязательно находящиеся вне академиче-ских кругов.

НОВЫЕ ДВИЖИТЕЛИ

Пришло время заново изучить базовые структуры нашего ме-ханизма исследований. Например, с учетом острой необходи-мости в новых методах для исследования климата и энергии в контексте рационального использования природных ресур-

МАРК Р. ЭББОТТ (MARK R. ABBOTT) Университет штата Орегон (Oregon State University)

висе информации по нуклеотидным последовательностям. В 3-й части этой кни-ги в качестве параметра оценки для различных научных предметных областей используется область генетического секвенирования, где скорость производства данных очень высокая (в данном случае прирост на 200% в год), что приводит к большим изменениям в объединении, процессах, резервном копировании, архивировании, качестве и сохранении данных, и это далеко не все отдельные направления.

Ларус (Larus) и Гэннон (Gannon) вселяют оптимизм, отмечая, что объемы данных легко поддаются обработке при использовании многоядерных техно-логий — конечно же, при условии, что мы сможем разработать новые модели программирования и абстракции, чтобы сделать такие технические инновации эффективными в многоцелевых приложениях для научных исследований.

Затем мы снова вернемся к метафоре катастрофы, вызванной приливом дан-ных, когда Гэннон и Рид (Reed) будут обсуждать, как параллельность и облако могут помочь с проблемами масштабируемости определенных классов вычис-лительных задач.

Отсюда мы переходим к роли инструментов компьютерных процессов для управления ключевыми задачами в шквале данных. Гобл (Goble) и Де Рур (De Roure) определяют преимущества и задачи, связанные с применением вычисли-тельных процессов к научным исследованиям и совместной работе. В конечном счете они отмечают, что процессы иллюстрируют первичность метода как важ-нейшей технологии в исследованиях с фокусом на данные.

Фокс (Fox) и Хендлер (Hendler) видят «семантическую е-Науку» как очень важный элемент в интерпретации взаимосвязей сложных концепций, терми-нов и данных. После объяснения потенциальных преимуществ семантических инструментов в исследованиях с фокусом на данные они исследуют отдельные задачи для их плавного внедрения. Они отмечают нестандартное участие науч-ного сообщества в разработке требований, а также нехватку согласованного об-суждения применимости семантических веб-технологий к научному процессу.

Далее Хансен (Hansen) и другие приводят четкое описание препятствий для визуализации крупных и сложных наборов данных. Они рассматривают зна-комые темы процесса, масштабируемости, производительности приложения, источников и взаимодействия пользователя, но с точки зрения визуализации. Они отмечают, что текущие методы анализа и визуализации намного отстают от наших возможностей создания данных, и приходят к выводу о необходимости междисциплинарных навыков для решения различных задач, таких как авто-матическая интерпретация данных, неопределенность, сводные визуализации, проверки и подтверждения.

Завершая наше путешествие сквозь опасности и возможности, Парастатидис (Parastatidis) рассматривает проблему реализации расширенной исследователь-ской инфраструктуры, основанной на знаниях. Он считает, что такая возмож-ность появится при объединении традиционных научных компьютерных ин-струментов, веб-инструментов, а также при выборе семантических методов.

Page 2: Новый путь для науки?download.microsoft.com/documents/rus/devcenter... · 2018-12-05 · струментов, веб-инструментов, а также при

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 113112

по асинхронному соединению RS-232, модему или гигабитной ЛВС, стоит ли на рабочем столе ученого графический терминал VT100 или современная многоя-дерная рабочая станция. Доступ к виртуализированным (но распределенным) хранилищам данных и вычислительным возможностям через сеть возможен при помощи относительно маломощных устройств.

С момента создания EOSDIS закон Мура действует уже 25 лет. Хотя в общем мы наблюдаем фокус на повышении производительности и стремительном со-кращении соотношения цены и производительности, темп быстрых технологи-ческих инноваций создал огромное давление на традиционные методы проведе-ния научных исследований. Огромные количества данных в значительной мере сократили ценность их отдельного элемента, и мы уже ограничены не данными, а способностью их понимания. «Большое количество данных» должно относить-ся не только к централизованным хранилищам, но также и к намного большим объемам данных, доступных по сети в офисах, лабораториях, домах, а также по-

сов, фундаментальное исследование глобальной системы климата сохраняет свою актуальность, но представители бизнеса и разработчики политик задают вопросы, которые намного более междисциплинарны, чем ранее. Такой новый метод более схож с разработкой сценария в поддержку оценки и управления рисками, чем с традиционным решением проблем и погоней за знаниями ради знаний.

В науке о климате спрос нацелен на обратную связь между изменением климата и социоэкономическими процессами, редкие (но очень действенные) события, а также разработку адаптивных политик и протоколов управления. Сторона предложения науки предпочитает исследования физических и биоло-гических аспектов климатической системы в континентальном или глобальном масштабе, а также сокращение неопределенности (например, [5]). Такое несоот-ветствие спроса и предложения нарушает возможность общества эффективно и своевременно реагировать на изменяющийся климат.

ПОСЛЕДНЯЯ ИСТОРИЯ

Инфраструктура информационных технологий (ИТ) 25-летней давности хоро-шо подходила для состояния науки того времени. Объемы данных были относи-тельно небольшими, и поэтому каждый их элемент был драгоценным. ИТ-систе-мы были достаточно дорогими и доступными только для экспертов. Основной процесс был связан с системой сбора данных (например, лаборатория или поле-вые датчики), перемещением в систему хранения, обработкой и анализом дан-ных, их визуализацией и публикацией.

На рисунке 1 показана архитектура информационной системы для систе-мы обзора Земли (Earth Observing System Data and Information System, EOSDIS) NASA конца 1980-х годов. Хотя многие считают, что EOSDIS была слишком ам-бициозной (она планировалась в расчете на 1 терабайт данных в день), основ-ной аргумент против нее заключался в том, что она слишком централизована для системы, которая должна управляться наукой. EOSDIS должна была стать фабрикой данных, работающей с набором четких требований с небольшой воз-можностью вливания знаний или технологии. В конечном счете спор был не о централизованности или децентрализованности, а о том, кто будет управлять требованиями: научное сообщество или подрядчик NASA. Базовая архитекту-ра, с хорошо определенными (и относительно умеренными) потоками данных, а также смесью централизованных и распределенных компонентов, осталась без изменений, даже при том, что Интернет и объемы онлайн-данных выросли в геометрической прогрессии.

СЕГОДНЯШНИЙ ДЕНЬ

Сегодня набор национальных центров суперкомпьютеров, особенно с появле-нием «облачных вычислений», выглядит очень похожим на архитектуру, пока-занную на рисунке 1. Не имеет значения, выполняется ли подключение к сети

Внешние/внутренниепользователи

Клиент

Внешние источники данных

Удаленные сервера данных

Мультимедийноераспространение

Поглощениеданных

Обработкаданных

Поискпоставщика

сервиса

Advertisements

Поиски доступк данным

Прямой доступ

Поиск и доступ

к данным

Поглощенныеданные

Входящие и исхо-дящие данные

Выданные запросы

Доступность данных

Распределенныйпоиск

Сервер данныхEOSDIS

РекламаРазмещение рекламы

ПланированиеПланы

Информация словарей

Другие веб-сайты

Другие веб-сайты

Коллекции данных

Управлениелокальной системой Информация

по управлениюсистемой

РИСУНОК 1.

Информационная система для системы обзора Земли (EOSDIS) NASA — план 1989 г.

Page 3: Новый путь для науки?download.microsoft.com/documents/rus/devcenter... · 2018-12-05 · струментов, веб-инструментов, а также при

ЧЕТВЕРТАЯ ПАРАДИГМАНАУЧНАЯ ИНФРАСТРУКТУРА 115114

Вместо хорошо определенных сетей и фабрик данных, объединенных с ин-дивидуальной системой публикации, опирающейся на обзор работ коллегами и систему авторских прав, этот новый метод исследований будет более свободным и менее прогнозируемым, по своему подходу к выявлению знаний напоминая экосистему. Таким образом, он предусматривает свободные сети потенциаль-ных услуг, быстрые инновации, и намного более тесное сотрудничество между теми, кто создает знания, и теми, кто их использует. Как и в любой экосистеме, появляющееся (а иногда и непрогнозируемое) поведение будет доминирующей характеристикой.

Наши существующие институты — включая федеральные агентства и ис-следовательские университеты — будут озадачены этими новыми структура-ми. Физическая структура университета или миллионы долларов федераль-ных грантов не будут требоваться для доступа к данным и вычислениям, как и к новым партнерам. Более того, строгость штатных должностей и их четкая фокусировка на личных достижениях в отдельной научной дисциплине могут работать против этих новых методов. Нам нужна организация, которая объеди-няет естественные науки с социоэкономикой, балансирует науку и технологию, фокусируется на системном мышлении, поддерживает гибкие междисципли-нарные методы для решения проблем в долговременной перспективе, интегри-рует создание и использование знаний, а также выравнивает индивидуальные и групповые достижения.

Такая новая организация может открыть интегрированные методы для устойчивого развития в будущем, которые будут направлены на понимание все-го многообразия вариантов будущего развития. Она будет фокусироваться на процессах глобального масштаба, заявленных на региональном уровне с четки-ми социально-экономическими последствиями. В отличие от традиционной ака-демической организации с ее относительно статическим набором профессор-ских должностей, новая организация сможет принимать на себя больше рисков, создавать и развивать новые партнерства, и привлекать талантливых специали-стов для решения конкретных задач. Мы соберем людей со всего мира, как в фильме «Миссия невыполнима», для решения конкретных проблем — в данном случае, вопросов изменения климата.

КАК ЭТО СДЕЛАТЬ

Как сегодняшние информационные технологии могут поддержать этот новый тип организации и новый тип науки? В эру EOSDIS предполагалось, что реля-ционные базы данных дадут основные сервисы, необходимые для управления большими объемами данных, поступающих со спутников системы обзора Земли. Технология баз данных не охватывает инновации системы, которой управляется наука, хотя она и дала основные сервисы для стандартных продуктов информа-ции системы обзора Земли. Сегодня семантически структурированные сети и онтологии предлагаются в качестве средства поддержки обнаружения знаний и взаимодействия. Однако, как и в случае с базами данных, возможно, что научное

средством датчиков и портативных устройств. Поэтому вычисления с использо-ванием большого количества данных должны рассматриваться, как нечто боль-шее, чем просто возможность хранения и перемещения более крупных объемов данных. Сложность этих новых наборов данных и увеличивающееся разнообра-зие таких потоков данных делает традиционную вычислительную модель с цен-тром обработки данных устаревшей для современных научных исследований.

ПОСЛЕДСТВИЯ ДЛЯ НАУКИ

Информационные технологии влияют на научное сообщество двумя способа-ми. Во-первых, они привели к массовости хранилищ данных и вычислительных мощностей. Такие сервисы являются разумным вариантом для научных задач, которые могут выполняться при помощи стандартных сервисов. Всегда намно-го экономичнее использовать низкодоходные и объемные сервисы при помощи централизованных механизмов, таких как облачные вычисления. Поэтому все больше университетов полагаются на такие сервисы для резервного копирова-ния данных, электронной почты, приложений для повышения производитель-ности офиса и других задач.

Второй путь, которым ИТ влияет на научное сообщество, — это радикальная персонализация. Имея персональный доступ к терафлопам вычислений и тера-байтам хранилищ, ученые могут создавать свои собственные вычислительные облака. Инновации и новые научные сервисы приходят из сетей, а не из управ-ляемых продуктами центров обработки данных. Более того, вскоре не только ученые, но огромное количество датчиков и лабораторных приборов будут под-ключены к Интернету со своими собственными локальными сервисами вычис-ления и хранения. Задача заключается в использовании мощности этой новой сети массивно распределенных сервисов знаний.

Сегодня научные открытия происходят не только за счет хорошо определен-ного и оживленного процесса тестирования гипотез. Большие объемы данных, комплексные и сложные в обнаружении взаимосвязи, интенсивность и смеще-ние взаимодействия дисциплин, а также новые типы публикации практически в реальном времени добавляют в научные методы обнаружение шаблонов и правил [6]. Мы можем увидеть схождение этого нового типа исследований с ис-пользованием большого количества данных и нового поколения возможностей информационных технологий, особенно в сфере науки о климате и связанных с ней политик.

Выравнивание спроса и предложения в науке в контексте продолжающейся научной неопределенности будет зависеть от поиска новых связей, преодолева-ющих языковые и культурные барьеры для возможности взаимодействия, и объ-единения моделей и данных для оценки сценариев. Этот процесс больше похож на сетевые игры, чем на традиционный научный метод. Для охвата важных эле-ментов сохранения данных, взаимодействия, источников и отчетности в крайне распределенном и насыщенном данными исследовательском сообществе требу-ются новые методы.

Page 4: Новый путь для науки?download.microsoft.com/documents/rus/devcenter... · 2018-12-05 · струментов, веб-инструментов, а также при

НАУЧНАЯ ИНФРАСТРУКТУРА

ЧЕТВЕРТАЯ ПАРАДИГМА 117НАУЧНАЯ ИНФРАСТРУКТУРА116

КРИСТОФЕР САУТЕН (CHRISTOPHER SOUTHAN) ГРЭМ КЭМЕРОН (GRAHAM CAMERON) Европейская лаборатория молекулярной биологии (European Molecular Biology Laboratory, EMBL) — Европейский институт биоинформатики (European Bioinformatics Institute, EBI)

За пределами цунами: Разработка

инфраструктуры для данных наук о жизни

Научные революции трудно оценить, но скорость по-явления новых данных в науке увеличилась настоль-ко, что для оценки величины этого эффекта на все сферы достаточно изучить отдельную сферу наук о

жизни. На рисунке 1 на следующей странице иллюстрирует-ся огромное увеличение количества индивидуальных основа-ний, переданных мировым сообществом экспериментаторов в Базу данных по нуклеотидным последовательностям Евро-пейской лаборатории молекулярной биологии1 (EMBL-Bank). Количество поданной информации сейчас растет со скоро-стью 200% в год.

Опекунство над информацией выполняет Международ-ное партнерство по базам данных нуклеотидных последо-вательностей (International Nucleotide Sequence Database Collaboration, INSDC), которое состоит из японского банка данных ДНК (DNA Data Bank of Japan, DDBJ), GenBank в США и EMBL-Bank в Великобритании. Эти три хранилища обмени-ваются данными ежедневно. В мае 2009 г. общее количество составляло около 250 млрд баз в 160 млн записей.

Недавно переданный в EMBL-Bank документ под номе-ром FJ982430 иллюстрирует скорость образования данных и эффективность мировой инфраструктуры биоинформатики в ответ на кризис здоровья. Он содержит полную последова-

сообщество будет неохотно использовать эти сложные инструменты в любых на-правлениях, кроме наиболее обыденных задач.

Наконец, цифровые технологии могут предоставить только относительно ограниченные описания всего богатства и комплексности реального мира. Кро-ме того, для поиска необычного и неожиданного требуется креативность и оза-рения — процессы, которые сложно представить в жесткой цифровой системе. С другой стороны, простое применение основанных на использовании стати-стических корреляций, подобных PageRank1, не обязательно приведет к обна-ружению редкого и неожиданного. Однако новые ИТ-инструменты для мира, использующего большое количество данных, могут предоставить возможность «фильтрования» таких объемов данных до управляемого уровня, а также сер-висы визуализации и представления для упрощения получения креативных от-крытий и построения партнерских отношений.

Архитектура для вычислений с использованием большого количества дан-ных должна основываться на сервисах хранения, вычисления и представления в каждом узле взаимосвязанной сети. Предоставление стандартных систем с воз-можностью расширения, включающих в себя инновации, должно поддерживать формирование и развитие таких «экосистем» знаний с изменением науки о кли-мате и связанных с ней политик.

ССЫЛКИ

[1] D. S. Greenberg, Science, Money, and Politics: Political Triumph and Ethical Erosion. Chicago: University of Chicago Press, 2001.

[2] National Research Council, Assessing the Impacts of Changes in the Information Technology R&D Ecosystem: Retaining Leadership in an Increasingly Global Environment. Washington, D.C.: National Academies Press, 2009.

[3] D. Sarewitz and R. A. Pielke, Jr., «The neglected heart of science policy: reconciling supply of and demand for science», Environ. Sci. Policy, vol. 10, pp. 5—16, 2007, doi: 10.1016/ j.envsci.2006.10.001.

[4] L. Dilling, «Towards science in support of decision making: characterizing the supply of carbon cycle science», Environ. Sci. Policy, vol. 10, pp. 48—61, 2007, doi: 10.1016/j.envsci.2006.10.008.

[5] Intergovernmental Panel on Climate Change, Climate Change 2007: The Physical Science Basis. New York: Cambridge University Press, 2007.

[6] C. Anderson, «The End of Theory», Wired, vol. 16, no. 7, pp. 108—109, 2008.

1 Основной алгоритм поискового механизма Google. 1 www.ebi.ac.uk/embl