Тезисы с конференции "Геномное секвенирование 2013"

Некоторые тезисы и комментарии по прошедшей 16 мая 2013 года конференции: "Геномное секвенирование 2013" в ИБХ РАН. (http://www.ngsconference.ru/)

Во-первых, хочется отметить, что в нашей стране подобная конференция проводится впервые. Возможно проводились ранее небольшие семинары или менее специализированные конеренции, но чтобы на целый день, с большим количеством докладчиков из разных организаций -- да, наверное впервые.

Во-вторых, впечатлили докладчики и их уровень -- сразу захотелось верить в российскую науку и самому в ней полноценно участвовать. Повторю: докладов было очень много -- все очень интересные и основаны на большой проделанной работе больших коллективов.

Два доклада прошли от ученых из штатов (оба из России), через skype. За что им отдельное спасибо, т.к. для них это было раннее утро.

Очень понравилось, как Денис Ребриков модерировал конференцию. Докладчиков было очень много, у каждого было максимум 20 минут на доклад -- многие не рассчитывали свои выступления на столь короткий диапазон. Тем не менее Денис четко и ненавязчиво координировал докладчиков и все успели выступить в указанное время, конференция закончилась вовремя.

На конференции в моменте было 170 человек (если в ротации, то всего на конференции побывало слегка за 200 человек, зарегистрировалось он-лайн около 230 человек).

Факт 1: Стоимость секвенирования генома падает. Причем с конца 2007 года падение стало более резким и обогнало закон мура:


График с сайта: http://www.genome.gov

Но, как видно из графика, за последний год цена почти не изменилась.

Тем не менее на рынке сейчас множество сильных конкурентов, у каждого из которых появляются новые технологии и модели секвенаторов. Что, несомненно, будет влиять на дальнейшее снижение стоимости секвенирования генома.

Пожалый самый важный тезис, который упомянали многие докладчики, и который логически следует:
Тезис 1: Анализ данных полученных после секвенирования будет забирать основные ресурсы (денежные, временные, человеческие)

Многие, кто не знаком с генетичеким секвенированием, считают, что самое сложное это именно сам процесс секвенирования. И действительно, в самом начале это действительно было так, точнее даже вначале не думали об анализе полученных данных (ну хоршо -- серьезно не задумывались). И вот мы получили первый геном человека, все довольны -- но стойте, а что дальше? А дальше оказалось самое интересное, таинственное и сложное -- проанализировать, что же у нас получилось. Сейчас все, кто тем или иным способом связаны с секвенированием генома понимают: что анализ полученных данных становится самым важным и значимым аспектом во всем процессе.

С другой стороны, есть вот такой интересный график:

Что, на мой взгляд, также подтверждает важность анализа данных.

На конференции присутствовали большинство представителей (дистрибьютеров) основных производителей оборудования для секвенирования:

  • Life Techologies
  • Хеликон
  • Roche

К сожалению не было доклада Ильи Демина (ООО "ИнтерЛабСервис"): "NGS от Illumina".

Еще некоторые тезисы (что-то очевидно, но постоянно актуально):
"99% онко-мутаций являютяс заменами. Именно SNPs приводят к раку (а не инсерции и делеции)"
"Нельзя лечить всех пациентов по единой схеме"
"Нужно брать индивидуальные особенности опухоли"
"Контролируйте ваши данные, не дайте данным контролировать вас!"

Наиболее интересной мне секцией была: "Стратегии анализа данных масштабного секвенирования для различных приложений":

Первым вытупал Сергей Науменко с факультета биоинформатики и биоинженерии МГУ имени М.В.Ломоносова: "Центр обработки данных NGS: архитектура и программные решения".

Проблема: есть много-много сырых данных -- что с ними делать!

Задача:
прием сырой даты
первичная обработка
сборка геномов и транскриптомов и т.д.

Многие говорят: давайте перенесем инфраструктуру в облако.

Но так просто все не получается: большой секвинатор производит огромное количество данных (не так просто закачивать их в облако, хотя реально порциями, тем более, некоторые секвинаторы позволяют загружать дату порциями, даже когда они еще находятся в процессе секвенирования)

Короче: все упирается в big data.

Создание ЦОВ -- кто будет проектировать систему?

Необходима огромная работа по проектированию сисетмы (анализ конфигураций и т.д.).

Создать анализ требований, архитектуру, список оборудования, затем формируется тех задание.

За рубежом обычно есть посредник -- фирма, которая берет на себя эту работу.

"Ученый и поставщик по отдельности это сделать не могут" -- надо действовать сообща. Только так. Вообще есть достаточно большая пропасть непонимания между поставщиком и ученым. Между програмистами и биологами. И даже между биоинформатиками и програмистами.

Значит надо быть сразу и биологом и програмистом и биоинформатиком. Не умеешь -- учисть, только так.

Стандартная ситуация распределенного суперкомпьютера:
много ядер
мало оперативки
небольшое хранилище (для задач секвенирования такой вариант не подходит)

Что нужно: центр обработки данных.

Для задач секвенирование должно соблюдатья соотношение: количество серверов сопоставимо с количеством хранилищ

Возникают вопросы:
кто будет устанавливать софт?
кто будет администрировать сисетму?

Как налаживать взаимодействия между биологами и айти-спецами -- вечный вопрос

Электричество, как правило, могут спокойно выключить без предупреждения. Значит необходимы мощные бесперебойники.

Кроме того -- важно охлаждение. (вроде вопрос простой, но на эти грабли наступали и страдали очень многие)

Сервер -- 1Тб памяти (около 1 млн рублей).

Лучше взять два сервера 48 ядер -- вместо одного 80ядерного. Цена раза в два дешевле, в производительности много не теряем.

По софту:
Мониторинг -- nagios
Управление ресурсами -- torque

Что нужно для глобальных задач:
несколько серверов с большой памятью -- 1Тб
fiber channel -- гибкое подключение дисков
дешевые диски

Чудаков: "любой может зайти по адресу, который я не написал"

Ссылки:
http://knomics.ru/ -- Поддержка биомедицинских исследований проводимых с использованием Омных технологий (протеомика, геномика, транскриптомика, метаболомика).
http://roche-applied-science.ru
http://postparser.net -- анализ данных нгс (картировать референсные геномы и сравнивать их по аннотациям)
http://oncofinder.com -- продолжение (анализ диф генов и межклеточных сигнальных путей)
http://main.g2.bx.psu.edu -- galaxy project
http://ponkc.com -- первый онкологический научно-технический центр
http://nmetr.pparser.net (биолог может получить доступ к данным -- отобрать нужные данные, комментировать)
http://metagenome.ru -- изучают микрофлору здорового населения и сравнивают
http://agroatlas.ru -- интересно
http://unipro.ru -- Основанный в 1992 году, Новосибирский центр информационных технологий «УниПро» предоставляет услуги по разработке, тестированию и сопровождению заказного программного обеспечения. (например, сделали uGene)

Add new comment

Filtered HTML

  • Web page addresses and e-mail addresses turn into links automatically.
  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Lines and paragraphs break automatically.

Plain text

  • Web page addresses and e-mail addresses turn into links automatically.
  • Lines and paragraphs break automatically.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
9 + 5 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.