Методология

(обновлено: 06.11.2013)
Чтобы разные люди в группе лучше понимали друг друга, необходимо определиться с методологией.

Часто бывает так, что ключевые понятия и определения, коллеги понимают по разному, и, само-собой, на дальнейших этапах обсуждения непонимания только усиливается, т.к. начальные (аксиоматические) термины задают последующие понятия.

Расшифрую основные понятия, и буду в дальнейшем их редактировать по необходимости:

Сигнальный путь — последовательность молекул, посредством которых информация от клеточного рецептора передается внутри клетки.
Сигнал передается от молекулы к молекуле в строго определённом порядке, что и позволяет говорить о сигнальном пути. Большинство сигнальных путей активируются в ответ на внешние по отношению к клетке сигналы, такие как нейротрансмиттеры, гормоны и ростовые факторы. Меньшинство же начинается с сигналов, генерируемых внутри клетки.

В наших исследованиях, мы чаще изучаем сигнальные сети, где начало приходится с сигналов, генерируемых внутри клетки (24/10/2013).

К хорошо изученным сигнальным путям относятся PI3K-, Wnt-, цАМФ- и MAPK-сигнальные пути.
Для простоты: сигнальный путь — линейная последовательность молекул.

Клетка имеет множество сигнальных систем отвечающих на различные внешние или внутренние стимулы. Сигнал от внешних стимулов поступает на клеточные рецепторы, расположенные на мембране клетки.

Внутренний сигнал формируется либо от эндоплазматического ретикулума, либо как результат метаболических процессов внутри клетки.

Эти системы рождают более сложное понятие — генная сеть.

Генная сеть — группа координировано экспрессирующихся генов, их белковых продуктов и микроРНК, контролирующих выполнение определенных функций организма, а также механизмы взаимосвязей между собой .
Работа генной сети регулирует биохимические, физиологические и другие процессы внутри клетки.
Кроме этого, генные сети тесно переплетены между собой и активно влияют на работу друг друга.

"Генная сеть, регулирующая клеточный цикл, представляет собой циклограмму — последовательность событий, результатом которых является возвращение сети в исходное состояние. " (Лаборатория теоретической генетики, Институт цитологии и генетики СО РАН, Новосибирск, "Генные сети" .pdf)
Т.е. в данном случае акцент делается на поддержании клеткой состояния гомеостаза (равновесия).

Коэффициент кластеризации (КК) – отражает степень, насколько узлы графа связаны между собой.

Так, социальные сети обычно имеют тенденцию к высокой кластеризации, т.е. имеют более высокий коэффициент кластеризации. Т.е. вероятность кластеризации выше, чем в случайном графе.

КК базируется на триплетах.

Триплет — три связанных между собой узла. Возможны два варианта триплета: когда все три узла связаны — закрытый триплет, когда связаны только два узла — открытый триплет.

Если пойти дальше, появляется треугольник.

Треугольник — совокупность трех закрытых триплетов, где все узлы связанны между собой.

КК равен: количеству закрытых триплетов (или количеству треугольников помноженному на три) отнесенных к общему количеству триплетов, как открытых, так и закрытых.

Локальный коэффициент кластеризации (ЛКК) вершины в графе показывает, сколько ближайших ее соседей входит в клику (все вершины связаны между собой через одно ребро).

Максимальное число потенциальных (возможных) связей соседей вершины, т.е. максимальное количество связей между набором вершин.

Это число будет равно:

x*(x-1)/2, 
где x — количество вершин.

ЛКК вычисляется как отношение существующих ребер между ближайшими соседями вершины к максимальному числу потенциальных связей.

ЛКК = 2*e/x*(x-1),  
где е — количество существующих ребер между узлами.

Безмасштабная сеть (scale-free network) — граф, в котором значение (количество связей) вершин распределены по степенному закону.

Многие сети являются безмасштабными, например: интернет, молекулярно-генетические взаимодействия, социальные сети, энергетические сети.

Степенное распределение схоже с фрактальной структурой (#todo: конкретизировать).

Чтобы уничтожить такую сеть достаточно быстро, достаточно удалить основные хабы.

На примере генной сети: если мы заблокируем экспрессию основных хабов отвечающих за жизнеспособность, организм погибнет значительно быстрее, нежели если бы мы заблокировали такое же количество слабо-связанных генов ответственных за жизнеспособность.

Возможны случаи ограничения роста количества связей у хабов. Например количество связей изначально жестко ограничено конкретным значением.

Генные сети являются безмасштабными. Иначе это можно записать так:

Взаимодействия выбранного белка с k другими белками/генами имеет степенное распределение:

P(k) ~ k-y, где y ~ 2.5 (<a href = "http://karger.com/Article/Pdf/67642"> [.pdf | karger.com] Modeling of Protein Interaction Networks, 2003</a>)

Богатеют богатые (Rich-Get-Richer) — наиболее связанные узлы (хабы), со временем увеличивают количество связей быстрее, чем менее-связанные узлы. Хороший пример — Интернет: новые веб-страницы чаще ссылаются на существующие веб-страницы уже имеющие большую популярность и много входящих ссылок. (В модели Ердеша-Рейни иной принцип: новые узлы присоединяются случайным образом). (#todo: отдельная публикация про Rich-Get-Richer)

__

Пригодность (значимость) агента молекулярно-генетической сети — способность пролиферировать, эволюционировать и выживать в сложных системах.

Пригодность зависит от многих факторов:

  • долгожительность,
  • быть независимым,
  • иметь много связей,
  • наличие необходимых ресурсов в окружающей среде,
  • инновативность агента,
  • способность к самовостановлению,
  • способность к репродукции,
  • энергоэффективность,
  • адаптивность,
  • крепкость,
  • общая сила,
  • способность к движения,
  • способность чувствовать окружающую реальность (сенсорика)

Хабы обладают большей пригодностью.
Наиболее богаты и хорошо осведомленные (т.е. хабы) способны раньше других узнавать об инновациях и быстро на них реагировать, т.к. есть ресурсы: делать копию продукта, слегка его изменить, выбрать лучшие его функции, адаптировать под рынок, повысить выживаемость. Далее запустить готовый продукт.

Существует предположение, что протеины имеющие схожие последовательности объединяются в общие группы (точнее это уже почти факт). Возможно все эти протеины имели общего предка.

Как это могло быть. Некоторые гены, кодирующие белки, могли дублироваться и у последующих клеток получилось бы два гена, кодирующих одинаковый белок. Со временем в геноме появляются мутации, которые начинают затрагивать и эти гены, т.е. потихоньку кодируемые ими белки начинают различаться. Так получается модель сети дупликации-расхождения.

На генной сети (графе) это будет выглядеть так: два одинаковых узла, имеющих одинаковое количество связей с одинаковыми партнерами.

P – вероятность, что между двумя копиями одного белка образуется взаимодействие. (0,1)
Q – вероятность случайного удаления одного из белков, с которыми связаны две копии (или линка?) (0,7)

Кривая отношения распределяется по закону Ципфа [wikipedia]: отношение логарифма числа связей узла (k) к логарифму ранка этого узла (наиболее связанный хаб будет иметь ранк r = 1, следующий по связности r = 2, и т.д.). Оба распределения (в числителе и знаменатели) имеют степенное распределение.

Т.е. при дупликации, у клона возникают некоторые небольшие мутации (дивергенция). Это могут быть новые взаимодействия с другими белками. Основная идея в том, что эти новые связи, скорей всего образуются с узлами, имеющими наибольшее количество связей (хабами), т.е. здесь работает модель «богатые богатеют» (Rich-Get-Richer) ( [.pdf | karger.com] Modeling of Protein Interaction Networks, 2003)

Мотивы генной сети – небольшие подсети, которые статистически чаще возникают в реальных графах, по сравнению со случайными графами.

Мотивы важны, т.к. они обычно отвечают за значимые функции.

Графлеты являются мотивами в ненаправленных графах.

Три типа узлов в графе (Ma’ayan et al. PNAS 105:19235 (2010):

  • Утопленники (sink) – имеют две входящих связи
  • Источники – имеют две исходящие связи
  • Проходные – имеют одну входящую и одну исходящую связи
  • + Нейтральные – имею ненаправленные связи

В молекулярно-генетических сетях Утопленники и источники преобладают. По мере увеличения сети, их преобладание будет увеличиваться.

Топологические свойства биологических сетей.

В сетях белок-белковых взаимодействий существует два типа хабов: Парти-хыбы (Party hubs) – взаимодействуют со своими партнерами в определенное время и в определенной локализации клетки.
Дейт-хабы (Date hubs) – взаимодействуют со своими партнерами в разное время, в разных местах клетки. Т.е. это многофункциональные белки, с широким диапазоном биологических функций. Это энзимы и киназы (например Актин).

Еще два типа хабов:
Мульти-сайт – это парти-хабы, которые могут взаимодействовать с различными белками лишь один раз.
Сингл-сайт – дейт-хабы, т.е. энзимы

Наибольшее количество негативных обратных связей содержится ближе к мембране. Таким образом клетка отсекает слабые, малозначимые сигналы.

Наибольшее количество позитивных обратных связей содержится глубже, в нескольких шагах сигнального пути от мембраны.

Большинство взаимодействий: прямые физические взаимодействия.

Киназа – (фосфорилирование) –> субстрат

GMT (gene matrix transpose) – представляет собой текстовый формат, в котором хранятся сигнальные пути. Название пути, и список генов, составляющих этот путь. (формат был придуман в Broad Institute)

GSEA – gene set enrichment analyses.

Jaccard index (JI) – определяет сходство между двумя датасетами.
Равен отношение пересечению двух множеств датасетов к их объединению. Диапазон значений JI находится между нулем и единицей.

JI плохо работает, когда вы сравниваете два датасета разной длины.

В этом случае лучше использовать Binominal Proportion Test (BPT).

BPT используется для вычисления z-score (иначе говоря – вероятность) того, что эти два датасета достаточно схожи.

BPT является приближенным «Точным тестом Фишера» (Fisher Exact Test).

Genes2Fans (http://actin.pharm.mssm.edu/genes2FANs/) – можно вбить номер пабмеда, и автоматически получить список генов, которые в нем упомянаются.

Обогащение данных (Enrichment analysis)

Точный тест фишера (Fisher Exact Test / wikipedia) – для определения пересечений между двумя датасетами.

Enrichr – весьма популярный инструмент. Каждый день посетители загружают 100-200 списков генов для анализа. 34 библиотеки в 6 категориях (transcription, pathways, drugs, onthologies, diseases, cell types, miscellaneous) (ноябрь 2013).

Один из способов обнаружения генных сетей по данным генной экспрессии.

Метод Expression2Kinasis.

Метод SILAC позволяет определить различия в фосфорилировании (в реакциях: киназа → субстрат)
Метод определяет изменения в уровне фосфорилировании белков.
Механика: спецефические антитела связываются с сайтами фосфорилирования белков.

Затем помеченные антителами белки вытягиваются для последующего анализа на масс-спектрометре, где определяются последовательности амино-кислот.

KEA: Kinase Enrichmen Analysis (инструмент был добавлен в Enrichr: http://amp.pharm.mssm.edu/Enrichr/)

ChEA: инструмент собирает транскрипционные факторы (только белки, связывающиеся с генами, без учета микроРНК) и их мишени, полученные методом ChIP-X
ChEA содержит данные из 226 публикаций о 202 уникальных факторах транскрипции. Данные по человеку и мыши. Всего получается 468000 взаимодействий, т.е. на один трасфак в среднем приходится около 1300 взаимодействий.

Всего в геноме человека известно около 1500 факторов транксрипции (это без учета микроРНК).

Используя тест Фишера или более сложные методы обогащения данных определяем, какие трансфаки оказывают большее влияние на интересующие нас гены

Expression2Kinasis сочетает в себе три программы: ChEA, Genes2Networks и KEA.

Берем выборку генов с разным уровнем экспрессии (как ап, так и даун). Например гены, скорей всего, связанные с каким-то заболеванием.

Затем определяем факторы транскрипции, которые регулируют эти гены с разным уровнем экспрессии.

CMAP: The Connectivity Map Database. Содержит около 6000 данных экспериментов (чипов) связанных с лечением рака на разных клеточных линиях, с использованием около 1300 лекарств. Большинство из этих лекарств подтверждены FDA.
4 клеточных линии (человек): MCF7, PC3, SKMEL5, HL60.
Механизм: измеряли уровень экспрессии генов, спустя 6 часов.
Использовали лекарства в различных концентрациях.

Что делал Ави: определяли 500 генов которые повышали/понижали уровень экспрессии при каждом лечении с использованием определенного лекарства.

Для определения драгтаргетов, используют DrugBank.

DrugPairSeeker

CMAP: The Connectivity Map Database (Broad Institute).
Классификация пациентов/опухолей по TCGA.

National Cancer Institute (NIH): http://cancergenome.nih.gov/
Содержат данные о тысячах пациентов с разными раками, экспрессионые данные, данные по мутациям и SNP.

Данные по выздоровлению и выживаемости пациентов.

Выявлять критические группы по молекулярным маркерам.

Про лабу Ави:
Видно, что у них наработки каждого инструмента, будь то алгоритмы или интерфейсная часть – по возможности используются во всех остальных продуктах. Кроме этого, создаются инструменты, сочетающие в себе несколько более ранних инструментов объединенных вместе, например три инструмента в одном (Expression2Kinasis), последовательно анализируют введенные гены.

Add new comment

Filtered HTML

  • Web page addresses and e-mail addresses turn into links automatically.
  • Allowed HTML tags: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Lines and paragraphs break automatically.

Plain text

  • Web page addresses and e-mail addresses turn into links automatically.
  • Lines and paragraphs break automatically.
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
4 + 4 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.