Интегративное моделирование укладки нуклеосом в хроматине на основе данных Micro-CНИР

Integrative modeling of nucleosome packing in chromatin based on Micro-C data

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 2 декабря 2019 г.-30 ноября 2020 г. Интегративное моделирование укладки нуклеосом в хроматине на основе данных Micro-C. Год 1.
Результаты этапа: Разработаны программные модули, реализующие алгоритмы быстрой генерации огрубленных и атомистических структур нуклеосомных фибрилл. Для этого был реализован объектный интерфейс Fiber для библиотеки PyNaMod. Разработанный интерфейс позволяет быстро генерировать фибриллы произвольной длины на основании нуклеосом, загружаемых из базы данных PDB. Загрузка и обработка структур нуклеосом при этом происходит в автоматическом режиме. При генерации фибриллы определяется нуклеотидная последовательность и геометрия ДНК для нуклеосом разных типов (разных структур в банке данных), определяется положение диадной нуклеотидной пары. Параметры ДНК для фибрилл производятся путем объединения геометрических параметров для спрямленной ДНК (ДНК в B форме) и загруженных нуклеосом. Разработанный модуль был использован для создания конформационных выборок нуклеосомных фибрилл из продолжительных траекторий молекулярной динамики в опубликованной в ходе выполнения проекта работе в журнале Nature Communications [1]. Такой подход позволил оценить влияние изменений на уровне одиночных нуклеосом на конформацию и макроскопические характеристики целых фибрилл (Рисунок 2). Было показано, что конформационная подвижность концов нуклеосомальной ДНК, ее дыхание, играет важную роль в структуре хроматиновых фибрилл. Для обработки, анализа данных Micro-C в различных форматах и их последующей интеграции с данными о локализации нуклеосом и эпигенетическими данными нами на сервере newton.bioeng.ru была организована и настроена система, состоящая из различных фреймворков и программ, включая уникальные, написанные нами. Насколько нам известно из анализа научной литературы, на сегодняшний день созданная нами система -- единственная из существующих систем для обработки данных 3D-геномики, которую можно использовать для интеграции Micro-C и MNase-seq данных. Условно созданную нами систему можно разделить на четыре модуля: модуль обработки данных Micro-C, модуль обработки данных MNase-seq и ChIP-seq, модуль интеграции данных Micro-C с данными MNase-seq и ChIP-seq, модуль статистического анализа полученных интегрированных данных. Помимо функционала, ассоциированного с соответствующими модулями, наша система может трансформировать данные о локализации нуклеосом и числе контактов между ними, полученные при интеграции данных Micro-C и MNase-seq, в набор параметров и переменных (в частности -- в физические расстояния между нуклеосомами), необходимых для реконструкции супрануклеосомной структуры хроматина с помощью разработанного нашей научной группой ранее программного пакета для молекулярного моделирования -- Pynamod. Этап перехода от частот взаимодействий локусов в трехмерной структуре хроматина к физическим расстояниям между ними является необходимой стадией интегративного моделирования организации хроматина на основе данных Hi-C (Micro-C). Модуль для обработки MNase-seq, ChIP-seq данных представляет собой разработанное нами ПО, позволяющее: из данных о нуклеосомной занятости (occupancy), представленных непрерывным сигналом MNase-seq, получать данные о позиционировании нуклеосом, представленные координатами нуклеосомных диад, а из данных ChIP-seq, представленных непрерывным сигналом, получать данные о локализации пиков. Функциональные характеристики организованной и настроенной нами системы обработки данных Micro-C подразумевают возможность создания простейшей модели нуклеосомной хроматиновой фибриллы. В ходе данного этапа нами была разработана оригинальная программа, объединяющая данные Micro-C и данные позиционирования нуклеосом. Она позволяет получать приблизительное, но целостное представление о взаимоположении нуклеосом в трехмерном пространстве ядра и специфике их локализации на линейном пространстве фибриллы. Такое представление -- набор позиций нуклеосом и данные о контактах между ними -- является по сути простой, статической, но интегративной моделью нуклеосомной хроматиновой фибриллы. Для получения более полного представления о компактизации хроматина и связанной с ней регуляции транскрипции на супрануклеосомном уровне необходимо добавлять к данным о взаиморасположении нуклеосом в пространстве данные об их эпигенетическом статусе -- наличии определенных меток, модификаций гистоновых хвостов. Модуль разработанной нами системы, позволяющий обрабатывать MNase-seq данные, позволяет также обрабатывать ChIP-seq (включая MNase-ChIP-seq) данные, а модуль интегрирующий MNase-seq и Micro-C данные также обеспечивает возможность аннотации нуклеосомных контактных карт избранными эпигенетическими метками.
2 1 декабря 2020 г.-1 декабря 2021 г. Интегративное моделирование укладки нуклеосом в хроматине на основе данных Micro-C. Год 2.
Результаты этапа: В ходе работы нами были получены реконструкции супрануклеосомной структуры хроматина второй хромосомы пекарских дрожжей S. сerevisiae. спользуя разработанную нами систему, мы интегрировали эти данные, получив в итоге контактные карты, содержащие в себе позиции нуклеосом. На основании этих контактных карт в разработанном нашей научной группой программном пакете для молекулярного моделирования Pynamod были построены модели некоторых участков хромосомы II. На основании нуклеосомных карт мы построили распределения числа контактов нуклеосом в соответствии с их относительными позициями - то есть было рассчитано, сколько суммарно контактов у нуклеосом со следующей нуклеосомой (N+1), со следующей за следующей (N+2) и так далее. Исходя из этих распределений можно выдвигать гипотезы о геометрии супрануклеосомной фибриллы. Полученное нами распределениемонотонно и быстро убывает, этот результат согласуется с литературными данными и может интерпретироваться как указание на то, что дрожжевой хроматин на супрануклеосомном уровне относительно релаксирован и не имеет ни глобальной, ни локальной регулярной структуры. По этой причине, получившиеся модели участков хромосомы слабо упорядочены. Для того, чтобы сравнить различия в укладке хроматина в разных областях генома S.cerevisiae были выбраны 2 локуса хромосомы II приблизительно одного размера и с одинаковым числом нуклеосом, но с разным профилем контактов (см. Рисунок 4 АБ). Локус 1 от 425000 нп до 435000 нп, Локус 2 от 200000 нп до 211000 нп. Получившиеся модели не отличались высоким уровнем структурированности и обе напоминали модель полимерной глобулы, несмотря на различия в изначальных профилях. Однако модель первого локуса была более рыхлой и имела большее число удаленных друг от друга нуклеосом, чем модель второго локуса. В ходе работы нами были получены реконструкции супрануклеосомной структуры хроматина 22 хромосомы человека клеточной линий HeLa, являющейся моделью малигнизированной ткани, и hESC, представляющей здоровую (но малодифференцированную) ткань. Используя разработанную нами систему, мы интегрировали эти данные, получив нуклеосомные контактные карты. На основании этих контактных карт в разработанном нашей научной группой программном пакете для молекулярного моделирования Pynamod была получена модель участка нуклеосомной фибриллы, образованной 22 хромосомой. Для участков, на которые были картированы положения нуклеосом были рассчитаны распределения числа контактов нуклеосом в соответствии с их относительными позициями. Другими исследователями в работе Hsieh et al., 2020 было показано, что распределение контактов в эмбриональных стволовых клетках M.musculus соответствует модели зигзага, двухстартовой спирали -- для тетрануклеосомных участков фибрилл. Однако в полученном нами для эмбриональных стволовых клеток человека распределении контактов паттерна соответствующего модели двухстартовой фибриллы не наблюдается, что может указывать либо на недостаточную воспроизводимость результатов из работы Hsieh et al., 2020, либо на существующий среди млекопитающих полиморфизм супрануклеосомной структуры хроматина. Однако в полученных нами моделях наблюдается частичное структурирование хроматина в регулярные петли (см рисунок 5 Б, петли указаны стрелками). При этом по сравнению с распределением контактов, полученном нами для S.cerevisae, распределение для hESC убывает медленнее, что может свидетельствовать о большей конденсированности хроматина человека. Для того, чтобы сравнить различия в укладке хроматина в разных областях генома человека были выбраны 2 локуса хромосомы 22 приблизительно одного размера и с одинаковым числом нуклеосом (см Рисунок 6). Локус 1 от 31605000 нп до 31635000 нп, Локус 2 от 32315000 нп до 32345000 нп. В отличие от моделей, разработанных для дрожжевого генома, модели локусов человеческого хроматина отличаются большей структурированностью. Для анализа вариабельности супрануклеосомной структуры хроматина в зависимости от различных параметров -- эпигенетических меток и тканеспецифичности -- были выбраны Micro-C, MNase-seq и ChIP-seq данные для клеточных линий hESC и HeLA. Для получения информации о распределении эпигенетических меток использовались ChIP-seq данные о модификациях гистоновых хвостов в клеточных линиях hESC и HeLA -- H3K9me3, H3K4me3, H3K4me1. В ходе работы нами были получены нуклеосомные контактные карты 22 хромосомы, каждый бин на которых был проаннотирован эпигенетическими метками H3K9me3, H3K4me3, H3K4me1. В работе Hsieh et al., 2020 были описаны микроТАДы - структурно-регуляторные единицы 3D-генома, образующиеся при сближении в процессе выпетливания (loop extrusion) промоторов с другими промоторами (“P-P link”) или энхансерами (“E-P link”) и их изоляции в отдельном компартменте с помощью инсуляторных комплексов, включая когезин и CTCF-белки. В полученных нами для здоровых (не малигнизированных) клеток моделях супрануклеосомной структуры хроматина наблюдались глобулярные образования по масштабам сопоставимые с микроТАДами, однако для подтверждения гипотезы о соответствии обнаруженных нами глобулярных структур микроТАДам, описанным в работе Hsieh et al., 2020, было необходимо установить функциональные эпигенетически характеристики этих структур. Необходимая информация была получена в результате проведенной нами аннотации эпигенетическими метками нуклеосомных контактных карт. Было показано, что уровень метилирования H3K4me3, ассоциированный с промоторами, и H3K4me1, ассоциированный с энхансерами, коррелирует с плотностью близких нуклеосомных контактов и пики сигнала данных эпигенетических меток солокализованы в районе паттернов, которые мы интерпретировали как микроТАДЫ и которые в наших молекулярных моделях соответствуют глобулярным структурам (см. Рисунок 8). Таким образом с помощью эпигенетической аннотации мы показали, что обнаруженные нами “микроТАДы” являются зонами пространственного сближения промоторов и энхансеров и, таким образом, скорее всего, действительно соответствуют описанным в работе Hsieh et al., 2020 структурам. Стоит отметить, что результаты этой работы относятся к хроматину M.musculus - таким образом в нашей работе впервые показано наличие таких структур у человека. Для анализа супрануклеосомной структуры хроматина в зависимости от различных факторов были выбраны данные экспериментов для двух клеточных линий (hESC, hELA) одного вида (H.sapiens) и одной клеточной линии (дикий тип) другого вида (S.cerevisiae). Сравнительный анализ распределения числа контактов нуклеосом в соответствии с их относительными позициями для нуклеосомных контакт карт 22 хромосомы клеток из линий HeLa и hESC человека и второй хромосомы клеток S.cerevisiae дикого типа позволяет выдвигать гипотезы о структурных различиях организации супрануклеосомного хроматина в зависимости от типа клеток (“тканевой специфики”) и их видовой принадлежности. Сопоставительный анализ распределения частот относительный нуклеосомных контактов для 22 хромосомы клеточных линиях HeLa и hESC показал, что хроматин в малигнизированных клетках HeLa значительно менее конденсирован, чем в “здоровых”, хотя и малодифференцированных эмбриональных стволовых клеток hESC. Данные результаты дополнительно подтверждаются полученными нами с помощью программного пакета Pynamod молекулярными моделями нуклеосомных фибрилл. Полученные нами результаты показывают, что в опухолевых клетках по сравнению со здоровыми клетками компартментализация нарушается и на супрануклеосомном уровне -- в полученных моделях видно, что в отличие от hESC в хроматине клеток HeLa теряется тенденция нуклеосомной фибриллы образовывать глобулярные структуры, соответсвующие, как мы предполагаем, микроТАДАм, описанным в Hsieh et al., 2020.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".