ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ЦЭМИ РАН |
||
В последние годы благодаря совершенствованию экспериментальных технологий наметилась долгожданная конвергенция методов структурной биологии и методов геномики в изучении организации хроматина на молекулярном уровне. Благодаря успехам крио-электронной микроскопии, мы получаем все больше информации о структуре не только нуклеосом, но и супрануклеосомных структур, а благодаря развитию методов геномики и 3-D геномики все более высокого разрешения, стало возможным определять контакты между локусами ДНК с суб-нуклеосомным разрешением (в частности, методы Micro-C, Micro-C-XL и др.) и определять положение и состав нуклеосом вдоль генома (напр. методы MNase-seq, MNase-ChIP-seq). Возникает необходимость в интерпретации экспериментальных данных и построении физических молекулярных моделей укладки хроматина на супрануклеосомном уровне с учетом реальных геометрических и топологических параметров молекул белков и ДНК, а также динамического характера этих взаимодействий. Решению данного спектра задач и посвящен этот проект. Нами будут разработаны и усовершенствованы оригинальные методы моделирования укладки хроматина на супрануклеосомном уровне, учитывающие топологию, хиральность и кручение молекул ДНК, взаимодействие различных типов нуклеосом между собой, а также их взаимодействия с ядерным микроокружением. Будут разработаны подходы по интеграция различных типов геномных данных суб-нуклеосомного разрешения (Micro-C, MNase-seq, MNase-ChIP-seq и т.д.) в методы построения моделей укладки хроматина. На основе разработанных подходов по экспериментальным данным будут построены структурно-динамические модели укладки хроматина на супрануклеосомном уровне и изучена вариабельность структуры хроматина. Будет проанализирована связь получаемых моделей структуры хроматина с различными эпигенетическими характеристиками геномных локусов и сформулированы выводы о вероятной взаимосвязи между супрануклеосомной структурой и функцией различных областей хроматина. Аналогичные подходы будут применены для изучения изменений в состоянии хроматина в различных типах клеток.
In recent years, due to the improvement of experimental technologies, the long-awaited convergence of structural biology methods and genomics methods in the study of chromatin organization at the molecular level has emerged. Thanks to the success of cryo-electron microscopy, we are receiving more and more information about the structure of not only nucleosomes, but also of supranucleosome structures, and thanks to the development of genomics and 3-D genomics of higher resolution, it has become possible to determine the contacts between DNA loci with sub-nucleosomal resolution (in particular, Micro-C, Micro-C-XL methods, etc.) and determine the position and composition of nucleosomes along the genome (e.g., MNase-seq, MNase-ChIP-seq). There is a need to interpret the experimental data and build physical molecular models of chromatin folding at the supranucleosome level, taking into account the real geometric and topological parameters of protein and DNA molecules, as well as the dynamic nature of these interactions. This project is dedicated to solving this spectrum of problems. We will develop and improve original methods for modeling chromatin folding at the supranucleosome level, taking into account the topology, chirality and twisting of DNA molecules, the interaction of different types of nucleosomes with each other, as well as their interaction with the nuclear microenvironment. Approaches will be developed for integrating various types of subnucleosome resolution genomic data (Micro-C, MNase-seq, MNase-ChIP-seq, etc.) into methods for constructing chromatin folding models. Based on the developed approaches, experimental and structural data will be used to construct structural-dynamic models of chromatin folding at the supranucleosomal level and to study the variability of the chromatin structure. We will analyze the relationship of the obtained chromatin structure models with various epigenetic characteristics of genomic loci and draw conclusions about the likely relationship between the supranucleosome structure and the function of different chromatin regions. Similar approaches will be applied to study the changes in chromatin states in various types of cells.
В результате проекта будут достигнуты следующие результаты: 1. Разработаны алгоритмы мультимасштабного молекулярного моделирования нуклеосомных фибрилл с учетом топологии ДНК и структуры нуклеосом на атомистическом уровне. Предлагаемые к разработке алгоритмы позволят быстро генерировать различные структуры нуклеосомных фибрилл с атомистической точностью, осуществлять поиск оптимальных конформаций или ансамблей конформаций с учетом задаваемых энергетических функций взаимодействия частей системы и различных дополнительных целевых функций на конформацию системы. 2. Разработаны подходы интегративного моделирования структуры и динамики нуклеосомных фибрилл на основе анализа экспериментальных данных 3-D геномики и геномики субнуклеосомного разрешения и их молекулярная интерпретация. Разработанные алгоритмы моделирования фибрилл будут адаптированы для поиска конформаций фибрилл, удовлетворяющих экспериментальным данным о контактах между различными нуклеосомами, определение которых стало недавно возможным с помощью методов класса Micro-C. Отдельной подзадачей будет непосредственный анализ и фильтрация сырых данных Micro-C, а также разработка способов представления определяемых “контактов” в виде физически осмысленных ограничений на положения отдельных компонент моделируемых фибрилл на молекулярном уровне. В дополнение к использованию данных Micro-C, для моделирования реалистичных упаковок нуклеосом будут привлекаться данные методов MNase-seq и MNase-ChIP-seq, которые позволяют определять положения нуклеосом на ДНК, а также наличие гистоновых вариантов и пост-трансляционных модификаций на нуклеосомах. 3. Разработанные методов интегративного моделирования супрануклеосомной структуры хроматина будут применены для анализа экспериментальных данных 3-D геномики и геномики субнуклеосомного разрешения. Разработанные методы и алгоритмы будут применены к реальным экспериментальным данным для анализа строения хроматина на супрануклеосомном уровне. Будут проанализированы получающиеся модели укладки нуклеосом, их вариация и гетерогенность в геноме для клеточных линий различных организмов. 4. Будет изучена взаимосвязь структуры хроматина и его эпигенетических параметров. Будет проанализирована взаимосвязь между получаемой с помощью наших подходов супрануклеосомной структурой хроматина и наличием различных эпигенетических модификаций нуклеосом по экспериментальным данным (различные посттрансляционные модификации гистонов, нуклеосомы с вариантными гистонами, метилирование ДНК). Поскольку различные эпигенетические метки коррелируют с функциональной ролью участков хроматина (напр. области активной экспрессии, области наличия энхансеров и т.д.) данный анализ также поможет пролить свет на функциональную значимость различных типов укладок нуклеосом.
Библиотеки PyNAMod, разработанная нами, позволяет генерировать пространственные модели фрагментов ДНК на основе ее представления в виде параметров, задающих взаимное расположение пар оснований относительно друг друга (base pair step parameters: Tilt, Roll, Twist, Shift, Rise, Slide). С применением этой библиотеки на данный момент можно генерировать предварительные модели хроматиновых фибрилл случайной конформации, путем соединения фиксированных нуклеосомных коров фрагментами линкерной ДНК с произвольным изгибом. На Рис.10 изображена фибрилла в огрубленном приближении (нуклеосомный кор изображается шариком, а пары оснований ДНК прямоугольниками) длиной 3600 нуклеосом. Также на Рис. 8 изображены вычисленная по данной конформации карта контактов. Наша библиотека позволяет легко и достаточно быстро пересчитывать пространственную конформацию фибриллы. Пока это делается случайным образом. Случайная эволюция прямой конформации фибриллы, получающийся в результате случайного поворота нуклеосом относительно друг друга, представлена по ссылке https://intbio.org/PyNAMod/fiber_collapse.html На основании этого задела в Задаче 1.1. нами будут разработаны реалистичные методы моделирования фибрилл с учетом углов входа/выхода ДНК в нуклеосомы, возможного откручивания ДНК от нуклеосомного кора, перемещения нуклеосом вдоль по ДНК и т.д.
грант РФФИ |
# | Сроки | Название |
1 | 2 декабря 2019 г.-30 ноября 2020 г. | Интегративное моделирование укладки нуклеосом в хроматине на основе данных Micro-C. Год 1. |
Результаты этапа: Разработаны программные модули, реализующие алгоритмы быстрой генерации огрубленных и атомистических структур нуклеосомных фибрилл. Для этого был реализован объектный интерфейс Fiber для библиотеки PyNaMod. Разработанный интерфейс позволяет быстро генерировать фибриллы произвольной длины на основании нуклеосом, загружаемых из базы данных PDB. Загрузка и обработка структур нуклеосом при этом происходит в автоматическом режиме. При генерации фибриллы определяется нуклеотидная последовательность и геометрия ДНК для нуклеосом разных типов (разных структур в банке данных), определяется положение диадной нуклеотидной пары. Параметры ДНК для фибрилл производятся путем объединения геометрических параметров для спрямленной ДНК (ДНК в B форме) и загруженных нуклеосом. Разработанный модуль был использован для создания конформационных выборок нуклеосомных фибрилл из продолжительных траекторий молекулярной динамики в опубликованной в ходе выполнения проекта работе в журнале Nature Communications [1]. Такой подход позволил оценить влияние изменений на уровне одиночных нуклеосом на конформацию и макроскопические характеристики целых фибрилл (Рисунок 2). Было показано, что конформационная подвижность концов нуклеосомальной ДНК, ее дыхание, играет важную роль в структуре хроматиновых фибрилл. Для обработки, анализа данных Micro-C в различных форматах и их последующей интеграции с данными о локализации нуклеосом и эпигенетическими данными нами на сервере newton.bioeng.ru была организована и настроена система, состоящая из различных фреймворков и программ, включая уникальные, написанные нами. Насколько нам известно из анализа научной литературы, на сегодняшний день созданная нами система -- единственная из существующих систем для обработки данных 3D-геномики, которую можно использовать для интеграции Micro-C и MNase-seq данных. Условно созданную нами систему можно разделить на четыре модуля: модуль обработки данных Micro-C, модуль обработки данных MNase-seq и ChIP-seq, модуль интеграции данных Micro-C с данными MNase-seq и ChIP-seq, модуль статистического анализа полученных интегрированных данных. Помимо функционала, ассоциированного с соответствующими модулями, наша система может трансформировать данные о локализации нуклеосом и числе контактов между ними, полученные при интеграции данных Micro-C и MNase-seq, в набор параметров и переменных (в частности -- в физические расстояния между нуклеосомами), необходимых для реконструкции супрануклеосомной структуры хроматина с помощью разработанного нашей научной группой ранее программного пакета для молекулярного моделирования -- Pynamod. Этап перехода от частот взаимодействий локусов в трехмерной структуре хроматина к физическим расстояниям между ними является необходимой стадией интегративного моделирования организации хроматина на основе данных Hi-C (Micro-C). Модуль для обработки MNase-seq, ChIP-seq данных представляет собой разработанное нами ПО, позволяющее: из данных о нуклеосомной занятости (occupancy), представленных непрерывным сигналом MNase-seq, получать данные о позиционировании нуклеосом, представленные координатами нуклеосомных диад, а из данных ChIP-seq, представленных непрерывным сигналом, получать данные о локализации пиков. Функциональные характеристики организованной и настроенной нами системы обработки данных Micro-C подразумевают возможность создания простейшей модели нуклеосомной хроматиновой фибриллы. В ходе данного этапа нами была разработана оригинальная программа, объединяющая данные Micro-C и данные позиционирования нуклеосом. Она позволяет получать приблизительное, но целостное представление о взаимоположении нуклеосом в трехмерном пространстве ядра и специфике их локализации на линейном пространстве фибриллы. Такое представление -- набор позиций нуклеосом и данные о контактах между ними -- является по сути простой, статической, но интегративной моделью нуклеосомной хроматиновой фибриллы. Для получения более полного представления о компактизации хроматина и связанной с ней регуляции транскрипции на супрануклеосомном уровне необходимо добавлять к данным о взаиморасположении нуклеосом в пространстве данные об их эпигенетическом статусе -- наличии определенных меток, модификаций гистоновых хвостов. Модуль разработанной нами системы, позволяющий обрабатывать MNase-seq данные, позволяет также обрабатывать ChIP-seq (включая MNase-ChIP-seq) данные, а модуль интегрирующий MNase-seq и Micro-C данные также обеспечивает возможность аннотации нуклеосомных контактных карт избранными эпигенетическими метками. | ||
2 | 1 декабря 2020 г.-1 декабря 2021 г. | Интегративное моделирование укладки нуклеосом в хроматине на основе данных Micro-C. Год 2. |
Результаты этапа: В ходе работы нами были получены реконструкции супрануклеосомной структуры хроматина второй хромосомы пекарских дрожжей S. сerevisiae. спользуя разработанную нами систему, мы интегрировали эти данные, получив в итоге контактные карты, содержащие в себе позиции нуклеосом. На основании этих контактных карт в разработанном нашей научной группой программном пакете для молекулярного моделирования Pynamod были построены модели некоторых участков хромосомы II. На основании нуклеосомных карт мы построили распределения числа контактов нуклеосом в соответствии с их относительными позициями - то есть было рассчитано, сколько суммарно контактов у нуклеосом со следующей нуклеосомой (N+1), со следующей за следующей (N+2) и так далее. Исходя из этих распределений можно выдвигать гипотезы о геометрии супрануклеосомной фибриллы. Полученное нами распределениемонотонно и быстро убывает, этот результат согласуется с литературными данными и может интерпретироваться как указание на то, что дрожжевой хроматин на супрануклеосомном уровне относительно релаксирован и не имеет ни глобальной, ни локальной регулярной структуры. По этой причине, получившиеся модели участков хромосомы слабо упорядочены. Для того, чтобы сравнить различия в укладке хроматина в разных областях генома S.cerevisiae были выбраны 2 локуса хромосомы II приблизительно одного размера и с одинаковым числом нуклеосом, но с разным профилем контактов (см. Рисунок 4 АБ). Локус 1 от 425000 нп до 435000 нп, Локус 2 от 200000 нп до 211000 нп. Получившиеся модели не отличались высоким уровнем структурированности и обе напоминали модель полимерной глобулы, несмотря на различия в изначальных профилях. Однако модель первого локуса была более рыхлой и имела большее число удаленных друг от друга нуклеосом, чем модель второго локуса. В ходе работы нами были получены реконструкции супрануклеосомной структуры хроматина 22 хромосомы человека клеточной линий HeLa, являющейся моделью малигнизированной ткани, и hESC, представляющей здоровую (но малодифференцированную) ткань. Используя разработанную нами систему, мы интегрировали эти данные, получив нуклеосомные контактные карты. На основании этих контактных карт в разработанном нашей научной группой программном пакете для молекулярного моделирования Pynamod была получена модель участка нуклеосомной фибриллы, образованной 22 хромосомой. Для участков, на которые были картированы положения нуклеосом были рассчитаны распределения числа контактов нуклеосом в соответствии с их относительными позициями. Другими исследователями в работе Hsieh et al., 2020 было показано, что распределение контактов в эмбриональных стволовых клетках M.musculus соответствует модели зигзага, двухстартовой спирали -- для тетрануклеосомных участков фибрилл. Однако в полученном нами для эмбриональных стволовых клеток человека распределении контактов паттерна соответствующего модели двухстартовой фибриллы не наблюдается, что может указывать либо на недостаточную воспроизводимость результатов из работы Hsieh et al., 2020, либо на существующий среди млекопитающих полиморфизм супрануклеосомной структуры хроматина. Однако в полученных нами моделях наблюдается частичное структурирование хроматина в регулярные петли (см рисунок 5 Б, петли указаны стрелками). При этом по сравнению с распределением контактов, полученном нами для S.cerevisae, распределение для hESC убывает медленнее, что может свидетельствовать о большей конденсированности хроматина человека. Для того, чтобы сравнить различия в укладке хроматина в разных областях генома человека были выбраны 2 локуса хромосомы 22 приблизительно одного размера и с одинаковым числом нуклеосом (см Рисунок 6). Локус 1 от 31605000 нп до 31635000 нп, Локус 2 от 32315000 нп до 32345000 нп. В отличие от моделей, разработанных для дрожжевого генома, модели локусов человеческого хроматина отличаются большей структурированностью. Для анализа вариабельности супрануклеосомной структуры хроматина в зависимости от различных параметров -- эпигенетических меток и тканеспецифичности -- были выбраны Micro-C, MNase-seq и ChIP-seq данные для клеточных линий hESC и HeLA. Для получения информации о распределении эпигенетических меток использовались ChIP-seq данные о модификациях гистоновых хвостов в клеточных линиях hESC и HeLA -- H3K9me3, H3K4me3, H3K4me1. В ходе работы нами были получены нуклеосомные контактные карты 22 хромосомы, каждый бин на которых был проаннотирован эпигенетическими метками H3K9me3, H3K4me3, H3K4me1. В работе Hsieh et al., 2020 были описаны микроТАДы - структурно-регуляторные единицы 3D-генома, образующиеся при сближении в процессе выпетливания (loop extrusion) промоторов с другими промоторами (“P-P link”) или энхансерами (“E-P link”) и их изоляции в отдельном компартменте с помощью инсуляторных комплексов, включая когезин и CTCF-белки. В полученных нами для здоровых (не малигнизированных) клеток моделях супрануклеосомной структуры хроматина наблюдались глобулярные образования по масштабам сопоставимые с микроТАДами, однако для подтверждения гипотезы о соответствии обнаруженных нами глобулярных структур микроТАДам, описанным в работе Hsieh et al., 2020, было необходимо установить функциональные эпигенетически характеристики этих структур. Необходимая информация была получена в результате проведенной нами аннотации эпигенетическими метками нуклеосомных контактных карт. Было показано, что уровень метилирования H3K4me3, ассоциированный с промоторами, и H3K4me1, ассоциированный с энхансерами, коррелирует с плотностью близких нуклеосомных контактов и пики сигнала данных эпигенетических меток солокализованы в районе паттернов, которые мы интерпретировали как микроТАДЫ и которые в наших молекулярных моделях соответствуют глобулярным структурам (см. Рисунок 8). Таким образом с помощью эпигенетической аннотации мы показали, что обнаруженные нами “микроТАДы” являются зонами пространственного сближения промоторов и энхансеров и, таким образом, скорее всего, действительно соответствуют описанным в работе Hsieh et al., 2020 структурам. Стоит отметить, что результаты этой работы относятся к хроматину M.musculus - таким образом в нашей работе впервые показано наличие таких структур у человека. Для анализа супрануклеосомной структуры хроматина в зависимости от различных факторов были выбраны данные экспериментов для двух клеточных линий (hESC, hELA) одного вида (H.sapiens) и одной клеточной линии (дикий тип) другого вида (S.cerevisiae). Сравнительный анализ распределения числа контактов нуклеосом в соответствии с их относительными позициями для нуклеосомных контакт карт 22 хромосомы клеток из линий HeLa и hESC человека и второй хромосомы клеток S.cerevisiae дикого типа позволяет выдвигать гипотезы о структурных различиях организации супрануклеосомного хроматина в зависимости от типа клеток (“тканевой специфики”) и их видовой принадлежности. Сопоставительный анализ распределения частот относительный нуклеосомных контактов для 22 хромосомы клеточных линиях HeLa и hESC показал, что хроматин в малигнизированных клетках HeLa значительно менее конденсирован, чем в “здоровых”, хотя и малодифференцированных эмбриональных стволовых клеток hESC. Данные результаты дополнительно подтверждаются полученными нами с помощью программного пакета Pynamod молекулярными моделями нуклеосомных фибрилл. Полученные нами результаты показывают, что в опухолевых клетках по сравнению со здоровыми клетками компартментализация нарушается и на супрануклеосомном уровне -- в полученных моделях видно, что в отличие от hESC в хроматине клеток HeLa теряется тенденция нуклеосомной фибриллы образовывать глобулярные структуры, соответсвующие, как мы предполагаем, микроТАДАм, описанным в Hsieh et al., 2020. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".