Главная страница
qrcode

Отчетная работа по биоинформатике


НазваниеОтчетная работа по биоинформатике
Дата21.05.2020
Размер4.93 Mb.
Формат файлаdocx
Имя файлаkursovaya.docx
ТипОтчет
#69422
Каталог

Министерство здравоохранения Российской Федерации

Волгоградский государственный медицинский университет

Кафедра фармакологии и биоинформатики

Отчетная работа по биоинформатике:

“Тирозинкиназа JAK1. Сравнение аминокислотных последовательностей тирозинкиназы JAK1 человека и других животных. Сравнение 3D-модели тирозинкиназы JAK1 человека с наименее похожим животным.”

Выполнила:
Студентка 2 курса 3 группы
Лечебного факультета
Кеба В.С.
Проверил:
Захарьящева О. Ю.

Волгоград 2020г

Оглавление













Биоинформа́тика — совокупность методов и подходов, включающих в себя:
математические методы компьютерного анализа в 
  • разработку алгоритмов и программ для предсказания пространственной структуры биополимеров (
  • исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем.
    В биоинформатике используются методы 
    Наиболее часто используемыми инструментами и технологиями в этой области являются языки программирования 
    Целью биоинформатики является, как накопление биологических знаний в форме, обеспечивающей их наиболее эффективное использование, так и построение и анализ математических моделей биологических систем и их элементов.

    Задачи:

    - Разработка алгоритмов для анализа биологических данных большого объема:
    Алгоритм поиска генов в геноме;
  • Анализ и интерпретация различных типов биологических данных таких, как нуклеотидные и аминокислотные последовательности, домены белков, структура белков и т.д.:
    - Изучение структуры активного центра белка;

    - Разработка программного обеспечения для управления и быстрого доступа к биологическим данным:

    - Создание банка данных аминокислотных последовательностей.

    Таким образом, основными задачами биоинформатики являются: распознавание белок-кодирующих участков в первичной структуре биополимеров, сравнительный анализ первичных структур биополимеров, расшифровка пространственной структуры биополимеров и их комплексов,
    пространственное сворачивание белков, моделирование структуры и динамики биомакромолекул, а также создание и сопровождение специализированных баз данных.


    В конце 60-х – начале 70-х годов прошлого века ЭВМ стали активно применяться в биологии: к этому времени возросла их память, увеличилась скорость операций, уменьшились размеры. И к тому же накопилось большое количество экспериментальных данных по биологии, требующих осмысления и обработки. Например, уже к 2003 г. объединенными усилиями ученых многих стран был в общих чертах прочитан геном человека.

    Таким образом, на стыке XX-го и XXI-го веков появилась бурно развивающаяся область биомедицинской науки биоинформатика, которой к настоящему времени насчитывается уже около 30 лет. Биоинформатика обязана своим появлением накоплению обширных экспериментальных данных. Особенно заметно это накопление стало проходить в 70-х гг. XX-го века. Информации, получаемой в биологических экспериментах, было значительно больше, чем возможности человека к запоминанию фактов и их анализу. Возникла необходимость хранения все быстрее увеличивающегося объема информации. Первые несколько сотен расшифрованных последовательностей белков были опубликованы в виде книги-атласа. Однако уже в начале 70-х г. число расшифрованных последовательностей возросло настолько, что из-за их объема оказались невозможными публикации в виде книг. Стало понятно, что нужны специальные программы для сравнения последовательностей, поскольку мозг человека не справляется с анализом такой информации.

    В 90-е годы происходит расцвет геномики. К настоящему времени расшифрованы полные геномные последовательности человека, мыши, цыпленка, лягушки, отдельных видов рыб, круглых червей, нескольких сотен вирусов и бактерий и т.д. Прочтение генома бактерии – это теперь задача, посильная для группы из 2–3 исследователей за время, меньшее, чем один год. Геном человека составляет около 3-х миллиардов букв, что эквивалентно 15000 книжных томов. А значение факта его «прочтения» для биологов сравнимо с открытием Д.И. Менделеевым периодического закона для химиков.

    Поэтому для обработки такой обширной биологической информации на помощь пришли компьютерные технологии. Первый алгоритм выравнивания генных последовательностей был предложен еще в 1970 г. Компьютеры позволили хранить информацию в виртуальных банках данных и оперировать ею с большой скоростью. Биоинформатика, как и многие другие современные науки, развивается на стыке разных наук: молекулярной биологии, генетики, математики и компьютерных технологий. Основная ее задача – разработка вычислительных алгоритмов для анализа и систематизации данных о структуре и функциях биологических молекул, прежде всего нуклеиновых кислот и белков.

    Объем генетической информации, накапливаемый в банках данных, начал увеличиваться с возрастающей скоростью после того, как были разработаны быстрые методы секвенирования (расшифровки) нуклеотидных последовательностей ДНК. Достижения информатики, лингвистики и теории информации сделали возможным анализ генетических текстов. Взаимосвязанное развитие биоинформатики с другими областями науки позволяет рассчитывать на формирование нового уровня понимания биологических процессов, происходящих в клетках и организмах.


    Основные разделы биоинформатики в зависимости от исследуемых объектов:

    1) Биоинформатика последовательностей. Этот раздел биоинформатики занимается анализом нуклеотидных и белковых последовательностей. В настоящее время разработаны эффективные экспериментальные методы определения нуклеотидных последовательностей. Определение нуклеотидных последовательностей стало рутинной хорошо автоматизированной процедурой. В результате рутинной хорошо автоматизированной процедуры уже получено огромное количество генетических текстов. Так, в базе данных EMBL на 15.02.2007 год хранится 87 000 493 документов с описанием нуклеотидных последовательностей, содержащих в целом 157545686001 символов (нуклеотидов), что соответствует примерно библиотеке в 105 толстых томов с убористым шрифтом. Найти нужный ген в EMBL, это все равно, что найти цитату в такой библиотеке. Без помощи компьютера сделать это очень трудно. А число данных экспоненциально растет.

    Сравнение последовательностей (выравнивание) является важнейшей задачей биоинформатики. Трудно найти современного биолога, ни разу не использовавшего программы Blastp и ClustalX, появление этих программ – уже крупный успех биоинформатики. Но современные биоинформатики недовольны и постоянно совершенствуют методы выравниваний.

    Подводя итог, можно сказать, что основные задачи биоинформатики, связанные с анализом отдельных последовательностей, состоят в следующем:

    • Выравнивание и определение сходства двух последовательностей;

    • Построение множественных выравниваний;

    • Распознавание генов;

    • Предсказание сайтов связывания регуляторных белков;

    • Предсказание вторичной структуры РНК.

    2) Структурная биоинформатика. Каждый белок, помимо своей уникальной последовательности аминокислот, из цепочки которых состоит его молекула, обладает ещё и уникальным способом укладки этой цепочки в пространстве. Задачу предсказания укладки по последовательности можно, в принципе, тоже считать задачей биоинформатики, но это задача в своём общем виде ещё слишком далека от своего решения. Поэтому структурная биоинформатика занимается анализом пространственных структур, уже определённых экспериментально.

    Примеры задач структурной биоинформатики:

    • Определение участков белковой молекулы, важных для той или иной функции данного белка;

    • Сравнительный анализ структур родственных белков, классификация белков на основе их пространственной структуры;

    • Анализ структур комплексов двух или нескольких молекул белка, комплексов молекул белка с другими молекулами; предсказание воздействия молекул химических веществ на молекулы белков;

    • Предсказание структуры белка по структуре белка с похожей последовательностью.

    3) Компьютерная геномика. В настоящее время определены полные или почти полные последовательности геномов многих организмов. Прочтение полной нуклеотидной последовательности какого-либо генома не является самоцелью. На самом деле это является первым шагом для исследования того, как функционирует та или иная клетка. Исследование геномов бактерий проводится для того, чтобы исследовать метаболизм бактерий и, в случае патогенных организмов, найти потенциальные мишени для лекарств. С другой стороны, изучение геномов может позволить найти новые метаболические пути или ферменты, которые будут применены в биотехнологическом производстве (например, витаминов). В течение как минимум полувека сотни лабораторий исследовали кишечную палочку (E.coli). Но даже такой весьма изученный организм имеет как минимум 25% абсолютно не охарактеризованных генов.

    Экспериментальное определение функции только одного гена требует интенсивной работы одной лаборатории как минимум в течение нескольких месяцев. Компьютерный же анализ позволяет с известной степенью точности охарактеризовать несколько тысяч генов силами небольшой группы примерно за неделю. Разумеется, компьютерный анализ не исключает экспериментальную проверку, однако в этом случае экспериментальная работа существенно упрощается. Компьютерный анализ геномов состоит из следующих основных элементов:

    • Предсказание генов в последовательностях;

    • Предварительная аннотация по сходству и другим особенностям белковых последовательностей;

    • Сравнительный анализ геномов;

    • Исследование регуляции работы генов;

    • Поиск «пропущенных» генов;

    • Исследование транспортеров (генов, обеспечивающих перенос питательных веществ в клетку, и выброс вредных веществ из клетки).

    С другой стороны биоинформатику можно условно разделить на несколько направлений в зависимости от типа решаемых задач:
    Применение известных методов анализа для получения новых биологических знаний;
  • Разработка новых методов анализа биологических данных;
  • Разработка новых баз данных.
    Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

    Подводя итоги, можно сказать, что основными разделами биоинформатики являются:
    математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика);
  • разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика);
  • исследование стратегий, соответствующих вычислительных методологий;
  • общее управление информационной сложности биологических систем;










    Поиск происходит в несколько этапов:
    В поисковую строку вносим название необходимого белка
    Перед нами появляется список организмов, в организмах которых содержится этот белок
  • Открываем ссылку, относящуюся к человеческому белку. Опускаемся до пункта Sequence (+1) перед нами открываестся FASTA – аминокислотная последовательность данного белка у конкретного вида. Нажимаем на кнопку FASTA.

    4. После нажатия кнопки FASTA открывается страница с последовательностью аминокислот, представленной в буквенной форме.


    5.Данный текст копируется в блокнот и сохраняется. Так же находятся фасты еще 20 различных животных. В исследовании используются фасты только позвоночных животных (кроме приматов)!


    Множественное выравнивание последовательностей (multiple sequence alignment) это выравнивание трех и более биологических последовательностей, обычно белков, ДНК, или РНК. В большинстве случаев выравнивание производится специальными программами (например ClustalW, Muscle, MAFFT). На вход эти программам полаются биологические последовательности, которые предполагаются гомологичными, то есть произошедшими из общего предка посредством мутаций. Выравнивание помогает сделать явной гомологию входных последовательностей, выделить их консервативные участки, провести филогенетический анализ. Для проведения полного анализа используются программные платформы, например, UGENE.

    Сравнение проводится в программе ClustalX2.

    Скачанные фасты мы попарно сравниваем с фастой человека. Происходит это таким образом:

    1)Загружаем фасту одного из животных с помощью File→Load Sequaences

    2)Загружаем фасту человека с помощью функции File→Append Sequaences

    3)Нажимаем Alignment→Do complite alignment

    4)Получаем сравнение двух аминокислотных последовательностей вот в таком виде


    Аминокислоты выделяются различными цветами. Так же в программе существуют некоторые обозначения:
    «*»-идентичные аминокислоты (полное совпадение);
    «:»-похожие аминокислоты;
    «.»-отличающиеся аминокислоты;
    «-» - пробелы («гэппы»).

    При сохранении данного сравнения мы получаем два файла:

    .aln, который содержит в себе ряды сравниваемых последовательностей с обозначениями сходств каждой пары аминокислот


    .dnd – файл, в котором записано значение «вероятности выборок»

    Попарное сравнение аминокислотных последовательностей JAK1человека с другими организмами в системе BLAST.

    Попарное сравнение также проводится в системе BLAST в разделе blastp.

    Сравнение фаст производится по определенному алгоритму:
    1. Выбираем ранее скачанные FASTA в базе данных UniProt. Помечаем галочкой Align two or more sequences, чтобы сравнивать последовательности двух объектов. Нажимаем команду BLAST.


    2. Результаты представлены в нескольких формах:
    в форме таблицы
  • в графической форме
  • в форме последовательности аминокислот

    Из вкладки Descriptions выбираем данные, необходимые для сравнения данных:

    Max Score – максимальная оценка выравнивания базы данных последовательностей.

    Total score – общий балл от всех выравниваний.

    Query cover – степень покрытия, показывает, сколько идентичных или сходных аминокислот, на сколько % выровнена последовательность.

    Значение E – шанс того, что набор нулей и единиц получен случайным образом.

    Ident – процент идентичных аминокислот.
    Составляется таблица с данными, полученными после сравнения фаст в ClustalX и Blastp, находим медиану

    4. Вычисляем доверительный интервал


    Вывод: с использованием биоинформационных технологий в ходе проведения работы по сравнению первичных аминокислотных последовательностей проведен анализ JAK1 человека в сопоставлении с характеристиками этого же белка других животных. Вычислив средний ранг, мы обнаружили, что наиболее сходным с белком человека является белок большой панды, максимальное отличие имеет белок мелкой пресноводной рыбы Poeciliopsis prolifica. Но из-за отсутствия данных о 3D структуре данного белка, сравнение производится с белком следующего животного, указанного в таблице - Common carp


    Для этого снова заходим на сайт Unitprot, заходим в ссылку с человеческим белком. Опускаемся до пункта Strukture и видим 3D структуру, полученную рентгеновским методом.

    Выбираем структуру, у которой Resolution меньше всего.
    Переходим на PDBe, на нем мы можем увидеть 3D структуру белка и скачать ее, а так же там можем увидеть лиганды, перейдя по ссылке можем наблюдать аминокислотный состав лиганда и распределение электронной плотности.

    Находим 3D структуру белка рыбы и так же скачиваем ее.

    И выделяем указанные выше аминокислоты желтым цветом


    После чего проводим ту же операцию с белком рыбы, сравнивая при этом аминокислотный состав


    В необходимых нам сайтах присутствуют различия в первичной последовательности белков человека и карпа.

    Получив 3D модели JAK1 для человека и карпа, мы убедились в том, что структурные модели позволяют определить функционально значимые участки в аминокислотных последовательностях. Проанализировали визуально эти модели. При их сравнении установили межвидовые различия между представителями одного класса. Установили, что проводить исследования относительно данного белка на таком представителе, как карп не следует из-за небольшого количества совпадений в аминокислотной последовательности в необходимом нам лиганде. Следовательно, результаты воздействия лекарственных препаратов на белок человека будут отличаться.


    1) При анализе сходства первичны аминокислотных последовательностей фермента JAK1 человека с первичными последовательностями этого же фермента других организмов в системах ClustalX2 и BLAST было выяснено:
    С первичной последовательностью данного белка наиболее схожа последовательность белка большой панды
  • Следовательно, данный организм рационально использовать в экспериментальных исследованиях действия различных химических соединений (предполагаемых активаторов или ингибиторов).
    2) При сравнении 3D-моделей структур JAK1 человека с наименее похожим по первичной аминокислотной последовательности животным – рыбой Common carp, было установлено, что сходства в необходимом лиганде присутствуют, но их недостаточно для проведения исследований.

    Данный организм не следует использовать в качестве подопытного при исследовании белка JAK1, т.к. он имеет существенные отличия в последовательности аминокислот, что сильно влияет на последующие физические, химические и биологические свойства данного белка.

  • перейти в каталог файлов


  • связь с админом