Что такое биоинформатика. Основные направления биоинформатики в зависимости от исследуемых объектов. Выбор оружия за вами

Биоинформатика как наука появилась на стыке молекулярной биологии, генетики, математики и компьютерных технологий. Ее основная задача - разработка вычислительных алгоритмов для анализа и систематизации данных о структуре и функциях биологических молекул, прежде всего нуклеиновых кислот и белков. Объем генетической информации, накапливаемой в банках данных, начал увеличиваться с возрастающей скоростью после того, как были разработаны быстрые методы секвенирования (расшифровки нуклеотидных последовательностей ДНК). Биоинформатические методы позволяют не просто обрабатывать этот огромный массив данных, но и выявлять закономерности, которые не всегда можно заметить при обычном эксперименте, предсказывать функции генов и зашифрованных в них белков, строить модели взаимодействия генов в клетке, конструировать лекарства. В июле 2004 года в новосибирском Академгородке прошла четвертая Международная конференция по биоинформатике регуляции и структуры генома (BGRS"2004), организованная Институтом цитологии и генетики Сибирского отделения Российской академии наук. В течение недели более 200 ученых из разных стран - России, Германии, США, Англии, Италии, Франции, Японии и других - обсуждали проблемы компьютерной геномики, системной и эволюционной биологии, а также протеомики - нового научного направления, связанного с исследованием белков и их взаимодействия в организме. На конференции побывала специальный корреспондент журнала "Наука и жизнь" Г. АФАНАСЬЕВА.

Наука и жизнь // Иллюстрации

Член-корреспондент РАН Н. А. Колчанов открывает четвертую Международную конференцию по биоинформатике регуляции и структуры генома.

Трехмерная модель контакта регуляторного белка с молекулой ДНК. О молекулярном моделировании пространственной структуры белков и их взаимодействии с нуклеиновыми кислотами рассказали Р. Г. Ефремов (Институт биоорганической химии) и К. В. Шайтан (МГУ).

Заседание, посвященное эволюционной биологии, ведет доктор биологических наук М. С. Гельфанд.

Пространственная организация и функционирование активных центров белков.

Чтобы сконструировать лекарство точечного действия, нужно подобрать вещество (лиганд), которое входит в белок-мишень, как ключ в замок. Для этого необходимо знать пространственную структуру молекул.

Нуклеотидная последовательность ε-гемо-глобина человека.

Генная сеть антивирусного ответа.

Регуляция системы дыхания.

Оживленные дискуссии продолжались в перерывах между заседаниями. Сложную науку объясняет "на пальцах" гость из Индии доктор Сринивасан Рамачандран (Институт геномики, Дели).

КОГДА БИОЛОГИЯ НАЧАЛА ГОВОРИТЬ ЯЗЫКОМ МАТЕМАТИКИ…

Так когда же появилась биоинформатика, которую сейчас с уверенностью называют наукой третьего тысячелетия? Вот что говорит об этом доктор биологических наук Рустэм Нурович Чураев, заведующий отделом эпигенетики Института биологии Уфимского научного центра и заведующий лабораторией математической и молекулярной генетики:

"Можно считать, что эта наука зародилась в XIII веке. Тогда молодой итальянец Леонардо из Пизы, вошедший в историю математики под именем Фибоначчи, описал решение задачи о размножении кроликов и, таким образом, построил первую математическую модель биологического процесса. По сути, этот любопытный случай и положил начало математической биологии. В 20-е годы XX века другой итальянский математик, Вито Вольтерра, создал модель совместного существования двух биологических популяций типа "хищник-жерт ва". У математиков появился интерес к теоретической биологии, а у биологов, в свою очередь, возникла потребность к систематизации науки с математических позиций. После Второй мировой войны в биологию пришли физики и математики. Это событие во многом индуцировал Шредингер выходом в свет своей книги "Что такое жизнь с точки зрения физики?". Среди них были такие знаменитые ученые, как Алексей Андреевич Ляпунов и Игорь Андреевич Полетаев. Благодаря их научным работам начал развиваться кибернетический подход к биологическим процессам. Вадим Александрович Ратнер, ученик Ляпунова, в начале 1960-х годов применил математический подход к описанию явлений молекулярного уровня в сложных системах.

В 1975 году была создана первая известная количественная модель управления развитием фага "лямбда". Его геном содержит 48 генов (совсем немного по нынешним меркам), но имеет сложную управляющую систему. Эта и более сложные системы уже требовали использования компьютеров. Из математической биологии стала выделяться отдельная ветвь - биоинформатика, которая предполагает применение информационных технологий для изучения биологических систем. Следует отметить большую роль Института цитологии и генетики Сибирского отделения РАН в развитии биоинформатики. Это область со своей проблематикой и методикой, которые немыслимы без компьютеров. Накапливается много данных, идет вал информации о первичных последовательностях геномов молекул ДНК".

IN SILICO ИЛИ IN VIVO?

Конечно, для анализа огромного массива данных требуются высокопроизводительные вычисления, и обычный компьютер не способен справиться с такой задачей - не хватит объема памяти и времени. Какие компьютерные технологии предлагают сегодня биоинформатикам? Сначала в США появилась высокопроизводительная система "Cray" - громадная установка, которая занимает объем комнаты, но если собрать вместе обычные компьютеры, чтобы получить такую же мощность, получится пятиэтажный дом. Сегодня, к примеру, все больше используется суперкомпьютер "Blue" (именно он обыграл Гарри Каспарова в шахматном поединке). Этот компьютер способен проанализировать громадное количество комбинаций за довольно короткий период времени (от нескольких минут до нескольких дней, в зависимости от сложности поставленной задачи). Не менее важны так называемые компьютерные кластеры, то есть несколько последовательно соединенных обычных компьютеров. Задача разделяется на части, работа с которыми идет параллельно. Возможно, как раз подобная технология найдет широкое применение в будущем, так как параллельная обработка данных наиболее эффективна. В последнее время возник такой метод, как распределенные вычисления, когда в расчетах участвует множество компьютеров в разных странах и каждый компьютер выполняет одну небольшую часть задачи.

Суперкомпьютеры необходимой мощности существуют и в России, например в Пущине. При наличии оптоволоконных сетей к нему может подключиться лаборатория, которая находится даже в другом городе.

Сравнительно недавно в науке появился термин "биология in silico", буквальный смысл которого - "биология на кремнии", говоря иными словами, проведение биологического эксперимента на компьютере. Сейчас это понятие стало вполне официальным и широко используется. Есть журнал, который так и называется - "In silico biology".

Биоинформатика дает возможность быстро и дешево провести модельный эксперимент и зачастую предсказать результат эксперимента обычного. Но модели компьютерной жизни все же пока далеки от реальности. Во всем мире ведутся активные исследования для максимального приближения in silico к in vivo. Это означает не только привлечение к расчетам данных о структуре и функции исследуемого белка, но и учет взаимодействия между белками в реальной среде. В проект виртуальной клетки сейчас вкладываются огромные средства. В России, например, такие работы ведутся в Пущинском научном центре. Создание "электронной клетки" даст возможность эффективно конструировать лекарства нового поколения. О перспективах биоинформатики и о доверии экспериментаторов к предсказаниям in silico говорил доктор биологических наук Михаил Сергеевич Гельфанд:

"Биоинформатика - это способ делать биологические утверждения, не наблюдая непосредственно природу (как, например, в зоологии) и не ставя эксперименты (как в молекулярной биологии), а путем анализа уже полученных массовых экспериментальных результатов. Конечно, основой всего является геном: только зная все гены организма, можно делать надежные выводы. А массовые данные получаются из экспериментов, поставленных на индустриальный поток: это расшифровка геномов, изучение синтеза закодированных в генах белков, определение белок-белковых взаимодействий в различных организмах, клетках, условиях роста… Раньше для получения такого рода данных ставились специальные эксперименты, но представьте себе: у средней бактерии примерно 3000 генов, у человека - на порядок больше, 30 000, белков еще больше - сколько же надо провести экспериментов, например, для того, чтобы проверить все пары белков, взаимодействуют ли они. И при этом основное время как раз уйдет на "пустые" эксперименты, с невзаимодействующими белками. Массовый эксперимент - это сотня экспериментов одновременно, которые выполняют несколько десятков роботов. Однако при этом возникает высокий уровень "шума" - случайных ошибок, и задача биоинформатики - извлечь из этих данных достоверные утверждения.

То же самое с функциями генов. В принципе, выяснение функции одного гена в эксперименте - это год работы сильного исследователя и хорошая статья. Но генов-то тысячи в каждом организме. И вот оказывается, что биоинформатика позволяет делать надежные предсказания, которые поддаются уже целенаправленной экспериментальной проверке. Это получается намного проще, быстрее и дешевле. Конечно, бывают и ошибочные выводы, что вызывает недоверие у "традиционных" биологов. Но тут ситуация такая же, как с любой новой техникой исследования. Когда появился микроскоп, тоже поначалу мерещилось много всякого, например, некоторые описывали, что видят маленького зародыша в сперматозоиде. Но постепенно экспериментаторы приобретают вкус к биоинформатическим методам и научаются отделять зерна от плевел, а сами биоинформатики начинают более критично относиться к своей работе. В конечном счете возникает совершенно новое мощное средство для биологических исследований. Собственно, оно уже сейчас есть, надо его развивать и учиться им пользоваться - для этого и проводятся подобные конференции".

Среди основных задач биоинформатики - описание генных сетей, изобретение новых лекарств с заданными свойствами, разработка компьютерных моделей процессов, происходящих в организме.

КОМПЬЮТЕР ПРОЕКТИРУЕТ ЛЕКАРСТВА

Одна из самых перспективных и быстро развивающихся областей биоинформатики - конструирование лекарств направленного действия. Действие таких препаратов нацелено на центры связывания конкретного белка в организме возбудителя болезни. При этом аналогичные белки человека не подвергаются изменениям, а значит, нет и побочных эффектов. Создание лекарства направленного действия требует знаний о трехмерной структуре белка-мишени, так как точное пространственное соответствие играет ключевую роль.

Структура белков зашифрована в ДНК, но разобраться в этом шифре не так-то просто. Дело в том, что ген белка помимо кодирующих фрагментов (их называют экзонами) содержит интроны - участки, которые никакой полезной информации о белке не несут. То есть "слова" генетического кода прерываются довольно длинными вставками из случайного набора "букв". Большое число докладов на конференции BGRS"2004 были посвящены поиску новых эффективных методов распознавания экзон-интронной структуры ДНК, а также определению пространственной структуры белков по известной последовательности аминокислот. Об этом говорили в своих выступлениях Ю. Л. Орлов (Институт цитологии и генетики, Новосибирск), М. А. Ройтберг (Институт математических проблем биологии РАН, Пущино) и многие другие. И. И. Абнизова (Великобритания) рассказала о новых вычислительных подходах, которые позволяют судить о функции участков ДНК по тому, каким образом распределены в нем нуклеотиды.

Сегодня наиболее эффективный метод анализа белков - не постепенная расшифровка структуры для каждого отдельного белка, а сравнение со структурами родственных (гомологичных) белков, которые уже расшифрованы. Наиболее близкая из известных последовательностей берется за "точку отсчета", и дальше проводится ее уточнение. Данные рентгеноструктурного анализа и ядерно-магнитного резонанса позволяют предсказывать пространственную структуру схожих белков и делать вывод об их возможной функции в организме.

Когда пространственная структура белка-мишени установлена, наступает следующий этап: поиск низкомолекулярного вещества (лиганда), которое, соединившись с белком, будет оказывать нужное фармакологическое действие. Такой поиск связан с перебором не одной тысячи вариантов, и без компьютерных технологий тут не обойтись.

ГЕННЫЕ СЕТИ

Гены в клетках организма могут взаимодействовать друг с другом посредством своих продуктов - белков. Например, регуляторные белки способны связываться с определенными участками ДНК, и, таким образом, один ген может включить или выключить другой. Благодаря подобному взаимодействию образуется генная сеть, охватывающая значительное количество генов (от десятков до сотен), которые координируют свою деятельность и контролируют выполнение определенных функций в организме. Выяснение механизмов функционирования генных сетей представляет принципиально важную задачу, ведь именно они определяют внешние признаки организма и наследственные заболевания. Полная и ясная картина взаимодействия генов откроет новые возможности для генной диагностики и генной терапии. Эта тема была одной из центральных на конференции.

В конструировании искусственных генных сетей используется представление об эпигене как новом классе наследственных единиц, разработанное Р. Н. Чураевым в 1975 году. Эпиген - это "надгенная" система с двумя или более наследуемыми режимами работы генов (например, когда определенный ген "включен" и когда он "выключен"). Эпиген запоминает режим, в котором он находится, и передает информацию об активности генов по наследству. Такая концепция позволяет объяснить наблюдаемые экспериментально случаи наследования приобретенных признаков и ряд других феноменов.

ЭВОЛЮЦИЯ ЧЕРЕЗ ПРИЗМУ БИОИНФОРМАТИКИ

Сравнение геномов различных организмов дает возможность прослеживать эволюцию живых организмов. В секции компьютерной эволюционной биологии М. С. Гельфанд представил доклад, посвященный эволюции регуляторных систем бактерий. Анализ сотен бактериальных геномов позволил описать поведение регуляторных систем в ходе эволюции на самых разных уровнях: эволюцию отдельных регуляторных сигналов, изменения в структуре белков-регуляторов, поведение наборов регулируемых генов и, наконец, полную перестройку регуляторных систем. Возможно, самая древняя регуляторная система - так называемые РНК-переключатели, о которых рассказал доктор биологических наук Андрей Александрович Миронов. РНК-переключатель представляет собой молекулу РНК, которая способна не только переносить информацию, но и управлять активностью гена самостоятельно, без помощи белков. Регулирующие свойства РНК-переключателей были вначале предсказаны методами биоинформатики, а затем обнаружены экспериментально. В пользу предположения о древности системы РНК-переключателей говорят два факта: присутствие регуляторных сигналов такого типа практически во всех группах организмов от бактерий и архебактерий до растений и грибов и то, что регуляция осуществляется непосредственно при связывании регуляторной структуры РНК с малыми молекулами (витаминами и аминокислотами) без участия какого-либо посредника. Тем самым такие регуляторные системы могли существовать в "РНК-мире" еще до появления белков.

С практической точки зрения интересно исследование, проведенное в группе Гельфанда А. Е. Казаковым, О. В. Калининой и Е. А. Перминой. Они исследовали устойчивость бактерий к тяжелым металлам. Во многих случаях эта устойчивость обеспечивается белками-транспортерами, выбрасывающими токсичные катионы металла из клетки. Однако различных транспортеров много, они весьма разнообразны, и предсказать специфичность белка-транспортера к тому или иному металлу удается далеко не всегда. Исследователи пошли другим путем: они изучили, как регулируется работа генов, кодирующих белки-транспортеры. Оказалось, что в ней участвует определенное семейство белков-репрессоров, узнающих о присутствии катионов металлов при помощи специального функционального участка, в который входят не менее трех остатков аминокислоты цистеина. Связавшись с катионом, белок-репрессор освобождает сигнальный участок ДНК и тем самым запускает работу гена, кодирующего белок-транспортер. Авторы показали, что по последовательности сигнального участка в ДНК можно предсказать, к какой группе относится соответствующий белок-репрессор, а эти белки высокоспецифичны к катионам металлов. Полученные результаты могут быть использованы для создания надежных индикаторов на загрязнение. А по схеме, построенной учеными, можно предсказать, к каким металлам будет нечувствительна та или иная бактерия, что особенно важно при создании штаммов, применяемых для биологической очистки промышленных стоков.

БИОИНФОРМАТИКА - НАУКА ИЛИ МЕТОД ИССЛЕДОВАНИЯ?

На этот вопрос, вызывающий немало споров среди ученых, ответил председатель оргкомитета конференции член-корреспондент РАН Николай Александрович Колчанов:

"И наука, и метод, и стратегия исследования. Метод - если рассматривать биоинформатику как набор технологий, позволяющий работать с огромным массивом данных и получать с их помощью новые результаты. Научная сторона биоинформатики связана с развитием информационной биологии. Как любая наука, она имеет собственные задачи и занимается изучением механизмов хранения, передачи и реализации биологической информации на разных уровнях. Таких уровней несколько: геном, клетка, взаимодействие между клетками, организм, популяция в целом. Биоинформатика появилась на стыке наук - молекулярной биологии, физиологии, математики, информатики, физики и химии, а такого рода объединения имеют стратегический характер. Самые крупные достижения возникают тогда, когда происходит синтез наук. Биология и информатика - классическое отражение этой ситуации".

Первая конференция по биоинформатике регуляции и структуры генома состоялась в Академгородке по инициативе Института цитологии и генетики Сибирского отделения РАН в 1998 году. Что изменилось за прошедшие шесть лет? Вновь слово Н. А. Колчанову:

"В 2002 году закончена расшифровка генома человека. Следующая важнейшая задача - расшифровать протеом. Этот термин образован от слова "протеин" (по аналогии с геномом) и означает совокупность белков, которые функционируют в организме. Конечно, получение "белкового портрета" организма потребует времени, но в принципе эта задача вполне решаема. Общий объем накопленной информации сейчас таков, что на первый план выходит системная биология, цель которой - не просто объединить достижения, полученные различными методами, но интегрировать знания и перевести их на качественно новый уровень. Помимо глобальных задач появилось много интересных прикладных направлений, например технология ДНК-микрочипов. Изменения в направлениях исследований отражаются и в тематике конференции".

Иллюстрация "Пространственная организация и функционирование активных центров белков".
Конфигурация активного центра белка (выделен цветом) обеспечивает избирательность биохимических взаимодействий. Новейшие достижения в исследованиях пространственной организации и функционирования активных центров белков представили М. Ондрехен (США), С. Рамачандран (Индия), Д. А. Афонников, В. А. Иванисенко (Институт цитологии и генетики, г. Новосибирск) и другие участники конференции.

Иллюстрация "Нуклеотидная последовательность ε-гемо-глобина человека".
Нуклеотидная последовательность ε-гемо-глобина человека. Синим цветом выделены информативные участки - экзоны, красным - "бессмысленные" интроны. Одна из задач биоинформатики - определить экзон-интронную структуру и распознать те области в геномах, которые кодируют белки.

Иллюстрация "Генная сеть антивирусного ответа".
Генная сеть, приведенная на рисунке в качестве примера, включает комбинацию положительных и отрицательных обратных связей. При попадании вируса в клетку происходит активация гена интерферона- β (IFN-β). Белок (фактор транскрипции) IRF-1 вначале усиливает работу гена, продуцирующего интерферон, а позднее запускает синтез другого белка IRF-2, который подавляет производство интерферона, обеспечивая возвращение системы в исходное состояние. Прямоугольниками на рисунке обозначены гены, а кружками - белки.

Иллюстрация "Регуляция системы дыхания".
В регуляции системы дыхания у бактерий участвуют различные белки-регуляторы (факторы транскрипции), в частности FNR (переключатель аэробно-анаэробного метаболизма), ArcA (датчик наличия кислорода) и NarP (регулятор азотного дыхания). Д. А. Равчеев и А. В. Герасимова из исследовательской группы М. С. Гельфанда провели компьютерное сравнение бактериальных геномов и установили, что у микроорганизмов разных групп эти белки могут формировать различные регуляторные каскады. На рисунке белки представлены цветными фигурами, кодирующие их гены - фрагментами ДНК соответствующего цвета, а регуляторные взаимодействия показаны как тонкие стрелки. Из экспериментальных работ было известно, что у кишечной палочки (А) основным фактором является FNR, который регулирует свой собственный ген fnr, а также гены, кодирующие другие регуляторы (arcA и narXL). Оказалось, что у пастерелл (Б) факторы FNR и NаrP образуют петлю (регулируют гены друг друга) и, кроме того, ген fnr регулируется факторами FNR (авторегуляторная петля) и ArcA. У вибрионов (В) обнаружена авторегуляция генов fnr и narP, а ArcA регулирует оба этих гена и, по-видимому, является основным регулятором.

Введение

Биоинформатика стала важной частью многих областей биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как создание изображений и обработка сигналов , позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Она играет роль в анализе данных из биологической литературы и развитии биологических и генетических онтологий по организации и запросу биологических данных. Она играет роль в анализе гена, экспрессии белка и регуляции. Инструменты биоинформатики помогают в сравнении генетических и геномных данных и, в целом, в понимании эволюционных аспектов молекулярной биологии. В общем виде, она помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в симуляции и моделировании ДНК, РНК и белковых структур, а также молекулярных взаимодействий.

История

Опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, в 1970 году Полина Хогевег ввела термин «биоинформатика», определив его как изучение информационных процессов в биотических системах . Это определение проводит параллель биоинформатики с биофизикой (учение о физических процессах в биологических системах) или с биохимией (учение о химических процессах в биологических системах) .

В начале «геномной революции» термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание базы данных для хранения биологической информации

Последовательности . Компьютеры стали необходимыми в молекулярной биологии , когда белковые последовательности стали доступны после того, как Фредерик Сенгер определил последовательность инсулина в начале 1950-х. Сравнение нескольких последовательностей вручную оказалось непрактичным. Пионером в этой области была Маргарет Окли Дэйхоф (Margaret Oakley Dayhoff). Дэвид Липман (директор Национального центра биотехнологической информации) назвал её «матерью и отцом биоинформатики». Дэйхоф составила одну из первых баз последовательностей белков, первоначально опубликовав в виде книг и стала первооткрывателем методов выравнивания последовательностей и молекулярной эволюции.

Геномы . Поскольку полные последовательности генома стали доступны, снова с новаторской работой Фредерика Сенгера термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание баз данных для хранения биологической информации, такой как последовательности нуклеотидов (база данных GenBank в 1982). Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые. С публичной доступностью данных, инструменты для их обработки были быстро разработаны и описаны в таких журналах, как «Исследование Нуклеиновых Кислот», который опубликовал специализированные вопросы по инструментам биоинформатики уже в 1982 году.

Цели

Главная цель биоинформатики - способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов , data mining , алгоритмы машинного обучения и визуализация биологических данных . Основные усилия исследователей направлены на решение задач выравнивания последовательностей , нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка , предсказания экспрессии генов и взаимодействий «белок-белок», полногеномного поиска ассоциаций и моделирования эволюции.

Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных.

Основные области исследований

Анализ генетических последовательностей

Оценка биологического разнообразия

Основные биоинформатические программы

  • ACT (Artemis Comparison Tool) - геномный анализ
  • Arlequin - анализ популяционно-генетических данных
  • Bioconductor - масштабный FLOSS -проект, предоставляющий множество отдельных пакетов для биоинформатических исследований. Написан на .
  • BioEdit
  • BioNumerics - коммерческий универсальный пакет программ
  • BLAST - поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • Clustal - множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • DnaSP - анализ полиморфизма последовательностей ДНК
  • FigTree - редактор филогенетических деревьев
  • Genepop
  • Genetix - популяционно-генетический анализ (программа доступна только на французском языке)
  • JalView - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • MacClade - коммерческая программа для интерактивного эволюционного анализа данных
  • MEGA - молекулярно-эволюционный генетический анализ
  • Mesquite - программа для сравнительной биологии на языке Java
  • Muscle - множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PAUP - филогенетический анализ с использованием метода парсимонии (и других методов)
  • PHYLIP - пакет филогенетических программ
  • Phylo_win - филогенетический анализ. Программа имеет графический интерфейс.
  • PopGene - анализ генетического разнообразия популяций
  • Populations - популяционно-генетический анализ
  • PSI Protein Classifier - обобщение результатов, полученных с помощью программы PSI-BLAST
  • Seaview - филогенетический анализ (с графическим интерфейсом)
  • Sequin - депонирование последовательностей в GenBank , EMBL , DDBJ
  • SPAdes - сборщик бактериальных геномов
  • SplitsTree - программа для построения филогенетических деревьев
  • T-Coffee - множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW /ClustalX .
  • UGENE - свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.
  • Velvet - сборщик геномов
  • ZENBU - обобщение результатов

Биоинформатика и вычислительная биология

Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (

Понятие биоинформатики

Под биоинформатикой обычно понимают использование компьютеров для решения биологических задач. В настоящее время это почти исключительно задачи молекулярной биологии. Причина этого в том, что за последние 20-25 лет накоплен поистине колоссальный экспериментальный материал именно о строении и функционировании биологических молекул (белков и нуклеиновых кислот), в качестве примера достаточно привести геном человека. Этот материал требует развитых компьютерных методов для своего анализа. Поэтому биоинформатика в большинстве мировых научных центров понимается как синоним вычислительной молекулярной биологии.

Есть несколько основных направлений этого раздела науки, в зависимости от

исследуемых объектов:

  • * Биоинформатика последовательностей.
  • * Структурная биоинформатика.
  • * Компьютерная геномика

Основные направления биоинформатики в зависимости от исследуемых объектов

Биоинформатика последовательностей

Биоинформатика последовательностей

Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

Этот раздел биоинформатики занимается анализом нуклеотидных и белковых последовательностей. В настоящее время разработаны эффективные экспериментальные методы определения нуклеотидных последовательностей. Определение нуклеотидных последовательностей стало рутинной хорошо автоматизированной процедурой. В результате рутинной хорошо автоматизированной процедуры уже получено огромное количество генетических текстов. Так, в базе данных EMBL на 15.02.2007 г. хранится 87000 493 документов с описанием нуклеотидных последовательностей, содержащих в целом 157545686001 символов (нуклеотидов), что соответствует примерно библиотеке в 105 толстых томов с убористым шрифтом. Найти нужный ген в EMBL, это все равно, что найти цитату в такой библиотеке. Без помощи компьютера сделать это, мягко говоря, очень трудно. А число данных экспоненциально растет.

Представим себе геном небольшой бактерии - это непрерывная строка длиной в 1-10миллионов символов символов, и далеко не вся ДНК кодирует белки. Первый тип биоинформатической задачи - это задачи поиска в нуклеотидных последовательностях особых участков, участков, кодирующих белки, участков, кодирующих РНК (например, тРНК), участков связывания с регуляторными белками и др. И это не всегда простые задачи, например, гены эукариотических организмов состоят из чередующихся "осмысленных" и "бессмысленных" фрагментов (экзонов и интронов), и расстояние между "осмысленными" фрагментами может достигать тысяч нуклеотидов.

Пусть ген найден. Что он кодирует? Зачем он нужен?

Если речь идет об участке ДНК, кодирующем белок, то с помощью весьма простой операции - трансляции с использованием известного генетического кода можно получить. аминокислотные (белковые) последовательности. Из известных на сегодня 4 273 512 белков около 94% последовательностей - это именно такие гипотетические трансляты, и больше о них ничего не известно. Скорость поступления информации с автоматических секвенаторов превышает скорость нашего понимания ее смысла! Но биологические объекты - это объекты, возникшие в процессе эволюции. Сравнительно-эволюционный подход - один из мощнейших подходов в биологии. Например, функция белка из одного организма хорошо экспериментально изучена, в другом организме нашли белок с похожей аминокислотной последовательностью. Можно предположить, что второй (неизвестный) белок выполняет ту же или схожую функцию. И здесь сразу возникает несколько вопросов. Во-первых, что значит похожая последовательность? Как сравнивать последовательности? При какой степени сходства последовательностей можно предполагать, что белки выполняют сходные функции? Сравнение последовательностей (выравнивание) является важнейшей задачей биоинформатики. Трудно найти современного биолога, ни разу не использовавшего программы Blastp и ClustalX, появление этих программ - уже крупный успех биоинформатики. Но современные биоинформатики недовольны и постоянно совершенствуют методы выравниваний. Можно привести много примеров того, как сравнительно-эволюционный подход в сочетании с биоинформатическими методами порождает новое биологическое знание.

Генетические тексты - тексты с большой долей шума, сравнивая родственные последовательности, в ряде случаев удается отфильтровать шум и выявить сигнал, например, короткую последовательность нуклеотидов, способную связываться с белком- регулятором, или аминокислотные остатки в ферменте, отвечающие за связывание субстрата. Чтобы быть уверенными в результате, биоинформатики используют теорию вероятности и математическую статистику. Подводя итог, можно сказать, что основные задачи биоинформатики, связанные с анализом отдельных последовательностей, состоят в следующем:

  • * Выравнивание и определение сходства двух последовательностей
  • * Построение множественных выравниваний
  • * Распознавание генов
  • * Предсказание сайтов связывания регуляторных белков
  • * Предсказание вторичной структуры РНК

Создание новых экспериментальных технологий ставит перед биоинформатикой целый ряд новых задач. Например, развитие масс-спектрометрии позволяет (пока в принципе) в одном эксперименте проанализировать весь набор белков, присутствующий в клетке. Для решения этой задачи необходим совместный анализ спектров масс и геномов. Открытие новых биологических явлений и механизмов также приводит к появлению новых задач. Хорошим примером служит открытие РНК интерференции, за которую в 2006 году дали Нобелевскую премию по физиологии. Это открытие породило целый вал биоинформатических работ, посвященных поиску участков связывания микроРНК и новых микроРНК. Многие находки были затем подтверждены экспериментально.

Биологическая информатика) представляет собой совокупность методов и подходов, включающих в себя: математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика); разработку алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика), исследование стратегий и создание вычислительных методологий управления биологическими системами.

В биоинформатике используются методы прикладной математики, статистики и информатики. Биоинформатика используется в биохимии, биофизике, экологии и в других областях фундаментальной науки. Эта наука появилась в 1970 г., когда, опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, Полина Хогевег ввела этот термин, определив его как изучение информационных процессов в биотических системах.

В качестве примеров биологических информационных процессов, изучавшихся в первые годы существования биоинформатики, можно привести сложные структуры социального взаимодействия по простым поведенческим правилам, а также хранение и техническое обслуживание информации в моделях биогенеза и абиогенеза.

В начале геномной революции термин «биоинформатика» был открыт заново, и обозначал создание и техническое обслуживания базы данных для хранения биологической информации, такой как последовательности нуклеотидов. Создание таких баз данных включало в себя создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые.

Главная цель биоинформатики – способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов, алгоритмы машинного обучения и визуализация биологических данных. Основные усилия исследователей направлены на решение задач выравнивания последовательностей, нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка, предсказания экспрессии генов и взаимодействий «белок–белок», полногеномного поиска ассоциаций и моделирования процессов эволюции. Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов
и теории для решения многих практических и теоретических проблем, возникающих при управлении биологическими процессами и анализе биологических данных. Таким образом, современная генетика, эволюционная биология, вычислительная биология и другие информационно-ёмкие отрасли фундаментальной биологии нуждаются в методах информатизации и компьютеризации, алгоритмизации и программирования, информационных технологиях, без которых немыслима сама обработка данных.

Анализ генетических последовательностей. C тех пор как в 1977 году был расшифрован (секвенирован) фаг Phi–X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков.

Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом, могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска, по геномам, тысяч организмов, состоящих из миллиардов пар нуклеотидов, используются компьютерные программы. Программы могут однозначно сопоставить похожие последовательности ДНК в геномах разных видов; часто такие последовательности имеют сходные функции, а различия возникают в результате мелких мутаций, таких, как замены отдельных нуклеотидов, вставки нуклеотидов, и их выпадения (удаления). Один из вариантов такого выравнивания применяется при самом процессе секвенирования.

Техника дробного секвенирования была использована Институтом генетических исследований для расшифровки (секвенирования) первого бактериального генома вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600–800 нуклеотидов). Концы фрагментов накладываются друг на друга и совмещаются, что даёт полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть очень сложной задачей для больших геномов. В проекте по расшифровке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодня.

Другим примером компьютерного анализа генетических последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. В геномах высших организмов большие сегменты ДНК не кодируют белки, и их функциональная роль неизвестна. Разработка алгоритмов выявления участков генома, кодирующих белки, является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, помогая идентифицировать белки в последовательности ДНК.

Аннотация геномов. В контексте геномики аннотацией называется процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 г. Оуэном Уайтом, работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии. Доктор Уайт построил систему для нахождения генов, РНК и других объектов ДНК, и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, и эти программы постоянно развиваются и улучшаются.

Вычислительная эволюционная биология. Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Биологическая информатика помогает эволюционным биологам и генетикам в нескольких аспектах:

Изучать эволюцию всего многообразия организмов, обитающих на Земле, измеряя в них изменения ДНК;

Сравнивать целые геномы, что позволяет изучать комплексные эволюционные события, происходящие в биологической истории Земли: дупликацию генов, латеральный перенос генов, бактериальные факторы;

Строить компьютерные модели биологических популяций для изучения развития биосистемы во времени;

Отслеживать публикации по эволюции большого количества видов.

Область компьютерных наук, использующая генетические алгоритмы для решения биологических задач, также связана с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений. Принцип исследований основывается на эволюционных методах и принципах, таких, как репликация, диверсификация, рекомбинация, мутация, выживание в естественном отборе.

Оценка биологического разнообразия. Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля.

Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации. Компьютерные симуляторы моделируют популяционную динамику, вычисляют общее генетическое здоровье биологической культуры в агрономии.

Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью исчезнут.

Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия – таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.

Биоинформатика и вычислительная биология. Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. Под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации. Термины биоинформатика и вычислительная биология указывают на разработку алгоритмов и конкретные вычислительные методы. Использование вычислительных методов в биологии связано также с математическим моделированием биологических процессов.

Биоинформатика использует методы прикладной математики, статистики и информатики. Исследования в вычислительной биологии пересекаются с системной биологией. Основные усилия исследователей направлены на изучение геномов, анализ и предсказание структуры белков, взаимодействий молекул белка друг с другом и другими молекулами, что необходимо для реконструкции эволюционных процессов.

Биоинформатика стала важной частью многих областей биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как создание изображений и обработка сигналов , позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Она играет роль в анализе данных из биологической литературы и развитии биологических и генетических онтологий по организации и запросу биологических данных. Она играет роль в анализе гена, экспрессии белка и регуляции. Инструменты биоинформатики помогают в сравнении генетических и геномных данных и, в целом, в понимании эволюционных аспектов молекулярной биологии. В общем виде, она помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в симуляции и моделировании ДНК, РНК и белковых структур, а также молекулярных взаимодействий.

История

Опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, в 1970 году Полина Хогевег ввела термин «биоинформатика», определив его как изучение информационных процессов в биотических системах . Это определение проводит параллель биоинформатики с биофизикой (учение о физических процессах в биологических системах) или с биохимией (учение о химических процессах в биологических системах) .

В начале «геномной революции» термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание базы данных для хранения биологической информации

Последовательности . Компьютеры стали необходимыми в молекулярной биологии , когда белковые последовательности стали доступны после того, как Фредерик Сенгер определил последовательность инсулина в начале 1950-х. Сравнение нескольких последовательностей вручную оказалось непрактичным. Пионером в этой области была Маргарет Окли Дэйхоф (Margaret Oakley Dayhoff). Дэвид Липман (директор Национального центра биотехнологической информации) назвал её «матерью и отцом биоинформатики». Дэйхоф составила одну из первых баз последовательностей белков, первоначально опубликовав в виде книг и стала первооткрывателем методов выравнивания последовательностей и молекулярной эволюции.

Геномы . Поскольку полные последовательности генома стали доступны, снова с новаторской работой Фредерика Сенгера термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание баз данных для хранения биологической информации, такой как последовательности нуклеотидов (база данных GenBank в 1982). Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые. С публичной доступностью данных, инструменты для их обработки были быстро разработаны и описаны в таких журналах, как «Исследование Нуклеиновых Кислот», который опубликовал специализированные вопросы по инструментам биоинформатики уже в 1982 году.

Цели

Главная цель биоинформатики - способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов , data mining , алгоритмы машинного обучения и визуализация биологических данных. Основные усилия исследователей направлены на решение задач выравнивания последовательностей , нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка , предсказания экспрессии генов и взаимодействий «белок-белок», полногеномного поиска ассоциаций и моделирования эволюции.

Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных.

Основные области исследований

Анализ генетических последовательностей

Оценка биологического разнообразия

Основные биоинформатические программы

  • ACT (Artemis Comparison Tool) - геномный анализ
  • Arlequin - анализ популяционно-генетических данных
  • Bioconductor - масштабный FLOSS -проект, предоставляющий множество отдельных пакетов для биоинформатических исследований. Написан на .
  • BioEdit
  • BioNumerics - коммерческий универсальный пакет программ
  • BLAST - поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • Clustal - множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • DnaSP - анализ полиморфизма последовательностей ДНК
  • FigTree - редактор филогенетических деревьев
  • Genepop
  • Genetix - популяционно-генетический анализ (программа доступна только на французском языке)
  • JalView - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • MacClade - коммерческая программа для интерактивного эволюционного анализа данных
  • MEGA - молекулярно-эволюционный генетический анализ
  • Mesquite - программа для сравнительной биологии на языке Java
  • Muscle - множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PAUP - филогенетический анализ с использованием метода парсимонии (и других методов)
  • PHYLIP - пакет филогенетических программ
  • Phylo_win - филогенетический анализ. Программа имеет графический интерфейс.
  • PopGene - анализ генетического разнообразия популяций
  • Populations - популяционно-генетический анализ
  • PSI Protein Classifier - обобщение результатов, полученных с помощью программы PSI-BLAST
  • Seaview - филогенетический анализ (с графическим интерфейсом)
  • Sequin - депонирование последовательностей в GenBank , EMBL , DDBJ
  • SPAdes - сборщик бактериальных геномов
  • SplitsTree - программа для построения филогенетических деревьев
  • T-Coffee - множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW /ClustalX .
  • UGENE - свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.


Что еще почитать