Россия
Рассматривается одна из актуальных задач системного анализа, обработки и анализа данных для изучения синтеза молекулярных систем, их свойств и соединений. Важность сотрудничества различных научных дисциплин подчеркивается как интегративный подход к решению проблем, связанных с системным ана-лизом. Совокупность знаний в области химии, физики, информатики и биологии предоставляет эффективные инструменты для исследования сложных молекулярных систем, что имеет важное значение для различных областей науки и технологий. Один из наиболее распространенных методов обработки данных в данной области – хемоинформатика, объединяющая знания из химии, информатики и статистики. Системный анализ в хемоинформатике представляет собой трансдисциплинарную методологию, совмещающую принципы системного анализа и хемоинформатики для изучения и анализа химических данных. Основной целью системного анализа в хемоинформатике является создание моделей и алгоритмов для более глубокого понимания сложных химических систем и процессов. Этот подход также позволяет улучшить понимание структуры и функций молекулярных систем, предсказать свойства химических соединений, разрабатывать новые лекарственные препараты, оптимизировать процессы синтеза химических соединений и решать много других задач. Предложен новый подход к анализу и обработке данных квантово-химических расчетов. Обсуждаются особенности, применяемые в процессе моделирования синтеза сложной молекулярной системы. Подчеркнута необходимость автоматизации выбора параметров для моделирования молекулярных взаимодействий. Приведено решение проблемы полного перебора всех параметров взаимодействия, основанное на продукционных правилах. Применение данного подхода и формализованного описания знаний значительно увеличило скорость подбора параметров при исследовании синтеза молекулярных систем.
синтез молекулярных систем, формализованное представление, программа, системный анализ, хемоинформатика
Введение
В мире современной науки и технологий исследование молекулярных систем (МС) является одним из важнейших направлений. Это область, которая позволяет углублено изучать молекулярные процессы на клеточном уровне и понимать особенности функционирования живых организмов. Для проведения таких исследований применяются различные методы системного анализа, обработки и анализа данных.
Системный анализ – метод, который позволяет рассматривать всю систему в целом, а не отдельные ее элементы. При исследовании МС системный анализ позволяет изучить взаимосвязи и взаимодействия между различными компонентами клетки или организма, выявить общие закономерности и понять, какие процессы и механизмы лежат в основе функционирования живых организмов.
Одним из ключевых инструментов при проведении исследований МС является обработка и анализ данных. Современные технологии позволяют собирать огромные объемы данных, полученных с использованием различных методов анализа. Чтобы извлечь ценные знания из этих данных, необходимо применять специальные методы обработки и анализа.
Одним из наиболее распространенных методов обработки данных является хемоинформатика, которая объединяет знания из химии, информатики и статистики.
Системный анализ в хемоинформатике – это трансдисциплинарная методология, объединяющая принципы системного анализа и хемоинформатики для изучения и анализа химических данных. Целью системного анализа в хемоинформатике является создание моделей и алгоритмов для понимания сложных химических систем и процессов. В хемоинформатике используются различные методы компьютерного моделирования, анализа данных, статистики и машинного обучения для изучения химических веществ, их взаимодействий и свойств.
Системный анализ в хемоинформатике позволяет улучшить понимание структуры и функции МС, предсказать свойства химических соединений, разрабатывать новые лекарственные препараты, оптимизировать процессы синтеза химических соединений и многое другое.
С течением времени наблюдается рост востребованности химических расчетов, что связано с увеличением объема химических сведений. В условиях работы с большими данными для обработки информации важно задействовать методы системного анализа и хемоинформатики, позволяющие комплексно рассматривать химические структуры, учитывая их многообразие и взаимосвязанность, а также сократить время исследований и анализа химических структур.
Применение хемоинформатики в исследованиях образования активного центра (АЦ) в сложных МС способствует более глубокому пониманию воздействия одной молекулы на другую, что позволяет провести подбор ингибиторов и осуществлять поиск антидотов. Практическое применение приведено в [1, 2]. Выполнение такого исследования требует сложных расчетов, генерируется множество цифровых данных, которые необходимо анализировать, структурировать, визуализировать и трансформировать, что приводит к необходимости использования значительных вычислительных ресурсов.
Методы хемоинформатики
Основные методы хемоинформатики включают:
– молекулярное моделирование – использование компьютерных технологий для построения и изучения структуры, свойств и поведения молекул, методы молекулярной механики, молекулярной динамики и квантовой химии, методика применения которых подробнее описана [3, 4];
– виртуальный скрининг – использование компьютерных методов для оценки и ранжирования больших библиотек химических соединений с целью выявления потенциально активных молекул для дальнейшей разработки. Это позволяет сэкономить время и ресурсы, сфокусировавшись на наиболее перспективных соединениях еще до проведения дорогостоящих экспериментальных исследований;
– обработка и анализ данных. Хемоинформатика работает с огромными объемами данных, полученных из экспериментальных исследований, виртуального скрининга и других источников. Методы обработки и анализа данных, такие как статистический анализ, машинное обучение и визуализация, играют ключевую роль в извлечении полезной информации из этих данных и выявлении закономерностей, которые могут быть использованы для разработки новых лекарств и материалов.
Методы системного анализа
Методы системного анализа представляют собой разнообразные подходы и инструменты, которые применяются для глубокого изучения систем и их компонентов, а также для оценки влияния различных факторов на функционирование этих систем. Подходы системного анализа:
– анализ структуры системы включает исследование архитектуры системы, ее компонентов и взаимосвязей между ними. Это позволяет выявить, как различные элементы организованы и как они взаимодействуют, что может помочь в оптимизации структуры и улучшении ее эффективности;
– системная динамика позволяет моделировать изменения в поведении системы с течением времени. С помощью этого подхода можно разрабатывать различные сценарии развития и прогнозировать, как система будет реагировать на изменения внешней среды или внутренних факторов;
– метод множественного критерия включает оценку и анализ нескольких критериев, что особенно важно при принятии решений в сложных системах, что позволяет учитывать различные аспекты и находить оптимальные решения, которые удовлетворяют множеству требований;
– моделирование и имитационное моделирование используют математические и компьютерные модели для анализа поведения системы в различных условиях. Имитационное моделирование позволяет протестировать различные сценарии и оценить, как система будет вести себя в ответ на изменения, что помогает в принятии более обоснованных решений.
Анализ данных при исследовании синтеза молекулярных систем
Синтез МС осуществляется благодаря определению АЦ, который обладает набором параметров, соответствующих конкретным критериям, формируется комплекс M1M2, который называют сложной МС. Схема формирования сложной МС представлена на рис.
Схема формирования сложной молекулярной системы: А – атом; М – молекула
The scheme of formation of a complex molecular system: A – atom; M – molecule
Исследование синтеза МС подразумевает наличие большого объема данных, который требует системного анализа и обработки.
Вот некоторые шаги, которые могут быть применены при исследовании МС:
1. Сбор данных. Сбор всех доступных данных о МС, представленных в виде формализованного компьютерного представления, которые содержат в себе следующую информацию:
– Zi, Za, Zb, Zc – тип атома (имя химического элемента), где i, a, b, c – порядковые номера;
– RZiZa – межатомное расстояние между атомами Zi и Za;
– αZiZaZb – валентный угол, который образуется между атомами Zi и Za, Zb;
– φZiZaZbZc – двугранный угол, образованный атомом Zi и плоскостью Za, Zb, Zc.
Структурная формула описания МС в виде Z-матрицы имеет вид
2. Предобработка данных. Очистка данных, исправление ошибок, проведение нормализации данных, чтобы сделать будущий анализ более точным.
3. Анализ данных. Применение методов статистического анализа данных, биоинформатики для извлечения информации из множества данных.
4. Интеграция данных. Соединение данных из различных источников для получения полного понимания МС.
5. Моделирование систем. Построение математических моделей МС для анализа и прогнозирования их поведения.
6. Визуализация результатов. Представление результатов в виде интерактивных визуализаций для облегчения понимания сложных данных.
7. Интерпретация и выводы. Анализ полученных результатов, формулирование выводов и предложений для дальнейших исследований.
Эффективная обработка и анализ данных МС требует интеграции различных методов и подходов, что помогает выявить скрытые закономерности и важные отношения в молекулярных процессах.
Для обработки информации на этапах построения моделей МС важно использовать хемоинформатику и системный анализ в комплексе. Хемоинформатика [6, 7] предоставляет инструменты для анализа и обработки химических данных, что позволяет эффективно выявлять закономерности и предсказывать свойства молекул. В то же время системный анализ помогает понять структуру и взаимосвязи между компонентами МС, что способствует оптимизации исследуемых структур.
Так как любая наука опирается на эксперимент и наблюдение, а задача науки состоит в том, чтобы дать возможность предсказывать явления природы и глубже и полнее понимать природу, то системный анализ с хемоинформатикой выступают удобным инструментом для развития науки.
Изучение свойств молекул и их соединений представляет значительный интерес для понимания протекания реакции и участия в химических взаимодействиях отдельных групп, составляющих ту или иную молекулу. Согласно гипотезе о молекулярном строении молекула представляет собой набор атомов, связанных совокупностью связей. Эта гипотеза и в настоящее время продолжает служить основным средством упорядочения и классификации наблюдений в химии. Любые эксперименты подтверждают тот факт, что понимание химического поведения системы возможно, только если принять, что атомы существуют и именно они определяют строение системы и ее свойства. Однако проблема понимания молекулярного строения материи состоит главным образом в том, что молекулу нельзя непосредственно описать с помощью физических законов, управляющих движением ядер и электронов, образующих атомы и связи. В основе химии лежит мощная классификационная схема, которая имеет определенные ограничения из-за своего эмпирического характера.
Рассмотрим алгоритм для выявления активных центров при синтезе двух МС. Этот алгоритм предполагает использование программного пакета МОPAC [2], программы GAMESS [5] и других инструментов для моделирования взаимодействий с целью выявления АЦ поверхности.
Шаг 1. Создание МС в пакете МОPAC и выгрузка файла.
Шаг 2. Форматирование выходного файла пакета МОPAC с матрицей атомов для дальнейшего применения в других программах.
Шаг 3. Формирование out-файла для программы GAMESS для расчета геометрического равновесия.
Шаг 4. Формирование оптимизированной Z-матрицы из выходных документов программы GAMESS.
Шаг 5. Формирование массива потенциальных активных центров (ПАЦ) на основе полученных оптимизированных Z-матриц.
Шаг 6. Автоматизация процесса формирования объединенной Z-матрицы с учетом образования подбора геометрических параметров для образования водородной связи на основе ПАЦ.
Шаг 7. Проверка условий образования водородной связи для каждой пары атомов из ПАЦ с целью создания устойчивого конгломерата.
Шаг 8. Анализ данных для оценки наличия водородной связи между рассматриваемыми парами атомов молекулы и молекулы препарата на основе энергетических характеристик и геометрии адсорбционных комплексов.
Шаг 9. Исключение из множества ПАЦ комплексов АК с низкой вероятностью возникновения и составление таблицы основных энергетических и геометрических характеристик для межмолекулярного моделирования взаимодействий.
Шаг 10. Построение схемы АЦ – набор атомов, обеспечивающий идентификацию АЦ воздействия конкретного препарата.
Более подробно алгоритм расписан в статьях [8–11].
Самым сложным шагом в данном алгоритме является процесс принятия решений при подборе геометрических параметров для составления сложных МС, т. к. при подборе геометрических параметров соединения атомов необходимо выбрать оптимальные значения, которые будут использованы для создания объединенной Z-матрицы. Подобранные геометрические параметры представлены в виде следующего кортежа:
,
где – расстояние водородной связи; Rotp – диапазон возможных значений водородной связи; – валентный угол; αotp – массив возможных значений валентного угла. С помощью ван-дер-ваальсовых радиусов можно рассчитать расстояние, на которое могут сблизиться атомы:
Полный перебор всех возможных значений может занимать сутки и даже месяцы. Оценочная сложность такого алгоритма равна O(2n). Ускорить процесс подбора параметров можно за счет использования ранее полученной информации о подобранных параметрах. Для ускорения процесса составления структуры МС используется система поддержки принятия решений (СППР), включающая метод анализа структуры системы, который позволяет понять, как различные элементы организованы и как они взаимодействуют. На основе предыдущих расчетов составляется база знаний правил соединения молекул. Оценочная сложность подбора параметров будет равна O(n).
Для ускорения и повышения эффективности обработки информации, полученной при выполнении данного алгоритма, было принято решение о разработке:
– методики трансформации формализованного компьютерного представления геометрических координат атомов многоатомной МС, которая позволяет находить и структурировать описание устойчивого состояния различных МС с последующим сохранением в базу данных;
– методики получения формализованного описания процесса взаимодействия многоатомных МС, учитывающей комплексно физические и геометрические особенности взаимодействия атомов;
– СППР геометрических параметров для составления сложных МС.
На основе алгоритма, методик и СППР было разработано специальное математическое и алгоритмическое обеспечение в виде систем анализа, оптимизации, управления, принятия решений. В программном комплексе использованы методы выявления АЦ при моделировании взаимодействий между молекулами, опирающийся на существующие квантово-химические расчеты с привлечением специальных
программ и дополнительных вычислений.
Эксперимент
Для проверки данного программного комплекса было проведено исследование между компонентами клеточной мембраны человека с природными газами (ПГ) (метан, этан, пропан, бутан).
Клеточная мембрана (КМ) – 19 молекул, общее число атомов ≈ 240.
Метан – 1 молекула, которая состоит из 5 атомов.
Количество переборов (КП) = 1 271.
Чтобы посчитать количество расчетов, необходимо:
Общее количество расчетов =
= Количество элементов в КМ · Количество
элементов в ПГ · КП.
Тогда:
Метан с КМ = 240 · 5 · 1 271 ≈
≈ 1 525 200 расчетов.
Время, затраченное на один расчет, 12 ч, тогда
Общее время = 12 · 19 ≈ 228 ч ≈ 10 сут.
Этан с КМ = 240 · 8 · 1 271 ≈ 3 355 440 расчетов.
Время, затраченное на один расчет, 19 ч, тогда
Общее время = 19 · 19 ≈ 500 ч ≈ 20 сут.
Бутан с КМ = 240 · 14 · 1 271 ≈ 4 270 560 расчетов.
Время, затраченное на один расчет, 33 ч, тогда
Общее время = 33 · 19 ≈ 638 ч ≈ 26 сут.
Общее число суток 71 ≈ 3 мес.
Программный продукт эффективно анализирует данные и способствует уменьшению ручного труда, а также позволяет получать точные результаты за время в 50 раз меньшее, чем при проведении эксперимента, без его использования. Также исследователю становятся доступными полезные знания о характеристиках межмолекулярного взаимодействия из многомерных, разнородных, выходных данных квантово-химических программ, таких как энергия образования взаимодействия, величина образовавшейся водородной связи.
Заключение
Системный анализ как методология является мощным инструментом исследования сложных молекулярных структур и процессов, имеющих огромное значение в различных областях науки. Этот подход не только способствует глубокому пониманию молекулярных взаимодействий, но и открывает новые возможности для изучения свойств молекулярных систем. Интегративный подход к решению проблем, связанных с системным анализом, подчеркивает необходимость синергии между различными научными дисциплинами. Такой подход помогает расширить горизонты исследований и создать более сложные и эффективные решения для современных научных задач. Однако, несмотря на все достижения, работа выявила ряд проблем и вызовов, с которыми сталкивается системный анализ
в области молекулярных систем, такими как стандартизация данных, сложности в интерпретации результатов и необходимость в высокопроизводительных вычислительных ресурсах. Эти проблемы требуют дальнейшего изучения и разработки новых подходов для их преодоления, чтобы сделать системный анализ еще более эффективным. Такой подход позволит не только ускорить процесс анализа, но и повысить его точность, что в конечном итоге способствует более эффективному синтезу молекулярных систем. Это может привести к значительным прорывам в синтезе новых материалов и лекарств, что окажет положительное влияние на многие аспекты нашей жизни. Примеры успешного применения результатов исследования, приведенные в работе, демонстрируют, как системный анализ и обработка данных могут привести к реальным достижениям в науке. Эти примеры являются стимулом для будущих исследований и подчеркивают важность интегративного подхода в решении сложных задач.
1. Алыков Н. М., Жарких Л. И., Сиротин А. Н. Математическое моделирование процессов воздействия молекул зарина, зомана и табуна на структурные компоненты клеточной мембраны // Прикасп. журн.: управление и высокие технологии. 2013. Т. 21 (1). С. 71–77.
2. Старикова А. А., Самотруева М. А., Золотарева Н. В., Мережкина Д. В., Озеров А. А. Изучение взаимосвязи антимикробной и гипогликемической активности новых хиназолинонов методами математического моделирования // Прикасп. вестн. медицины и фармации. 2023. Т. 4 (1). С. 63–70.
3. Игнатов С. К. Квантово-химическое моделирование атомно-молекулярных процессов: учеб. пособие. Н. Новгород: Нижегород. гос. ун-т им. Н. И. Лобачевского, 2019. 79 с.
4. Федоров М. Математическое моделирование в химических науках. URL: https://postnauka.ru/video/84371 (дата обращения: 15.09.2023).
5. Gamess. The General Atomic and Molecular Electronic Structure System (GAMESS) is a general ab initio quantum chemistry package. URL: www.msg.chem.iastate.edu/gamess/index.html (дата обращения: 15.09.2024).
6. Максимов А. Г., Завалишин А. Д., Абрамов М. В., Тулупьев А. Л. Хемоинформатика: приложения информатики в анализе химических структур (на примере сульфида кадмия) // Компьютерные инструменты в образовании. 2019. № 4. С. 44–54. DOI:https://doi.org/10.32603/2071-2340-2019-4-44-54.
7. Раевский О. А. Вклад водородного связывания в биодоступность лекарств: методы хемоинформатики // Biomedical Chemistry: Research and Methods. 2018. Т. 1. № 3. С. e00060. DOI:https://doi.org/10.18097/BMCRM00060.
8. Смирнова Ю. А., Головацкая Л. И. Разработка алгоритма и метода трансформации записи атомно-молекулярных систем // Прикасп. журн.: управление и высокие технологии. 2022. № 2 (58). С. 61–67.
9. Смирнова Ю. А., Жарких Л. И. Алгоритмы поиска активных центров межмолекулярного взаимодействия // Вестн. Технолог. ун-та. 2020. Т. 23. № 1. С. 104–111.
10. Смирнова Ю. А., Марьенков А. Н. Особенности программной реализации методики трансформации молекулярных систем // Моделирование, оптимизация и информационные технологии. 2023. Т. 11 (4). URL: https://moitvivt.ru/ru/journal/pdf?id=1440 (дата обращения: 15.09.2024).
11. Смирнова Ю. А., Тарабановская Е. С., Марьенков А. Н. Составление продукционных правил при формировании цифрового двойника процесса взаимодействия двух молекулярных систем // Прикасп. журн.: управление и высокие технологии. 2024. № 1 (65). С. 17–27.