Russian Federation
One of the urgent tasks of system analysis, data processing and analysis for studying the synthesis of molecular systems, their properties and compounds is considered. The importance of cooperation between different scien-tific disciplines is emphasized as an integrative approach to solving problems related to systems analysis. The combination of knowledge in the fields of chemistry, physics, computer science and biology provides effective tools for the study of complex molecular systems, which is important for various fields of science and technology. One of the most widespread methods of data processing in this field is chemoinformatics, combining knowledge from chemistry, computer science and statistics. Systems analysis in chemoinformatics is a transdisciplinary methodology combining the principles of systems analysis and chemoinformatics for the study and analysis of chemical data. The main purpose of systems analysis in chemoinformatics is to create models and algorithms for a deeper understanding of complex chemical systems and processes. This approach also makes it possible to improve understanding of the structure and functions of molecular systems, predict the properties of chemical compounds, develop new drugs, optimize the synthesis of chemical compounds and solve many other tasks. A new approach to the analysis and processing of quantum chemical calculations data is proposed. The features used in the process of modeling the synthesis of a complex molecular system are discussed. The necessity of automating the selection of parameters for modeling molecular interactions is emphasized. A solution to the problem of a complete enumeration of all interaction parameters based on production rules is given. The application of this approach and the formalized description of knowledge has significantly increased the speed of parameter selection in the study of the synthesis of molecular systems.
synthesis of molecular systems, formalized representation, program, system analysis, chemoinformatics
Введение
В мире современной науки и технологий исследование молекулярных систем (МС) является одним из важнейших направлений. Это область, которая позволяет углублено изучать молекулярные процессы на клеточном уровне и понимать особенности функционирования живых организмов. Для проведения таких исследований применяются различные методы системного анализа, обработки и анализа данных.
Системный анализ – метод, который позволяет рассматривать всю систему в целом, а не отдельные ее элементы. При исследовании МС системный анализ позволяет изучить взаимосвязи и взаимодействия между различными компонентами клетки или организма, выявить общие закономерности и понять, какие процессы и механизмы лежат в основе функционирования живых организмов.
Одним из ключевых инструментов при проведении исследований МС является обработка и анализ данных. Современные технологии позволяют собирать огромные объемы данных, полученных с использованием различных методов анализа. Чтобы извлечь ценные знания из этих данных, необходимо применять специальные методы обработки и анализа.
Одним из наиболее распространенных методов обработки данных является хемоинформатика, которая объединяет знания из химии, информатики и статистики.
Системный анализ в хемоинформатике – это трансдисциплинарная методология, объединяющая принципы системного анализа и хемоинформатики для изучения и анализа химических данных. Целью системного анализа в хемоинформатике является создание моделей и алгоритмов для понимания сложных химических систем и процессов. В хемоинформатике используются различные методы компьютерного моделирования, анализа данных, статистики и машинного обучения для изучения химических веществ, их взаимодействий и свойств.
Системный анализ в хемоинформатике позволяет улучшить понимание структуры и функции МС, предсказать свойства химических соединений, разрабатывать новые лекарственные препараты, оптимизировать процессы синтеза химических соединений и многое другое.
С течением времени наблюдается рост востребованности химических расчетов, что связано с увеличением объема химических сведений. В условиях работы с большими данными для обработки информации важно задействовать методы системного анализа и хемоинформатики, позволяющие комплексно рассматривать химические структуры, учитывая их многообразие и взаимосвязанность, а также сократить время исследований и анализа химических структур.
Применение хемоинформатики в исследованиях образования активного центра (АЦ) в сложных МС способствует более глубокому пониманию воздействия одной молекулы на другую, что позволяет провести подбор ингибиторов и осуществлять поиск антидотов. Практическое применение приведено в [1, 2]. Выполнение такого исследования требует сложных расчетов, генерируется множество цифровых данных, которые необходимо анализировать, структурировать, визуализировать и трансформировать, что приводит к необходимости использования значительных вычислительных ресурсов.
Методы хемоинформатики
Основные методы хемоинформатики включают:
– молекулярное моделирование – использование компьютерных технологий для построения и изучения структуры, свойств и поведения молекул, методы молекулярной механики, молекулярной динамики и квантовой химии, методика применения которых подробнее описана [3, 4];
– виртуальный скрининг – использование компьютерных методов для оценки и ранжирования больших библиотек химических соединений с целью выявления потенциально активных молекул для дальнейшей разработки. Это позволяет сэкономить время и ресурсы, сфокусировавшись на наиболее перспективных соединениях еще до проведения дорогостоящих экспериментальных исследований;
– обработка и анализ данных. Хемоинформатика работает с огромными объемами данных, полученных из экспериментальных исследований, виртуального скрининга и других источников. Методы обработки и анализа данных, такие как статистический анализ, машинное обучение и визуализация, играют ключевую роль в извлечении полезной информации из этих данных и выявлении закономерностей, которые могут быть использованы для разработки новых лекарств и материалов.
Методы системного анализа
Методы системного анализа представляют собой разнообразные подходы и инструменты, которые применяются для глубокого изучения систем и их компонентов, а также для оценки влияния различных факторов на функционирование этих систем. Подходы системного анализа:
– анализ структуры системы включает исследование архитектуры системы, ее компонентов и взаимосвязей между ними. Это позволяет выявить, как различные элементы организованы и как они взаимодействуют, что может помочь в оптимизации структуры и улучшении ее эффективности;
– системная динамика позволяет моделировать изменения в поведении системы с течением времени. С помощью этого подхода можно разрабатывать различные сценарии развития и прогнозировать, как система будет реагировать на изменения внешней среды или внутренних факторов;
– метод множественного критерия включает оценку и анализ нескольких критериев, что особенно важно при принятии решений в сложных системах, что позволяет учитывать различные аспекты и находить оптимальные решения, которые удовлетворяют множеству требований;
– моделирование и имитационное моделирование используют математические и компьютерные модели для анализа поведения системы в различных условиях. Имитационное моделирование позволяет протестировать различные сценарии и оценить, как система будет вести себя в ответ на изменения, что помогает в принятии более обоснованных решений.
Анализ данных при исследовании синтеза молекулярных систем
Синтез МС осуществляется благодаря определению АЦ, который обладает набором параметров, соответствующих конкретным критериям, формируется комплекс M1M2, который называют сложной МС. Схема формирования сложной МС представлена на рис.
Схема формирования сложной молекулярной системы: А – атом; М – молекула
The scheme of formation of a complex molecular system: A – atom; M – molecule
Исследование синтеза МС подразумевает наличие большого объема данных, который требует системного анализа и обработки.
Вот некоторые шаги, которые могут быть применены при исследовании МС:
1. Сбор данных. Сбор всех доступных данных о МС, представленных в виде формализованного компьютерного представления, которые содержат в себе следующую информацию:
– Zi, Za, Zb, Zc – тип атома (имя химического элемента), где i, a, b, c – порядковые номера;
– RZiZa – межатомное расстояние между атомами Zi и Za;
– αZiZaZb – валентный угол, который образуется между атомами Zi и Za, Zb;
– φZiZaZbZc – двугранный угол, образованный атомом Zi и плоскостью Za, Zb, Zc.
Структурная формула описания МС в виде Z-матрицы имеет вид
2. Предобработка данных. Очистка данных, исправление ошибок, проведение нормализации данных, чтобы сделать будущий анализ более точным.
3. Анализ данных. Применение методов статистического анализа данных, биоинформатики для извлечения информации из множества данных.
4. Интеграция данных. Соединение данных из различных источников для получения полного понимания МС.
5. Моделирование систем. Построение математических моделей МС для анализа и прогнозирования их поведения.
6. Визуализация результатов. Представление результатов в виде интерактивных визуализаций для облегчения понимания сложных данных.
7. Интерпретация и выводы. Анализ полученных результатов, формулирование выводов и предложений для дальнейших исследований.
Эффективная обработка и анализ данных МС требует интеграции различных методов и подходов, что помогает выявить скрытые закономерности и важные отношения в молекулярных процессах.
Для обработки информации на этапах построения моделей МС важно использовать хемоинформатику и системный анализ в комплексе. Хемоинформатика [6, 7] предоставляет инструменты для анализа и обработки химических данных, что позволяет эффективно выявлять закономерности и предсказывать свойства молекул. В то же время системный анализ помогает понять структуру и взаимосвязи между компонентами МС, что способствует оптимизации исследуемых структур.
Так как любая наука опирается на эксперимент и наблюдение, а задача науки состоит в том, чтобы дать возможность предсказывать явления природы и глубже и полнее понимать природу, то системный анализ с хемоинформатикой выступают удобным инструментом для развития науки.
Изучение свойств молекул и их соединений представляет значительный интерес для понимания протекания реакции и участия в химических взаимодействиях отдельных групп, составляющих ту или иную молекулу. Согласно гипотезе о молекулярном строении молекула представляет собой набор атомов, связанных совокупностью связей. Эта гипотеза и в настоящее время продолжает служить основным средством упорядочения и классификации наблюдений в химии. Любые эксперименты подтверждают тот факт, что понимание химического поведения системы возможно, только если принять, что атомы существуют и именно они определяют строение системы и ее свойства. Однако проблема понимания молекулярного строения материи состоит главным образом в том, что молекулу нельзя непосредственно описать с помощью физических законов, управляющих движением ядер и электронов, образующих атомы и связи. В основе химии лежит мощная классификационная схема, которая имеет определенные ограничения из-за своего эмпирического характера.
Рассмотрим алгоритм для выявления активных центров при синтезе двух МС. Этот алгоритм предполагает использование программного пакета МОPAC [2], программы GAMESS [5] и других инструментов для моделирования взаимодействий с целью выявления АЦ поверхности.
Шаг 1. Создание МС в пакете МОPAC и выгрузка файла.
Шаг 2. Форматирование выходного файла пакета МОPAC с матрицей атомов для дальнейшего применения в других программах.
Шаг 3. Формирование out-файла для программы GAMESS для расчета геометрического равновесия.
Шаг 4. Формирование оптимизированной Z-матрицы из выходных документов программы GAMESS.
Шаг 5. Формирование массива потенциальных активных центров (ПАЦ) на основе полученных оптимизированных Z-матриц.
Шаг 6. Автоматизация процесса формирования объединенной Z-матрицы с учетом образования подбора геометрических параметров для образования водородной связи на основе ПАЦ.
Шаг 7. Проверка условий образования водородной связи для каждой пары атомов из ПАЦ с целью создания устойчивого конгломерата.
Шаг 8. Анализ данных для оценки наличия водородной связи между рассматриваемыми парами атомов молекулы и молекулы препарата на основе энергетических характеристик и геометрии адсорбционных комплексов.
Шаг 9. Исключение из множества ПАЦ комплексов АК с низкой вероятностью возникновения и составление таблицы основных энергетических и геометрических характеристик для межмолекулярного моделирования взаимодействий.
Шаг 10. Построение схемы АЦ – набор атомов, обеспечивающий идентификацию АЦ воздействия конкретного препарата.
Более подробно алгоритм расписан в статьях [8–11].
Самым сложным шагом в данном алгоритме является процесс принятия решений при подборе геометрических параметров для составления сложных МС, т. к. при подборе геометрических параметров соединения атомов необходимо выбрать оптимальные значения, которые будут использованы для создания объединенной Z-матрицы. Подобранные геометрические параметры представлены в виде следующего кортежа:
,
где – расстояние водородной связи; Rotp – диапазон возможных значений водородной связи; – валентный угол; αotp – массив возможных значений валентного угла. С помощью ван-дер-ваальсовых радиусов можно рассчитать расстояние, на которое могут сблизиться атомы:
Полный перебор всех возможных значений может занимать сутки и даже месяцы. Оценочная сложность такого алгоритма равна O(2n). Ускорить процесс подбора параметров можно за счет использования ранее полученной информации о подобранных параметрах. Для ускорения процесса составления структуры МС используется система поддержки принятия решений (СППР), включающая метод анализа структуры системы, который позволяет понять, как различные элементы организованы и как они взаимодействуют. На основе предыдущих расчетов составляется база знаний правил соединения молекул. Оценочная сложность подбора параметров будет равна O(n).
Для ускорения и повышения эффективности обработки информации, полученной при выполнении данного алгоритма, было принято решение о разработке:
– методики трансформации формализованного компьютерного представления геометрических координат атомов многоатомной МС, которая позволяет находить и структурировать описание устойчивого состояния различных МС с последующим сохранением в базу данных;
– методики получения формализованного описания процесса взаимодействия многоатомных МС, учитывающей комплексно физические и геометрические особенности взаимодействия атомов;
– СППР геометрических параметров для составления сложных МС.
На основе алгоритма, методик и СППР было разработано специальное математическое и алгоритмическое обеспечение в виде систем анализа, оптимизации, управления, принятия решений. В программном комплексе использованы методы выявления АЦ при моделировании взаимодействий между молекулами, опирающийся на существующие квантово-химические расчеты с привлечением специальных
программ и дополнительных вычислений.
Эксперимент
Для проверки данного программного комплекса было проведено исследование между компонентами клеточной мембраны человека с природными газами (ПГ) (метан, этан, пропан, бутан).
Клеточная мембрана (КМ) – 19 молекул, общее число атомов ≈ 240.
Метан – 1 молекула, которая состоит из 5 атомов.
Количество переборов (КП) = 1 271.
Чтобы посчитать количество расчетов, необходимо:
Общее количество расчетов =
= Количество элементов в КМ · Количество
элементов в ПГ · КП.
Тогда:
Метан с КМ = 240 · 5 · 1 271 ≈
≈ 1 525 200 расчетов.
Время, затраченное на один расчет, 12 ч, тогда
Общее время = 12 · 19 ≈ 228 ч ≈ 10 сут.
Этан с КМ = 240 · 8 · 1 271 ≈ 3 355 440 расчетов.
Время, затраченное на один расчет, 19 ч, тогда
Общее время = 19 · 19 ≈ 500 ч ≈ 20 сут.
Бутан с КМ = 240 · 14 · 1 271 ≈ 4 270 560 расчетов.
Время, затраченное на один расчет, 33 ч, тогда
Общее время = 33 · 19 ≈ 638 ч ≈ 26 сут.
Общее число суток 71 ≈ 3 мес.
Программный продукт эффективно анализирует данные и способствует уменьшению ручного труда, а также позволяет получать точные результаты за время в 50 раз меньшее, чем при проведении эксперимента, без его использования. Также исследователю становятся доступными полезные знания о характеристиках межмолекулярного взаимодействия из многомерных, разнородных, выходных данных квантово-химических программ, таких как энергия образования взаимодействия, величина образовавшейся водородной связи.
Заключение
Системный анализ как методология является мощным инструментом исследования сложных молекулярных структур и процессов, имеющих огромное значение в различных областях науки. Этот подход не только способствует глубокому пониманию молекулярных взаимодействий, но и открывает новые возможности для изучения свойств молекулярных систем. Интегративный подход к решению проблем, связанных с системным анализом, подчеркивает необходимость синергии между различными научными дисциплинами. Такой подход помогает расширить горизонты исследований и создать более сложные и эффективные решения для современных научных задач. Однако, несмотря на все достижения, работа выявила ряд проблем и вызовов, с которыми сталкивается системный анализ
в области молекулярных систем, такими как стандартизация данных, сложности в интерпретации результатов и необходимость в высокопроизводительных вычислительных ресурсах. Эти проблемы требуют дальнейшего изучения и разработки новых подходов для их преодоления, чтобы сделать системный анализ еще более эффективным. Такой подход позволит не только ускорить процесс анализа, но и повысить его точность, что в конечном итоге способствует более эффективному синтезу молекулярных систем. Это может привести к значительным прорывам в синтезе новых материалов и лекарств, что окажет положительное влияние на многие аспекты нашей жизни. Примеры успешного применения результатов исследования, приведенные в работе, демонстрируют, как системный анализ и обработка данных могут привести к реальным достижениям в науке. Эти примеры являются стимулом для будущих исследований и подчеркивают важность интегративного подхода в решении сложных задач.
1. Alykov N. M., Zharkikh L. I., Sirotin A. N. Ma-tematicheskoe modelirovanie protsessov vozdeistviia molekul zarina, zomana i tabuna na strukturnye komponenty kletochnoi membrany [Mathematical modeling of the effects of sarin, soman and tabun molecules on the structural components of the cell membrane]. Prikaspiiskii zhurnal: upravlenie i vysokie tekhnologii, 2013, vol. 21 (1), pp. 71-77.
2. Starikova A. A., Samotrueva M. A., Zolotareva N. V., Merezhkina D. V., Ozerov A. A. Izuchenie vzaimosviazi antimikrobnoi i gipoglikemicheskoi aktivnosti novykh khinazolinonov metodami matematicheskogo modelirovaniia [The study of the relationship between antimicrobial and hypoglycemic activity of new quinazolinones by mathematical modeling methods]. Prikaspiiskii vestnik meditsiny i farmatsii, 2023, vol. 4 (1), pp. 63-70.
3. Ignatov S. K. Kvantovo-khimicheskoe modelirovanie atomno-molekuliarnykh protsessov: uchebnoe posobie [Quantum chemical modeling of atomic and molecular processes: a textbook]. Nizhnii Novgorod, Nizhegorod. gos. un-t im. N. I. Lobachevskogo, 2019. 79 p.
4. Fedorov M. Matematicheskoe modelirovanie v khimicheskikh naukakh [Mathematical modeling in chemical sciences]. Available at: https://postnauka.ru/video/84371 (accessed: 15.09.2023).
5. Gamess. The General Atomic and Molecular Electronic Structure System (GAMESS) is a general ab initio quantum chemistry package. Available at: www.msg.chem.iastate.edu/gamess/index.html (accessed: 15.09.2024).
6. Maksimov A. G., Zavalishin A. D., Abramov M. V., Tulup'ev A. L. Khemoinformatika: prilozheniia informatiki v analize khimicheskikh struktur (na primere sul'fida kadmiia) [Chemoinformatics: applications of computer science in the analysis of chemical structures (using the example of cadmium sulfide)]. Komp'iuternye instrumenty v obrazovanii, 2019, no. 4, pp. 44-54. DOI:https://doi.org/10.32603/2071-2340-2019-4-44-54.
7. Raevskii O. A. Vklad vodorodnogo sviazyvaniia v biodostupnost' lekarstv: metody khemoinformatiki [The contribution of hydrogen binding to the bioavailability of drugs: chemoinformatics methods]. Biomedical Chemistry: Research and Methods, 2018, vol. 1, no. 3, p. e00060. DOI:https://doi.org/10.18097/BMCRM00060.
8. Smirnova Iu. A., Golovatskaia L. I. Razrabotka algoritma i metoda transformatsii zapisi atomno-molekuliarnykh sistem [Development of an algorithm and a method for the transformation of the recording of atomic and molecular systems]. Prikaspiiskii zhurnal: upravlenie i vysokie tekhnologii, 2022, no. 2 (58), pp. 61-67.
9. Smirnova Iu. A., Zharkikh L. I. Algoritmy poiska aktivnykh tsentrov mezhmolekuliarnogo vzaimodeistviia [Algorithms for searching for active centers of intermolecular interaction]. Vestnik Tekhnologicheskogo universiteta, 2020, vol. 23, no. 1, pp. 104-111.
10. Smirnova Iu. A., Mar'enkov A. N. Osobennosti programmnoi realizatsii metodiki transformatsii molekuliarnykh sistem [Features of the software implementation of the method of transformation of molecular systems]. Modelirovanie, optimizatsiia i informatsionnye tekhnologii, 2023, vol. 11 (4). Available at: https://moitvivt.ru/ru/journal/pdf?id=1440 (accessed: 15.09.2024).
11. Smirnova Iu. A., Tarabanovskaia E. S., Mar'enkov A. N. Sostavlenie produktsionnykh pravil pri formirovanii tsifrovogo dvoinika protsessa vzaimodeistviia dvukh molekuliarnykh sistem [Drafting production rules for the formation of a digital twin of the process of interaction between two molecular systems]. Prikaspiiskii zhurnal: upravlenie i vysokie tekhnologii, 2024, no. 1 (65), pp. 17-27.