Введение Проблема повышения качества диагностирования различных заболеваний, в том числе заболеваний печени, всегда являлась и является актуальной. Несмотря на значительные достижения по решению проблемы своевременного, правильного и надежного диагностирования, до сих пор нет относительно доступных и эффективных технологий, позволяющих обеспечить ее решение. Именно поэтому задача совершенствования методов диагностирования различных заболеваний печени по-прежнему является актуальной как с точки зрения практических применений и нужд, позволяя поставить диагноз на основе лишь результатов анализов и первичного обследования пациента, так и с позиций теоретической медицинской науки, развивая математическое моделирование различных заболеваний. Основной подход, который был избран нами в ходе исследований, - формирование на основе методов регрессионного анализа совокупности линейных моделей, связывающих возможные значения диагноза с показателями, полученными на основе обследования пациента. Линейный регрессионный анализ позволяет строить линейные зависимости между наборами объясняемых и объясняющих переменных. Использование нелинейных методов пока нецелесообразно ввиду низкого качества исходных данных. Кроме того, аппарат линейного регрессионного анализа показал свою эффективность во многих сферах его приложения. Использование методов регрессионного анализа для построения моделей различных процессов, в том числе и в медицине, не является новым [1]. Относительно полный анализ данного вопроса проведен в [2]. Среди новых направлений по использованию методов регрессионного анализа в медицине укажем логистические модели [2], а также выделим некоторые подходы [3, 4], представляющие интерес с точки зрения развития методов нашего исследования. Отметим, что данную задачу часто относят к новому научному направлению - доказательной медицине [5, 6]. Однако нами, в отличие от указанных работ, строится не одна, а целый набор моделей, которые в совокупности используются при выявлении диагноза. Это связано с тем, что имеющиеся данные, в которых много пробелов и пропусков, пока не позволяют построить модель, удовлетворяющую всем требованиям к ней по достоверности и надежности предсказаний диагноза на ее основе. В качестве выхода из указанной ситуации и предлагается построение набора моделей, являющихся лучшими из состава тех моделей, которые можно построить на основе имеющихся данных. По мере наполнения базы данных по пациентам число моделей в конечном наборе будет уменьшаться до тех пор, пока не останется одна модель. Отметим, однако, что по мере развития медицинской науки и практики появляются новые диагностические показатели, и в данных по пациентам, собранных до появления этих показателей, соответствующих этим показателям графы не будут заполнены, т. е. база данных будет иметь пропуски. Наличие же пробелов обусловлено прежде всего тем, что пока не во всех медицинских учреждениях могут быть выполнены все те виды анализа, которые перечислены ниже. Таким образом, проблема пробелов и пропусков в данных будет существовать достаточно долго, что указывает на важность предлагаемого нами подхода к моделированию диагноза. I. Материалы исследования Всего в 1981-2010 гг. в гастроэнтерологических отделениях Александро-Мариинской областной клинической больницы и городской клинической больницы № 3 г. Астрахани было обследовано 510 больных хроническим гепатитом и циррозом печени. В наше исследование было включено 165 пациентов, наблюдавшихся в 2000-2014 гг., т. к. лишь в эти годы у пациентов определялись маркеры вирусных и бактериальных инфекций, оценить влияние которых на клинику заболеваний и было одной из важных задач работы. Средний возраст больных - 48,8 ± 1,7 лет. Среди пациентов 49,1 % составляли мужчины и 50,9 % - женщины, количество лиц с циррозом печени - 96 (58,2 %), с хроническим гепатитом - 69 (41,8 %). Все пациенты были обследованы согласно общепринятым гастроэнтерологическим стандартам. Кроме того, определялись сывороточные маркеры вирусных и бактериальных инфекций (Chlamidophyla pneumoniae, Mycoplasma pneumoniae, Helicobacter pylori, вирус простого герпеса (HSV-1), вирус Эпштейна - Барр (ВЭБ), цитомегаловирус (ЦМВ), вирус гепатита А (HAV)) и антитела к патогенной и условно-патогенной микрофлоре (Escherichia coli, Proteus mirabilis, Candida albicans, Streptococcus spp., Bacteroides, Klebsiella pneumoniae) классов IgG, IgM, IgA или суммарные антитела методом иммуноферментного анализа (ИФА - качественным, полуколичественным или количественным). Была составлена база данных (135 используемых параметров, включая результаты исследований, формализованных по «бинарному» принципу - «0» или «1», т. е. «нет признака» - «есть признак» (жалобы пациентов, результаты физикального исследования, некоторые инструментальные и лабораторные показатели, в частности наличие или отсутствие основных гепатотропных вирусов; количественные показатели - результаты биохимических исследований, данные инструментальных методов исследования (ультразвуковое, эндоскопическое), а также иные факторы, например год рождения, возраст. В двух случаях использовалась шкала признаков от 0 до 3 (0 - нет признака, 1- слабо выражен, 2 - умеренно выражен, 3 - резко выражен). В частности, эндоскопические изменения желудка подразделялись на норму, наличие гастрита и (или) гастродуоденита, эрозивный процесс, язвенный процесс. Аналогично были разделены признаки желчнокаменной болезни: нет патологии, осадок, камни без осложнений, осложненная желчнокаменная болезнь. Учитывая, что наличие варикозного расширения вен пищевода (ВРВП) практически всегда сопутствует циррозу печени, данный фактор не учитывался при рассматриваемом виде моделирования, т. к. целью исследования была разработка оценки - «вклада» в болезнь факторов, имеющих значительно меньшую диагностическую значимость, т. е. более «тонких» особенностей «образа болезни». II. Анализ возможности моделирования заболеваний печени Для построения математических моделей, описывающих зависимость диагноза от входных факторов (результаты анализа и предварительного обследования пациента), прежде всего необходимо оценить, насколько имеющиеся данные позволяют сформировать желаемую модель. Материалы достаточно обширных наблюдений по заболеваниям печени (165 наблюдений) позволяют поставить задачу построения математических моделей, описывающих зависимости заболевания печени от значений входных характеристик, характеризующих состояние больного. Укажем, что для печени выбрано 135 характеристик, из них 24 применительно к заболеваниям печени введены авторами. Однако имеющиеся наборы наблюдений имеют ряд существенных недостатков: 1. По многим характеристикам для больших групп больных исходные данные отсутствуют по ряду причин. Во-первых, данные собирались в течение двух десятилетий, а по ряду характеристик стали собираться относительно недавно, поэтому для более ранних наблюдений эти данные отсутствуют. Во-вторых, диагностические обследования многих больных проводились не по всем характеристикам, т. е. наборы анализов в историях болезней этих больных неполные. Кроме того, отдельные данные формировались лишь на основе карточек больных, т. к. истории их болезней к настоящему времени уничтожены. 2. Есть основания предполагать, что данные в ряде случаев недостаточно точны; особенно данные, в основе которых лежат субъективные ощущения больных и мнения лечащих врачей. В связи с вышесказанным возникла необходимость учета проблемы низкого качества исходных данных в процессе моделирования. Существуют следующие пути разрешения данной проблемы. Можно попытаться дополнить недостающие данные на основе современных математических методов сглаживания и экстраполяции данных. Однако в нашем случае этот вариант невозможен, т. к. пробелы в данных слишком значительны. Другой путь - построение целой серии моделей, опирающихся на различные группы из отдельных показателей, по которым возможно построить приемлемые модели. По мере увеличения объема наблюдений полученные модели будут уточняться, отдельные модели будут отбрасываться ввиду появления более качественных моделей, пока в конечном итоге не будет получена одна или несколько неулучшаемых моделей. В качестве аппарата исследований выбран линейный регрессионный анализ, позволяющий строить линейные зависимости между наборами объясняемых и объясняющих переменных. Использование нелинейных методов пока нецелесообразно ввиду низкого качества исходных данных. Кроме того, аппарат линейного регрессионного анализа показал свою эффективность во многих сферах его приложения. III. Процедура построения регрессионных моделей Опишем вначале общую процедуру построения регрессионных моделей, реализованную далее применительно к заболеваниям печени. Процедура состоит из следующей совокупности этапов. 1. Вычисляются коэффициенты попарной корреляции между всеми характеристиками, представленными в таблице исходных данных, и прежде всего коэффициенты корреляции между диагнозом и остальными характеристиками. 2. Зоны всех возможных значений модуля коэффициента корреляции (т. е. отрезка [0; 1]) разбиваются на следующие семь зон: - от 0 до 0,01, не включая правую границу. Это зона, при попадании в которую коэффициента корреляции соответствующие характеристики можно считать практически независимыми. Применительно к рассматриваемой задаче это означает недостаточный объем исходных данных, не позволяющий зависимости реализоваться. Применительно к диагностированию при достаточно большом объеме данных это означает, что заболевание практически не зависит от данной характеристики и нет необходимости проводить лабораторный анализ больного по данному показателю; - от 0,01 до 0,1, не включая граничное значение. Это зона очень слабой зависимости характеристик. Выводы в целом аналогичны предыдущим: в целом показатели независимы. Однако, если одна из характеристик - диагноз, то в отдельных редких случаях заболевание и данная характеристика могут оказаться зависимыми. Отбрасывать данные значения нецелесообразно, т. к. при большом количестве слабо коррелированных с диагнозом переменных модель регрессии, построенная по этим переменным, может оказаться достаточно качественной; - от 0,1 до 0,3 (не включая) - зона слабой зависимости характеристик, которая типична для многих нетехнических сфер деятельности. Характеристики, попавшие в данную группу, обычно доминируют и являются основой формирования регрессионных моделей; - от 0,0 до 0,7 (не включая) - зона средней зависимости. Показатели, попавшие в данную зону, требуют внимательного изучения, поскольку таких показателей обычно очень мало, но они достаточно сильно взаимосвязаны с диагнозом. Отметим, однако, что, как было указано выше, средняя и сильная зависимость может быть обусловлена также малым объемом анализируемых данных, общих для данной характеристики и диагноза; - от 0,7 до 0,9 (не включая) - зона повышенной зависимости. Отметим, что подобные показатели в медицине встречаются относительно редко, поскольку многие заболевания, по-видимому, оказывают неполное, частичное влияние на сопутствующие им факторы ввиду сложного, комплексного характера самих заболеваний (к подобным заболеваниям относятся и заболевания печени) - от 0,9 до 0,95 - зона сильной зависимости, при которой применительно к медицинской сфере, где требования к характеру зависимостей между переменными менее жесткие по сравнению, например, с техническими сферами, соответствующие величины обычно считаются практически линейно зависимыми, и поэтому одна из этих величин может быть отброшена. Данное положение (о линейной зависимости) неприемлемо, в частности, для уникальных сочетаний исходных данных, отражающих специфический характер зависимостей между величинами; - от 0,95 до 1,0 - зона очень сильной зависимости. В этом случае исследуемые величины практически линейно зависимы при любых наборах исходных данных. Каждой зоне может быть сопоставлен свой цвет; с использованием полученной цветовой шкалы все ячейки таблицы, описывающей регрессионные зависимости между различными величинами, могут быть раскрашены в цвета, соответствующие значениям величин записанных в них коэффициентов корреляции. 3. Из столбца, сопоставленного для записи диагноза, выбираются строки, в которых коэффициент корреляции попадает в зону средней и выше зависимостей. Факторы, сопоставленные этим строкам, и выбираются в качестве объясняющих параметров искомой регрессионной модели. Назовем выделенную совокупность факторов базовой. 4. Анализируются коэффициенты взаимной корреляции между различными парами базовых факторов. Если встречаются пары факторов с сильной или очень сильной зависимостью, то один из этих факторов выводится из состава базового набора факторов. 5. На основе программной системы EViews строятся модели множественной регрессии для различных сочетаний этих факторов. При построении моделей необходимо одновременно отметить вывод для каждой модели также следующих параметров: объем выборки, использованной при построении модели (берутся только те наборы из исходного набора данных, в которых все поля для всех анализируемых факторов заполнены (не пусты)); вероятность доверия к модели (коэффициент значимости модели), вычисленная на основе использования распределения Стьюдента. 6. Из полученного состава моделей выделяются модели, наиболее эффективные с точки зрения коэффициента детерминации : чем ближе коэффициент к единице, тем более точно (с меньшей ошибкой) построенная модель множественной регрессии описывает диагноз. Наиболее типичные пороговые значения для - 0,95, реже - 0,9. Однако, как показано ниже, те значения коэффициента детерминации, которые были получены при расчетах, оказались низкими, поэтому для сравнения моделей ниже был предложен также другой критерий, основанный на показателе r (см. ниже выражение (1)). 7. Из выделенных моделей производится повторный выбор на основе сравнения коэффициентов значимости (вероятностей на основе критерия Фишера), описывающих уровень доверия к модели; а именно насколько полученные характеристики модели могут быть объяснены случайным сочетанием значений факторов, входящих в модели. Типовые пороговые значения в подавляющем числе приложений принимаются равными 0,05, реже - 0,1. Выделенный в результате набор моделей и является искомым. 8. Выписываются уравнения для всех полученных моделей множественной регрессии в порядке возрастания основного (первого) критерия сравнения моделей. Каждое из этих уравнений может быть использовано для определения диагноза, имеющего два варианта (либо первое заболевание, либо второе), когда получаемые в каждом конкретном случае значения переменной, соответствующей диагнозу, заменяются на ближайшее из чисел - 0 или 1. Тогда значение 0 соответствует первому заболеванию, а значение 1 - второму. Аналогичные процедуры строятся и при многозначном варианте результирующего диагноза. 9. В результате реализации процедуры, описанной в пункте 8, в части моделей результат может оказаться равны 0, а для другой части - 1. В этом случае для получения результирующего диагноза может быть использована одна из следующих процедур. А. Пусть n - число моделей в окончательном перечне; - значение диагноза в i-й модели; - коэффициент значимости модели. Тогда в качестве результирующего значения Y берется среднее значение, полученное усреднением значений , с весами, пропорциональными коэффициентам доверия ; т. е. . Затем значение Y округляется до 0 либо 1 (аналогично пункту 8), и полученное значение и определяет окончательный диагноз. Б. Если все равны 0 или 1, то полагаем Y равным 0 или 1 соответственно. Если же часть равны 0, а часть - 1, то назначается дополнительное обследование больного с целью диагностирования заболевания либо уточнения значений факторов, входящих в выбранные модели. IV. Формирование набора моделей выбора диагноза по заболеваниям печени Приложим описанную в пункте III процедуру к имеющимся наборам данных по заболеваниям печени. Возможными значениями диагноза являются хронический гастрит (соответствует значению 0) либо цирроз печени (соответствует значению 1). Для расчетов была использована программная система EViews 8.0. Сформированный на основе EViews набор моделей, включающий 160 моделей, может быть использован для выявления моделей, наиболее эффективных с точки зрения конечного результата - установки диагноза. Более того, возможно также упорядочить модели по степени их эффективности. Если проанализировать результаты расчета, приведенные в указанном файле, то приходим к следующим выводам. Были перебраны различные сочетания исходных факторов и для каждого из сочетаний построена соответствующая модель множественной регрессии, а также вычислены ее необходимые характеристики: объем использованных данных, коэффициент детерминации, вероятность ошибки на основе F-статистики. При достаточно большом числе факторов (больше 4) модели не получались ввиду отсутствия совместных данных у выбранной совокупности факторов. В результате расчета было построено 160 моделей, охватывающих различные наборы объясняющих показателей. По 87 наборам показателей модели не состоялись - либо значения коэффициента детерминации слишком малы (меньше 0,1), либо отсутствует ввиду тривиальности полученной модели. Основная причина этого: для многих наборов параметров ввиду малого объема общих исходных данных значения большинства из этих параметров постоянны на общих данных. Кроме того, есть предположение, что исходные данные представляют собой смесь линейно зависимых переменных и наложенных на них отдельных выбросов, соответствующих нетипичному течению заболевания. На малых объемах выбросы маловероятны, и, следовательно, зависимость диагноза описывается линейной составляющей. По мере пополнения исходных данных ситуация по составу моделей может кардинально измениться: модели, которые ранее оказались несущественными, могут оказаться в числе наиболее важных, и наоборот. Однако имеющийся в настоящее время набор данных приводит к указанным результатам. Модели были упорядочены в порядке возрастания коэффициента r. Приведем соответствующие уравнения множественной регрессии для каждой из моделей. Для этого вначале введем обозначения для каждого из 14 факторов, которые оказались в составе хотя бы одной из моделей, и для результирующего значения Y диагноза для каждой модели. Пусть X1 соответствует фактору «Общий билирубин при поступлении, мкмоль/л», X2 - «Протромбиновый индекс, %», X3 - «Этаноловый тест (0_1)», X4 - «Фибриноген В (0_1)», X5 - «Размер хвоста поджелудочной железы по данным ультразвукового исследования (УЗИ), мм», X6 - «Состояние желудка по данным фиброгастроскопии (ФГС) (0 - норма, 1 - гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке», X7 - «Антитела к Pseudomonas spp., мкг/мл», X8 - «Антитела к Streptococcus spp., мкг/мл», X9 - «Антитела к Escherichia coli, мкг/мл», X10 - «Антитела к микоплазме класса IgG (0 - нет, 1 - низкий титр, 2 - высокий титр)», X11 - «Антитела к вирусу гепатита А класса IgG (0 - нет, 1 - низкий титр, 2 - высокий титр)», X12 - «Активность воспаления 1-2-3 степень)», X13 - «Диаметр селезеночной вены по УЗИ, мм», X14 - «Конкременты в желчном пузыре по УЗИ (0 - нет патологии, 1 - осадок, 2 - камни без осложнений, 3 - осложненная желчнокаменная болезнь)»; Yi - значение показателя - «Диагноз» для i-й модели, которые могут принимать 2 значения - 0 (хронический гепатит) и 1 (цирроз печени). Тогда справедливы следующие соотношения: Y1 = 1,058166 - 0,0706689·X6 - 0,035434·X8; Y2 = 1,2023595 - 0,096309·X10 - 0,1527785·X12; Y3 = 0,174071 + 0,053162·X13 + 0,0566166·X14; Y4 = 0,849098 - 0,199748·X6 + 0,0282086·X13; Y5 = 0,298331 - 0,1196413·X12 + 0,0654025·X13; Y6 = 2,139796 - 3,3002726e-05·X1 - 0,0130112·X2 - 0,2155362·X12; Y7 = 1,62181395 + 0,0006942·X1 + 0,0113873·X2; Y8 = 1,5387898 - 0,00671·X2 - 0,159943·X6; Y9 = 1,649793 - 0,012511·X2 + 0,0097706·X14; Y10 = 1,822947 - 0,0015925·X1 - 0,0137674·X2 +0,00232584· X14; Y11 = 1,774153 - 0,000595·X1 - 0,0092609·X2 - 0,149971·X6; Y12 = 0,5809357 - 0,04445769·X8 + 0,0006769·X9 + 0,04855374·X13; Y13 = 1,91199 - 0,0104713·X2 - 0,0496821·X8; Y14 = 1,25867+0,04021·Х8 + 0,00501·Х9 + 0,039098·Х10; Y15 = 0,754644 - 0,006869·X2 + 0,0546615·X13; Y16 = 1,556862 - 0,010096·X2 - 0,011519·X9; Y17 = 0,9081192 - 0,001943·X1 - 0,0080846·X2 + 0,05704076·X13; Y18 = 2,2120124 - 0,0039093·X1 - 0,01723441·X2 - 0,0081546·X9; Y19 = 1,5102694 - 0,0172802·X8 - 0,0064798·X9 + 0,0405966·X10 - 0,31259288·X12; Y20 = 1,551698 - 0,021570·X5 - 0,164021·X6 + 0,006236·X13; Y21 = 1,43797 - 0,0072025·X9 + 0,058794·X10 - 0,380429·X12; Y22 = 1,7628953 - 0,0003828·X1 - 0,01020314·X2 - 0,0081207·X5; Y23 = 1,722952 - 0,009771·X2 - 0,008398·X5; Y24 = 1,007728 + 0,0058747·X5 - 0,0530127·X6 - 0,0395576·X8; Y25 = 1,19648 - 0,035669·X8 - 0,0042184·X9 - 0,01349284·X10 + 0,0626685·X14; Y26 = 1,0502288 - 0,031063·X8 + 0,0023437·X9 - 0,1962754·X10 + 0,0102363·X13; Y27 = 0,8114445 + 0,0014443·X9 - 0,194041·X10 + 0,00062513·X13; Y28 = 2,329123 + 0,318824·X3 - 0,0930737·X9; Y29 = 1,5339 - 0,4968819·X3 - 0,0777961·X8; Y30 = 0,375 - 0,75·X3 + 0,125·X12; Y31 = 0,6 - 0,6·X3; Y32 = 0,6 - 0,6·X3 + 0,000001·X6; Y33 = 0,965996 - 0,005607·X1 - 0,827512·X3. V. Сравнительный анализ построенных моделей Проведем сравнительный анализ выбранных моделей. 1. Среди состоявшихся 33 моделей нет ни одной, у которой коэффициент детерминации достаточно большой (близок к единице). Это означает, что нет ни одной модели, которая обеспечила бы высокий уровень надежности предсказания диагноза и которая могла бы быть использована в качестве базовой модели. Наибольшее значение коэффициента детерминации по всем моделям близко к 0,8, но это значение получено для совокупности показателей, имеющих всего 6 общих значений. Отметим: чем меньше состав общих значений, тем больше вероятность, что на этом малом наборе значения параметров окажутся достаточно сильно коррелированы, поэтому при оценке эффективности моделей необходимо учитывать не только значения коэффициентов детерминации, но и объем набора данных, на котором это значение было получено. Рассмотрим возможное выражение для показателя эффективности, учитывающие указанные две характеристики модели. Так как выражение для получено на основе метода наименьших квадратов, то величина описывает среднюю величину ошибки предсказания диагноза на основе рассматриваемой модели. Известно, что при аддитивном накоплении ошибок, если модель правильно описывает реальные данные, нет систематической ошибки, и величина суммарной ошибки убывает со скоростью , где n - объем выборки. Если же модель не соответствует имеющимся данным (например, выбрана линейная модель, хотя исходные данные подчиняются логарифмической зависимости), то в модели присутствует систематическая ошибка, которая с ростом числа наблюдений не уменьшается, а может даже увеличиваться. Поскольку информации о степени адекватности моделей исходным данным при неограниченном росте числа наблюдений нет, то предлагается исходить из того, что в модели присутствует систематическая (ненулевая) ошибка. Тогда в качестве первичной оценки качества модели можно рассмотреть среднюю величину ошибки, приходящейся на одно наблюдение. Оценкой указанной характеристики может служить величина . (1) 2. Сравним все 33 содержательные модели по показателю r. Напомним, что это те из моделей, в которых показатель детерминации достаточно велик - больше 0,1. Результаты расчетов приведены в табл. 1, где записи упорядочены в порядке возрастания показателя r. Таблица 1 Перечень моделей с показателем (1 - объем выборки, 2 - значение коэффициента детерминации, 3 - значение показателя R, 4 - коэффициент значимости) № Факторы в модели 1 2 3 4 1 X6 - «Состояние желудка по ФГС (0 - норма, 1 - гастрит\гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке)» X8 - «Антитела к Streptococcus spp., мкг/мл» 79 0,10933 1,1946 0,012279 2 X10 - «Антитела к Mycoplasma класса IgG (0 - нет, 1- низкий титр, 2 - высокий титр)» X12 - «Активность воспаления 1-2-3 степень)» 73 0,10529 1,2957 0,0203637 3 X13 - «Диаметр селезеночной вены по УЗИ, мм» X14 - «Конкременты в желчном пузыре по УЗИ (0 - нет патологии, 1 - осадок, 2 - камни без осложнений, 3 - осложненная желчнокаменная болезнь)» 67 0,10932 1,4086 0,024601 4 X6 - «Состояние желудка по ФГС (0 - норма, 1 - гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке)» X13 - «Диаметр селезеночной вены по УЗИ, мм» 64 0,15207 1,4388 0,0065303 5 X12 - «Активность воспаления 1-2-3 степень)» X13 - «Диаметр селезеночной вены по УЗИ, мм» 65 0,11416 1,4480 0,0233286 6 X1 - «Общий билирубин при поступлении, мкмоль/л» X2 - «Протромбиновый индекс, %» X12 - «Активность воспаления 1-2-3 степень)» 60 0,14051 1,5451 0,0358545 7 X1 - «Общий билирубин при поступлении, мкмоль/л» X2 - «Протромбиновый индекс, %» 61 0,104397 1,551415 0,040864 8 X2 - «Протромбиновый индекс, %» X6 - «Состояние желудка по ФГС (0 - норма, 1 - гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке)» 53 0,15522 1,7342 0,0147416 9 X2 - «Протромбиновый индекс, %» X14 - «Конкременты в желчном пузыре по УЗИ (0 - нет патологии, 1 - осадок, 2 - камни без осложнений, 3 - осложненная желчнокаменная болезнь)» 53 0,15397 1,7355 0,0152949 10 X2 - «Протромбиновый индекс, %» X14 - «Конкременты в желчном пузыре по УЗИ (0 - нет патологии, 1 - осадок, 2 - камни без осложнений, 3 - осложненная желчнокаменная болезнь)» 51 0,14590 1,8121 0,0578250 11 X1 - «Общий билирубин при поступлении, мкмоль/л» X2 - «Протромбиновый индекс, %» X6 - «Состояние желудка по ФГС (0 - норма, 1 - гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке)» 50 0,16564 1,8269 0,0381067 12 X8 - «Антитела к Streptococcus spp., мкг/мл» X9 - «Антитела к Escherichia coli, мкг/мл» X13 - «Диаметр селезеночной вены по УЗИ, мм» 43 0,14856 2,1459 0,0957333 13 X2 - «Протромбиновый индекс, %» X8 - «Антитела к Streptococcus spp., мкг/мл» 38 0,26829 2,2511 0,0042254 14 X8 - «Антитела к Streptococcus spp., мкг/мл» X9 - «Антитела к Escherichia coli, мкг/мл» X10 - «Антитела к Mycoplasma класса Ig G (0 - нет, 1- низкий титр, 2 - высокий титр)» 37 0,18387 2,4416 0,0784241 15 X2 - «Протромбиновый индекс, %» X13 - «Диаметр селезеночной вены по УЗИ, мм» 36 0,20952 2,4697 0,0206603 16 X2 - «Протромбиновый индекс, %» X9 - «Антитела к Escherichia coli, мкг/мл» 38 0,10941 2,4834 0,1316191 17 X2 - «Протромбиновый индекс, %» X13 - «Диаметр селезеночной вены по УЗИ, мм» 35 0,22739 2,5114 0,0435579 18 X1 - «Общий билирубин при поступлении, мкмоль/л» X2 - «Протромбиновый индекс, %» X9 - «Антитела к Escherichia coli, мкг/мл» 36 0,17191 2,5278 0,1055345 19 X8 - «Антитела к Streptococcus spp., мкг/мл» X9 - «Антитела к Escherichia coli, мкг/мл» X10 - «Антитела к Mycoplasma класса IgG (0 - нет, 1 - низкий титр, 2 - высокий титр)» X12 - «Активность воспаления 1-2-3 степень)» 33 0,21409 2,6864 0,137064 20 X5 - «Размер хвоста поджелудочной железы по данным УЗИ, мм» X6 - «Состояние желудка по ФГС (0 - норма, 1 - гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке)» X13 - «Диаметр селезеночной вены по УЗИ, мм)» 34 0,15629 2,7016 0,158999 21 X9 - «Антитела к Escherichia coli, мкг/мл» X10 - «Антитела к Mycoplasma класса IgG (0 - нет, 1 - низкий титр, 2 - высокий титр)» X12 - «Активность воспаления 1-2-3 степень)» 33 0,19755 2,7145 0,0900924 Окончание табл. 1 Перечень моделей с показателем (1 - объем выборки, 2 - значение коэффициента детерминации, 3 - значение показателя R, 4 - коэффициент значимости) № Факторы в модели 1 2 3 4 22 X1 - «Общий билирубин при поступлении, мкмоль/л» X2 - «Протромбиновый индекс, %» X5 - «Размер хвоста поджелудочной железы по данным УЗИ, мм» 32 0,11608 2,9380 0,3188071 23 X2 - «Протромбиновый индекс, %» X5 - «Размер хвоста поджелудочной железы по данным УЗИ, мм» 32 0,11493 2,9399 0,17026 24 X5 - «Размер хвоста поджелудочной железы по данным УЗИ, мм» X6 - «Состояние желудка по ФГС (0 - норма, 1 - гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке)» X8 - «Антитела к Streptococcus spp., мкг/мл» 25 0,20130 3,5748 0,1848046 25 X8 - «Антитела к Streptococcus spp., мкг/мл» X9 - «Антитела к Escherichia coli, мкг/мл» X10 - «Антитела к Mycoplasma класса IgG (0 - нет, 1 - низкий титр, 2 - высокий титр)» X14 - «Конкременты в желчном пузыре по УЗИ (0 - нет патологии, 1 - осадок, 2 - камни без осложнений, 3 - осложненная желчнокаменная болезнь)» 25 0,19549 3,5878 0,3356182 26 X8 - «Антитела к Streptococcus spp., мкг/мл» X9 - «Антитела к Escherichia coli, мкг/мл» X10 - «Антитела к Mycoplasma класса IgG (0 - нет, 1- низкий титр, 2 - высокий титр)» X13- «Диаметр селезеночной вены по УЗИ, мм» 18 0,19721 4,9777 0,5472500 27 X9 - «Антитела к Escherichia coli, мкг/мл» X10 - «Антитела к Mycoplasma класса IgG (0 - нет, 1- низкий титр, 2 - высокий титр)» X13 - «Диаметр селезеночной вены по УЗИ, мм» 18 0,10736 5,2489 0,6493036 28 X3 - «Этаноловый тест (0_1)» X9 - «Антитела к Escherichia coli, мкг/мл» 6 0,79964 7,4603 0,089682 29 X3 - «Этаноловый тест (0_1)» X8 - «Антитела к Streptococcus spp., мкг/мл» 6 0,75292 8,2845 0,122814 30 X3 - «Этаноловый тест (0_1)» X12 - «Активность воспаления 1-2-3 степень)» 11 0,12916 8,4835 0,575095 31 X3 - «Этаноловый тест (0_1)» 11 0,12 8,5280 0,296665 32 X3 - «Этаноловый тест (0_1)» X6 - «Состояние желудка по ФГС (0 - норма, 1 - гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке)» 11 0,11999 8,5281 0,599695 33 X1 - «Общий билирубин при поступлении, мкмоль/л» X3 - «Этаноловый тест (0_1)» 9 0,35274 8,9392 0,271165 Из приведенных результатов получаем, что имеются 5 моделей, в которых уровень ошибки меньше 1,5 %, и 23 модели, в которых уровень ошибки менее 3 %. Из 33 моделей 15 (45 %) содержат новые показатели, т. е. изучаемые факторы. Эти модели в таблице выделены темным фоном. При этом доля новых показателей во всем наборе показателей существенно меньше - 18 % «темных» (24 показателя из 135). Среди моделей с наиболее высоким обобщенным показателем (менее 1,5 %) эта доля еще больше: доля моделей, содержащих «темные» - 40 % (2 из 5). Среди моделей с показателем меньше 5 %, которые составляют основную часть всех моделей - 26 из 33 (74 %), доля моделей, содержащих новые показатели, также весьма велика. Таким образом, «темные» характеристики являются основной базой для моделирования зависимостей между диагнозом и значениями характеристик пациента, т. е. играют решающую роль в повышении эффективности анализа заболевания. 4. Все приведенные модели имеют достаточно низкий уровень значимости: у 2-х моделей значение коэффициента значимости меньше 1 %, у 13-ти моделей (39 %) меньше 0,05 (5 %) - наиболее распространенный на практике уровень значимости, причем все это модели находятся среди первых 17-ти моделей; только у 4-х моделей коэффициент больше неприемлемого уровня 50 %, причем все эти модели находятся в конце перечня, начиная с 27 места. Если отбросить все модели с коэффициентом значимости больше 5 % (общепринятый на практике уровень коэффициента значимости), то из 33-х моделей останутся только 13 с номерами 1-9, 11, 13, 15, 17, причем из первых 17-ти моделей только у 3-х коэффициент значимости выходит за пятипроцентный барьер, а у оставшихся моделей второй половины таблицы он больше 0,05. Таким образом, упорядочение по показателям r и в значительной степени совпадает. Если провести аналогичный анализ для показателя , то 3 наилучшие модели по показателю с номерами 28, 29 и 33 вообще не попадают в указанный выше список из 13-ти моделей с приемлемым уровнем коэффициента значимости. Приведенные результаты являются дополнительным аргументом в обоснование использования коэффициента r вместо при проведении сравнительного анализа моделей. Отметим также, что, как видно из таблицы, результаты упорядочения по критериям и r значимо отличаются: модели с самым высоким коэффициентов оказались в самом конце перечня (под номерами 28, 29 и 33), а модели с самым низким уровнем ошибки r (первые модели в перечне) имеют низкий коэффициент детерминации - порядка 0,1 для первых 3-х моделей. 5. По существу, в табл. 1 приведены значения трех возможных критериев сравнения моделей: коэффициента детерминации , характеризующего степень точности приближения имеющихся наблюдений с помощью значений, полученных с использованием модели; коэффициента r, описывающего среднюю величину ошибки, приходящуюся на одно наблюдение; коэффициента значимости , оценивающего степень доверия к модели на основе вероятности того, что отклонения расчетных значений от исходных данных носят случайный характер и порождены случайными флуктуациями данных. Естественно сравнить, насколько результаты сравнительного анализа по каждому из критериев совпадают. Для сравнения критериев были вычислены коэффициенты , и между столбцами и r, и , r и соответственно. Получены следующие значения: , , . Как видно из результатов расчетов, критерии и практически независимы - значение коэффициента корреляции меньше 0,1. Степень зависимости между и r, r и находится на уровне 60 %, что указывает на средний уровень зависимости. Основной вывод следующий: сравнительный анализ моделей может проводиться независимо по всем трем критериям. 6. На основе данных табл. 1 можно оценить степень важности каждого из исходных факторов (переменных). Всего в моделях, перечисленных в табл. 1, используются 14 факторов. В качестве основного критерия классификации выберем, как и выше, критерий r. Тогда в качестве оценки степени важности фактора предлагается использовать частоту появления соответствующего фактора в моделях, приведенных в табл. 1. Результаты представлены в табл. 2. Таблица 2 Частота появления факторов в моделях № Фактор Частота появления фактора в табл. 1 Абсолютная % 1 Общий билирубин при поступлении, мкмоль/л 8 57 2 Протромбиновый индекс, % 13 93 3 Этаноловый тест (0_1) 6 43 4 Фибриноген В (0_1) 0 0 5 Размер хвоста поджелудочной железы по данным УЗИ, мм 4 29 6 Состояние желудка по ФГС (0 - норма, 1- гастрит/гастродуоденит, 3 - эрозии в желудке или 12-перстной кишке, 4 - язва в желудке или 12-перстной кишке) 6 43 7 Антитела к Pseudomonas spp., мкг/мл 0 0 8 Антитела к Streptococcus spp., мкг/мл 9 64 9 Антитела к Escherichia coli, мкг/мл 10 71 10 Антитела класса IgG к Mycoplasma (0 - нет, 1 - низкий титр, 2 - высокий титр) 7 50 11 Антитела класса IgG к вирусу гепатита А (0 - нет, 1 - низкий титр, 2 - высокий титр) 0 0 12 Активность воспаления (1-2-3) 6 43 13 Диаметр селезеночной вены по УЗИ, мм 9 64 14 Конкременты в желчном пузыре по УЗИ (0 - нет патологии, 1 - осадок, 2 - камни без осложнений, 3 - осложненная желчнокаменная болезнь) 4 29 Анализ данных в табл. 2 позволяет сделать ряд полезных выводов: А) в полученном перечне моделей наиболее часто встречаются следующие факторы: X2 - «Протромбиновый индекс, %» - встречается в 93 % моделей, X9 - «Антитела к Escherichia coli, мкг/мл» - в 71 % моделей, X8 - «Антитела к Streptococcus spp., мкг/мл», X13 - «Диаметр селезеночной вены по УЗИ, мм» - в 64 % моделей; Б) 3 фактора (X4 - «Фибриноген В (0_1)», X7 - «Антитела к Pseudomonas spp., мкг/мл», X11 - «Антитела к вирусу гепатита А класса IgG (0 - нет, 1 - низкий титр, 2 - высокий титр)») вообще не попали ни в одну из приведенных 33-х моделей - они остались в моделях, которые в процессе анализа не попали в число отобранных; В) в первые 5 наиболее важных моделей из приведенных в пункте А наиболее часто встречающихся факторов входит только 1: X8 - «Антитела к Streptococcus spp., мкг/мл» и только в составе одной модели (первой). Таким образом, распределение факторов по моделям достаточно неоднородное, и явной связи между качеством модели и факторами, входящими в нее, нет. Заключение В ходе исследований нами получены следующие результаты: 1. Определен состав диагностических признаков заболеваний печени в количестве 135, которые в настоящее время исследуются в процессе предварительного обследования пациента и по которым имеется определенная база из 165 данных, накапливавшаяся более десятилетия. 2. На основе программной системы EViews построено 160 моделей при различных сочетаниях факторов. 3. Обосновано введение нового критерия оценки качества каждой из построенных моделей. На основе коэффициента детерминации выделены 33 наиболее содержательные модели, которые упорядочены в порядке убывания введенного критерия. 4. Для каждой из построенных моделей предложено уравнение множественной регрессии, связывающее результирующий диагноз со значениями соответствующих факторов. 5. Проведен сравнительный анализ построенных моделей, по результатам которого выделены наиболее важные факторы и модели. 6. Предложена методология оценки значимости различных факторов, формирующих «образ болезни», на основе анализа комплекса построенных регрессионных моделей, которую можно использовать при условии недостаточности исходных данных для построения единой регрессионной описательной модели заболевания. 7. Выявлены 3 ранее не учитывавшихся вирусно-бактериальных маркера, которые влияют на особенности клиники хронических диффузных заболеваний печени (хронический гепатит и цирроз печени) и имеют дифференциально-диагностическое значение («Антитела к Streptococcus spp., мкг/мл», «Антитела к Escherichia coli, мкг/мл», «Антитела к Mycoplasma класса IgG»). Полученные результаты могут быть использованы для установления предварительного диагноза заболевания печени.