Состояние проблемы Особенностью современного этапа развития научной коммуникации является вовлечение в научно-информационный процесс телекоммуникационных систем, и прежде всего сети Интернет. Наряду с концепцией Веб 2.0 заговорили о понятии Наука 2.0, включающем в себя платформы, на которых ученые могут вести свои блоги (например, Scienceblogs.com), специализированные научные энциклопедии, как правило на основе бесплатно распространяемого программного обеспечения от создателей Wikipedia (например, Proteins Wiki), и социальные сети для ученых. Наше исследование посвящено анализу контента именно таких социальных сетей. Научные социальные сети очень востребованы за рубежом, где число пользователей крупнейших из них превышает миллион человек, а число размещаемых публикаций или ссылок на них составляет десятки миллионов. В последнее время научные социальные сети приобретают популярность и в России. Кроме того, ряд российских пользователей регистрируется в зарубежных сетях. Автоматизированный поиск по научным социальным сетям в настоящее время представлен поисковыми механизмами в составе этих социальных сетей (Mendeley.com, ResearchGate.net и др.). Данные механизмы не предусматривают семантического анализа текста. Между тем для научной информации характерно широкое использование терминологии, в том числе вводимой впервые, что осложняет задачу информационного поиска по текстам такого рода. В этих условиях актуальны как традиционная задача информационного поиска - поиск публикаций в подобных электронных хранилищах, так и задачи, характерные для социальных сетей: поиск похожих пользователей и материалов (например, поиск исследователей, близких по интересам). Целью нашего исследования стала разработка автоматизированной системы интеллектуального анализа контента научных социальных сетей. Постановка задачи Социальная сеть для ученых или научная социальная сеть является гибридной сетью [1]. Она объединяет в себе документарную и социальную сеть, т. е. состоит как из документов различных форматов, так и из социальных субъектов (авторов и исследователей), связанных между собой социальными связями (рис. 1). Наименьшей семантической единицей каждого документа можно считать термин. Рис. 1. Научная социальная сеть Для представления социальной сети мы в своем проекте опираемся на разработанную ранее семантическую модель [2], которая позволяет: - учесть не только термины, непосредственно входящие в документ, но и термины, которые связаны с ним семантически; - обрабатывать текст без привлечения дополнительных хранилищ знаний; - осуществлять поиск по текстовому корпусу как обход графа. Таким образом, можно расширить приведенную на рис. 1 модель научной социальной сети, добавив к ней термины (концепты), характеризующие каждый документ, и связи между ними, а также между ними и документами. Семантическая модель [2] позволяет по-новому подойти к задаче поиска похожих пользователей и документов в социальной сети, если добавить к характеристикам публикации профиль ее автора. Тогда, с помощью модели, можно рассчитать веса шести видов связей (ребер графа) между объектами научной социальной сети: «термин-термин», «автор-автор», «документ-документ», «автор-документ», «автор-термин», «термин-документ». Выявление данных связей позволит давать пользователям рекомендации относительно объектов, которые могут быть им интересны, и осуществлять итеративный поиск объектов. В [2] исследовалась семантическая модель текстового корпуса. Модификация этой модели позволяет построить семантическую модель научной социальной сети: , где - множество публикаций; - множество терминов; - множество авторов (аккаунтов социальной сети); элементы матриц , , , , , отражают меру сходства между документами, терминами и авторами. В основу расчета матриц решено было положить метод Random Indexing - индексацию текстовых документов случайными числами [3]. Построение семантической модели с помощью метода Random Indexing Рассмотрим, каким образом метод Random Indexing помогает построить семантическую модель научной социальной сети. Даны множества D, T, и матрицы , , где - вес (TF*IDF [4]) i-го термина в j-м документе; , n1 - число публикаций автора ai, i = 1, …, m; j = 1, …, n; k = 1, …, l. Необходимо построить множества Сначала проанализируем матрицу . Построим множество индексных векторов документов в соответствии с [3]. где вектор составлен по следующему алгоритму. На первом шаге вектор заполняется нулями. Затем в цикле от 1 до заданного числа r на каждой итерации случайным образом выбираются две нулевые компоненты вектора, одной из которых присваивается значение 1, а другой - «минус 1» (-1). Рассчитаем по ним множество векторов терминов: , где (алгоритм расчета описан в [3]). Рассчитаем множество новых векторов: где , - количество терминов в документе. Описанный процесс может быть повторен несколько раз для улучшения результатов семантического анализа. Для вычисления сходства двух документов d1 и d2, представленных как векторы и , в векторной модели пространства [5] обычно используется косинусная мера сходства векторов: . Рассчитаем: где ; где ; где . Рассмотрим вариант применения метода Random Indexing для нахождения связей между авторами. Проанализируем матрицу . Построим множество индексных векторов авторов: . Рассчитаем по ним множество векторов терминов: , где . Рассчитаем множество новых векторов: , где ; - количество терминов во всех публикациях автора . Описанный процесс может быть повторен несколько раз для улучшения результатов семантического анализа. Рассчитаем: где ; , где ; где . Таким образом, все необходимые данные для построения семантической модели социальной сети получены. Из шести полученных таблиц базы данных могут быть рассчитаны девять видов связей, позволяющие осуществлять поиск объектов в девяти режимах (табл. 1). Таблица 1 Возможные режимы поиска объектов Объект Автор Термин Публикация Автор Подбор рекомендаций (автор - автор) Генерация списка тегов, характеризующих автора Подбор рекомендаций (автор - публикация) Термин Поиск пользователей по запросу Расширение поискового запроса Поиск публикаций по запросу Публикация Подбор рекомендаций (публикация - автор) Генерация списка тегов Подбор рекомендаций (публикация - публикация) Итеративный поиск объектов и критерии останова поиска Представление семантической модели в виде графа позволяет осуществлять итеративный поиск в каждом из перечисленных режимов как обход графа. Из существующих алгоритмов обхода был выбран волновой алгоритм, т. к. понятие фронта волны, формирующегося на каждом шаге работы данного алгоритма, соответствует понятию m-го уровня детализации термина, использующегося в алгоритме уточнения поискового запроса, предложенном в [2]. Элементы алгоритма уточнения поискового запроса могут быть использованы для реализации интерактивного поиска. Фронт волны выводится на экран, и пользователь может отметить интересующие его элементы, по которым поиск будет продолжен. Элементы, не отмеченные пользователем, удаляются из фронта волны и помечаются как просмотренные (рис. 2). Рис. 2. Удаление элемента из фронта волны На следующем этапе будет выведен на экран новый фронт волны. Процесс продолжится до останова пользователем или до завершения обхода графа. Понять, когда лучше остановиться в процессе итеративного поиска объектов, помогут критерии останова, описанные в [2]. Они представляют собой экстремальные значения характеристик вершин графа: - - максимальная глубина поиска - количество уровней в контексте элемента; - - максимальное количество элементов в контексте; - - максимальное количество элементов в запросе; - - минимальная степень вершины; - - минимальная энтропия. Перед началом поиска пользователь задает значения параметров, которые он считает экстремальными. На каждой итерации значения перечисленных параметров вычисляются и сравниваются с заданными. Остановится ли на этом этапе процесс поиска, зависит от выбранного пользователем режима поиска. При интерактивном поиске эти параметры носят рекомендательный характер, о достижении заданных значений сообщается пользователю, но решение о прекращении или продолжении поиска он принимает самостоятельно. При автоматическом поиске процесс останавливается при достижении заданных значений параметров. Разработанное веб-приложение Для хранения информации об объектах социальной сети и связях между ними в СУБД Microsoft SQL Server 2008 была спроектирована база данных. Из девяти таблиц базы данных три хранят информацию об объектах социальной сети, а шесть - о связях между ними. В терминологии информационного поиска подобная база данных именуется индексом. Собственно программный код, написанный на языке C#, можно разделить на четыре модуля: модуль интеграции с социальными сетями, индексатор, анализатор и интерфейс. Модуль интеграции с социальными сетями индексирует контент социальных сетей, получает из него данные о документах и пользователях и сохраняет эти данные в базе данных. Индексатор проводит лексический и синтаксический разбор текста документов, сохраняя в базе данных результаты своей работы. Анализатор проводит семантический разбор текста документов, рассчитывает перечисленные выше шесть видов связей между объектами социальной сети и сохраняет результаты своей работы в базе данных. Интерфейс по заданному пользователем запросу осуществляет итеративный поиск объектов социальной сети и дает рекомендации относительно объектов, которые могут быть интересны пользователю. Затем в веб-приложение были добавлены предыдущие разработки автора для индексации текстового корпуса и написан программный код для итеративного поиска похожих объектов. Поиск по семантической модели осуществляется итеративно - методом поиска по графу в глубину. Пользователь вводит запрос и выбирает область поиска - термины, авторы или публикации. Область, к которой относится заданный элемент, определяется автоматически - путем поиска соответствий в базе данных. Далее осуществляется поиск ближайших по смыслу элементов. Результат выводится на экран в виде списка с возможностью отметить какие-либо его элементы. Пользователь отмечает релевантные, по его мнению, результаты и нажимает кнопку «Искать дальше». На следующей итерации на экран будут выведены элементы, связанные с элементами, отмеченными пользователем на предыдущей итерации, и т. д. Процесс поиска продолжается до тех пор, пока будут находиться новые связанные элементы или до остановки пользователем. Рассмотрим, например, порядок поиска авторов, похожих на заданного. Пользователь вводит запрос и выбирает один из девяти режимов поиска. При необходимости можно изменить заданные по умолчанию предельные значения критериев останова. Приложение выводит список авторов, отсортированный в порядке убывания степени сходства с заданным автором. Для каждого найденного автора выводятся характеристики соответствующей вершины графа - энтропия H и степень deg [2], помогающие пользователю принять решение о том, следует ли включать этого автора в текущий уровень детализации поискового запроса (фронт волнового алгоритма). Чем меньше эти значения, тем меньше потомков у соответствующей вершины графа, и, следовательно, тем меньше информации принесет дальнейшее продвижение в этом направлении. Кроме того, выводятся значения критериев останова для данного уровня детализации. При достижении какого-либо из них выводится желтый значок, при превышении - красный. При изменении режима поиска меняются только названия таблиц (соответствующих матрицам семантической модели), в которых осуществляется поиск. Алгоритм поиска остается неизменным. Тестирование системы Для тестирования системы из существующих научных социальных сетей были выбраны две - зарубежная Mendeley.com и российская SciPeople.ru. Сеть SciPeople.ru имеет открытую нумерацию профилей пользователей и их публикаций. Например, ссылка на страницу с публикацией на SciPeople.ru имеет вид http://scipeople.ru/publication/ <идентификатор публикации>/, а на страницу профиля пользователя - http://scipeople.ru/users/ <идентификатор пользователя>/. Данная особенность позволяет осуществить индексацию контента такой сети путем последовательной подстановки натуральных чисел в адреса страниц. В сети Mendeley.com идентификатор публикации и пользователя кодируется (например, следующим образом: «dd3cbcd0-6d0a-11df-a2b2-0026b95e3eb7»), из-за чего индексация контента данной сети извне может быть осуществлена только с помощью программного агента, который часто называют ботом или роботом информационно-поисковой системы [6]. Агент обходит заданный ему список веб-страниц, выделяет на них характеристики документов, собирает ссылки на другие веб-страницы, которые формируют список для следующего этапа. Данный процесс продолжается до остановки пользователем или до полной индексации сайта. В рамках нашего исследования решено было ограничиться только русскоязычным сегментом научной социальной сети Mendeley.com. Задача автоматического определения языка документа сама по себе нетривиальна и усложняется тем, что на данном веб-ресурсе русско язычные документы часто имеют англоязычные либо транслитерированные заглавия. В то же время кириллица может использоваться и в заголовках документов на украинском, сербском и других языках. Для индексации в данном случае было принято следующее правило: документ считался русскоязычным, если в его названии (соответственно, и в URL) имеется хотя бы один символ кириллического алфавита. Было бы нерационально индексировать весь веб-ресурс ради русскоязычного сегмента, поэтому для повышения эффективности работы агента необходимо использовать какие-либо эвристики для ускорения индексации именно этого сегмента. Один из вариантов - использование рубрикатора, который на сайте Mendeley.com позволяет вывести на одной странице самые популярные документы из каждой подрубрики. Кроме того, для каждого документа можно просмотреть связанные с ним документы. Следует также ограничивать глубину поиска в каждом направлении заданным числом ссылок. Другая возможная эвристика - использование ключевых слов. Такими словами могут быть имена существительные из частотного словаря. Каждое слово задается поисковому механизму сайта Mendeley.com в качестве поискового запроса. Затем агенту остается просмотреть все результаты поиска, от первого до последнего, и выбрать оттуда ссылки на документы. По понятным причинам большинство этих документов являются русскоязычными. Ссылки на страницы сайта, содержащие информацию о данных документах, составляют начальное множество URL для работы агента. Затем автоматически производится поиск связанных с ними документов. Автоматическое выделение в html-коде веб-страницы характеристик документа (название, автор, выходные данные, ключевые слова, адрес файла) осуществляется благодаря тому, что обе рассматриваемые социальные сети придерживаются семантической разметки веб-страниц. Например, на SciPeople.ru имя автора публикации заключается в тег
. Вначале с помощью разработанного веб-приложения была проиндексирована научная социальная сеть SciPeople.ru. Из 87 тыс. научных публикаций, размещенных в этой сети, были выбраны 10 тыс., для которых указан автор, зарегистрированный в данной сети. Из полученной базы данных были удалены записи для публикаций на иностранных языках (язык публикации определялся по наличию символов кириллического алфавита в ее названии). В результате исследуемое подмножество социальной сети сузилось до 8 702 публикаций 1 482 авторов. Был произведен автоматический поиск терминов-кандидатов длиной от 1 до 3 слов. Для ускорения процесса тестирования системы просматривались не полные тексты публикаций, а строки вида «название_публикации. аннотация_публикации». Система выявила 19 537 терминов-кандидатов. Тестирование на компьютере с ОЗУ 2 Гб показало, что семантический анализ матрицы «термин - документ» для проиндексированного системой подмножества социальной сети SciPeople.ru при использовании метода Random Indexing занимает менее часа. Затем была проиндексировано другая сеть - Mendeley.com. Выяснилось, что инструмент поиска связанных документов на сайте Mendeley.com непригоден для решения данной задачи, т. к. он находит лишь небольшое количество документов, причем часто из числа тех же самых популярных, которые агент уже просмотрел. В результате агент часами обходил страницу за страницей, почти не находя новых документов. Тогда была применена вышеописанная стратегия индексирования при помощи ключевых слов из частотного словаря. Таким способом была найдена 1835 документов. На компьютере с двухъядерным процессором с частотой 1,1 ГГц и 2 Гб ОЗУ морфологический анализ заголовков и аннотаций этого корпуса документов занял 19 минут. В результате было выявлено 6 727 терминов. При автоматическом построении семантической модели были испробованы различные пороги веса связи между объектами, при котором их можно считать семантически связанными. При слишком малом или нулевом пороге все без исключения веса заносятся в базу данных, что значительно замедляет этап семантического анализа. Было выявлено, что наиболее удобным значением порога для связей «документ-документ» и «термин-термин» является значение 0,8, поскольку связей, вес которых превышает этот порог, было вычислено достаточно много. Что касается связей «термин-документ», то их веса, как правило, значительно ниже, поэтому для них следует устанавливать более низкий порог. Собственно семантический анализ, благодаря применению метода Random Indexing, отличающегося малой временной сложностью, занял немного времени - около 15-20 минут. Затем последовало длительное сохранение найденных семантических связей в базе данных. Были выявлены 373 связи «документ-документ» (пример - в табл. 2), 14 985 связей «термин-документ», 22 707 связей «термин-термин». Таблица 2 Семантические связи между документами, выявленные при семантическом анализе Документ 1 Документ 2 Вес связи Модели субъективной оценки эффективности решения когнитивных: часть 2. Теории косвенной оценки Модели субъективной оценки эффективности решения когнитивных задач: часть 1. Теории дополнительной оценки и теории частичного доступа 0,84 Вариации широтно-долготных распределений термосферных параметров во время геомагнитных бурь 17-20 апреля 2002 года Исследование термосферно-ионосферного взаимодействия в возмущенных условиях на примере геомагнитной бури 03-04 апреля 1979 г. 0,87 Курило-Камчатской островной дуги в начале XXI в.: Этапы исследований, определение термина «действующий вулкан», будущие извержения и вулканическая опасность Проект KVERT - снижение вулканической опасности для авиации при эксплозивных извержениях вулканов Камчатки и Северных Курил 0,9 Роль процессов переноса неравновесных носителей заряда в излучательных свойствах массивов InAs/GaAs-квантовых точек Роль процессов переноса неравновесных носителей заряда в излучательных свойствах массивов InAs/GaAs-квантовых точек 1 Туннельно-инжекционные структуры InGaAs с наномостиками: перенос возбуждения и кинетика люминесценции Управление энергетическим спектром квантовых точек InAs/GaAs изменением толщины и состава тонкого двойного покровного слоя GaAs/InGaAs 0,87 Особенности структурной перестройки в нановолокне интерметаллида Ni3Al, содержащего длиннопериодические парные термические антифазные границы, в процессе высокоскоростной деформации одноосного растяжения в направлении «001» Механизмы структурной перестройки в модели нановолокна интерметаллида Ni3Al, содержащего длиннопериодические антифазные границы, в процессе высокоскоростной деформации одноосного растяжения 0,98 О расчётах выходной мощности и спектра рентгеновского излучения Z-пинчей на основе многопроволочных сборок Моделирование спектра излучения мощных вольфрамовых Z-пинчей 0,82 Применение трансгенных растений Arabidopsis thaliana L. DR5::GUS для количественной оценки содержания ИУК Метод количественной оценки содержания ИУК по гистохимическому окрашиванию GUS-активности 0,83 Опыт применения S. boulardii в терапии синдрома раздраженной кишки Применение Saccharomyces boulardii в терапии больных синдромом раздраженной кишки 0,95 Наследственные метаболические болезни печени: 3. Нарушения промежуточного метаболизма; 4. Редкие генетические заболевания, протекающие с поражением печени Наследственные метаболические болезни печени: 1. Нарушения метаболизма углеводов; 2. Лизосомные болезни накопления 0,81 Методы лазерной спектроскопии для идентификации и количественного определения Bacillus anthracis в природных источниках Детектирование и идентификация Bacillus anthracis на примере вакцинных штаммов в естественных прозрачных средах в реальном масштабе времени с использованием методов лазерной спектроскопии 0,93 Очевиден и дополнительный результат работы семантического анализа: с его помощью легко выявить дубли, которых на сайте Mendeley.com достаточно много. Множества терминов, документов, аккаунтов их авторов и семантических связей между этими объектами в совокупности образуют семантическую модель научной социальной сети (рис. 3). Рис. 3. Фрагмент построенной семантической модели Таким образом, задача построения семантической модели научной социальной сети решена. Модель была построена автоматически - без какого-либо участия пользователя. Заключение В ходе исследований были получены следующие результаты. 1. Построена семантическая модель социальной сети, позволяющая выявить связи между ее элементами - пользователями, публикациями и терминами. Благодаря этому легко решается задача поиска соответствий между двумя любыми элементами, в том числе элементами различных видов, как поиск по графу. Для построения семантической модели научной социальной сети предложено использовать метод Random Indexing. Реализация в веб-приложении данного метода позволила построить семантическую модель социальной сети за короткий промежуток времени. 2. Разработан модуль для поиска похожих объектов, позволяющий осуществлять поиск с уточнением запроса и итеративный подбор рекомендаций для пользователей научных социальных сетей. 3. Проиндексированы две научные социальные сети - SciPeople.ru и Mendeley.com. 4. Разрабатывается веб-ресурс http://science-search.ru, на котором предполагается разместить описанное выше веб-приложение. Индексация двух научных социальных сетей выявила наличие у них общего недостатка: лишь небольшой сегмент каждой сети может быть назван научной социальной сетью [1], т. е. включает в себя социальных субъектов, которые размещают на данном веб-ресурсе сведения о своих публикациях. Что касается сети Mendeley.com, то она в остальной своей части работает как реферативная база публикаций, причем менее качественная, чем полноценные базы публикаций. Например, статья John P. A. Ioannidis «Why most published research findings are false» (2005) размещена на данном ресурсе в 9 копиях. По этой причине большой интерес представляло бы применение разработанного программного продукта для построения семантической модели одной из реферативных баз данных научной периодики: российской elibrary.ru, международной Web of Science и т. д., причем такая база может рассматриваться как разновидность социальной сети. В частности, научная электронная библиотека http://elibrary.ru, не позиционирующая себя как научную социальную сеть, по существу является таковой, предоставляя авторам публикаций участвовать в работе по уточнению информации.