INFORMATION PROCESSING ALGORITHM FOR FORECASTING DEVELOPMENT OF TECHNOLOGIES ON EXAMPLE OF TELEVISION AND RADIO BROADCASTING
Abstract and keywords
Abstract (English):
Today, many Russian companies working in the field of software development for television and radio broadcasting can extract the necessary data on trends in their field of activity by analyzing information received from foreign competitors, for example, studying specialized popular science literature posted on the official websites of foreign competitors, when analyzing information obtained from exhibitions and presentations. However, the opportunity to comprehensively analyze the novelties of foreign developers patented in the world patent databases will give Russian companies competitive advantages in the formation of strategic development plans. It is proposed to develop a patent landscape based on the data of the global patent array (in English) in the field of television and radio broadcasting, analyze patent trends and predict the development of technologies in this area. The novelty of the developed method for predicting the development of technologies lies in the cooperation of USPTO (USA) patent clustering methods based on the international patent classification and forecasting technological trends using the generated time series. The developed method is implemented in Python; in parallelizing the process of parsing patents, the Multiprocessing library was used, Statsmodels was used to analyze data and carry out the forecasting process, and Matplotlib was used to visualize data. The MySQL database management system was chosen to organize information storage. There were processed 28,591 patents, the process of forecasting the development of television and radio technologies was tested based on the constructed time series in the interval of 2015–2020.

Keywords:
television and radio broadcasting, parsing, patent, constructing time series, forecasting development of technologies
Text
Publication text (PDF): Read Download

Введение

В настоящее время российские компании, производящие программное и аппаратное обеспечение для теле- и радиовещания, могут почерпнуть знания
о мировых новинках и тенденциях в сфере своей деятельности в профильной научно-популярной литературе (журналах, дайджестах), а также на основе сведений официальных сайтов зарубежных конкурентов, информации с выставок и презентаций
.

Возможность всесторонне проанализировать разработки зарубежных конкурентов может дать российским компаниям конкурентные преимущества при формировании стратегических планов развития. В связи с этим актуальной проблемой является автоматизация сбора, прогнозирования и визуализации статистических и прогнозных данных о развитии технологий в области теле- и радиовещания.

Новизна разрабатываемого метода прогнозирования развития технологий на основе данных мирового патентного массива (на английском языке) в области теле- и радиовещания заключается в кооперации методов кластеризации патентов USPTO (США) при помощи международной патентной классификации
и прогнозирования технологических трендов посредством сформированных временных рядов.

К разрабатываемому методу можно предъявить следующие требования:

парсинг патентных данных (извлечение текстовых данных из полей патента «Описание», «Формула изобретения» и метаданных (классы международной патентной классификации (МПК, IPC) [1], списки цитирований, принадлежность к патентному семейству (Patent Family) и т. д.) осуществляется с сайта Google Patents, причем из классов Международной патентной классификации, соответствующих области теле- и радиовещания;

построение временных рядов [2] на основе патентных данных для прогнозирования развития технологий в области теле- и радиовещания осуществляется на основе метода Autoreg Ressive Integrated Moving Average (ARIMA) [3].

 

Материалы и методы

Существующих решений с аналогичным функционалом в области теле- и радиовещания не было найдено, по этой причине было решено проанализировать следующие программные продукты в области аналитики патентных данных: PatSeer [4], Acclaim IP [5], Patent INSIGHT Pro [6], Thomson Reuters [7].

Сравнение существующих решений осуществлялось по следующим критериям:

– актуальность данных;

– коллаборация с другими исследователями;

– просмотр полной информации о патенте;

– наличие патентов разных стран мира;

– визуализация аналитики;

– прогнозирование.

Результаты проведенного сравнительного анализа вышеописанных решений представлены в таблице.

 

Сравнительный анализ решений

Comparative analysis of solutions

Решение

Критерий

PatSeer

Acclaim IP

Patent INSIGHT Pro

Thomson Reuters

Актуальность данных

+

+

+

+

Просмотр полной информации о патенте

+

Наличие патентов разных стран мира

+

+

+

Визуализация аналитики

+

+

+

+

Прогнозирование данных

 

Исходя из результатов проведенного анализа, а также из поставленных функциональных требований, было решено разработать метод прогнозирования развития технологий в области теле- и радиовещания и реализовать в виде программного обеспечения (ПО).

Диаграмма потоков данных разрабатываемого метода представлена на рис. 1.

 

Рис. 1. Диаграмма потоков данных

 

Fig. 1. Data flow graph

 

 

Разрабатываемый метод включает в себя парсинг патентного массива, прогнозирование и визуализацию статистических и прогнозных данных.

Алгоритм парсинга страниц сайта Google Patents содержит следующие шаги (рис. 2):

– выбор классов IPC;

– создание директорий для хранения файлов;

– парсинг патента;

определение общего количества обработанных патентов;

– запись распарсенной информации в БД.

 

 

Рис. 2. Общий алгоритм парсинга

 

Fig. 2. General parsing algorithm

 

 

Алгоритм сбора патентной информации содержит в себе следующие шаги (рис. 3):

– получение ссылок из XLSX-документов с патентами;

– загрузка страницы при помощи бота;

– запись HTML-кода [8] в файл;

– парсинг информации из HTML;

– проверка наличия патента в БД;

– получение ссылки на сайт с дополнительной информацией о патенте;

– парсинг дополнительных данных с сайта;

– запись данных в словарь.

 

 

Рис. 3. Алгоритм сбора и обновления патентной информации

 

Fig. 3. Algorithm for collecting and updating patent information

 

 

Алгоритм построения временных рядов на основе патентных данных и прогнозирования развития технологий на основе метода ARIMA приведен на рис. 4 и содержит следующие шаги:

– выбор патентного класса (на основе этого выбора будут определены количество патентов и их идентификационные номера);

поиск патентов по их идентификационным номерам в БД;

разбиение патентных данных по временным отрезкам на основе информации о дате выдачи патента;

прогнозирование при помощи модели ARIMA;

визуализация статистических и прогнозных данных.

 

 

Рис. 4. Алгоритм прогнозирования на основе временных рядов

 

Fig. 4. Time series forecasting algorithm

 

 

Диаграмма  вариантов  использования  проекти

руемого ПО представлена на рис. 5.

 

 

Рис. 5. Диаграмма вариантов использования проектируемого ПО

Fig. 5. Use case diagram of the developed software

 

 

Актор – это пользователь, которому доступны основные функции:

– выбор необходимых IPC-классов;

– парсинг патентов;

– просмотр БД;

– прогнозирование развития технологии.

Архитектура проектируемого программного обеспечения представлена на рис. 6.

 

 

Рис. 6. Архитектура разрабатываемого ПО

 

Fig. 6. Architecture of the developed software

 

 

В качестве языка программирования выбран Python [9], для реализации интерфейса – библиотека Tkinter [10]. Для сбора файлов с массивами патентов с GooglePatents задействована библиотека Request [11], благодаря которой можно выполнять XHR-запросы (XMLHttpRequest) [12] напрямую
к серверу, что поспособствовало увеличению скорости работы программы в части сбора информации. Для извлечения данных из файлов с патентами
использованы библиотеки BeautifulSoup [13] и Selenium [14] (программная библиотека для управления браузерами посредством созданного бота, позволяющего прогрузить html-страницу). Поскольку анализируется мировой массив патентов из GooglePatents [15], то системе необходимо обрабатывать огромное количество данных, следовательно, актуальным является распараллеливание процесса парсинга. Для этого использована библиотека Multiprocessing [16], которая позволяет распараллелить вычисления для ускорения парсинга. Для анализа данных и прогнозирования была использована библиотека Statsmodels [17], для визуализации прогнозных и статистических данных использована библиотека Matplotlib
[18].

Также в качестве системы управления базой данных использована MySql [19, 20]. Схема спроектированной базы данных представлена на рис. 7.

 

Рис. 7. Структура БД

 

Fig. 7. Structure of the database

 

 

Таблица «patents» – центральная, содержит основную патентную информацию, включая текстовые поля «Abstract», «Description», «Claims»; таблица «inventors» – информацию о патентных изобретателях; таблица «classes» – патентные классы, к которым относится патент; таблица «documents» хранит информацию о схожих патентах согласно алгоритмам GooglePatents; таблицы «patent_citations» и «family_citations» содержат списки цитирований для патента (патентного семейства); таблицы «patent_cited_by» и «family_cited_by» хранят информацию о патентах, которые цитировали данный патент (патентное семейство).

Разработанное ПО апробировано на патентном массиве Google Patents. На вход модуля парсинга подаются xlsx-файлы, содержащие ссылки на патенты Google Patents, зарегистрированные в промежутке времени между 2015 и 2020 гг. (рис. 8), html-файлы с патентной информацией, а также интересующий класс IPC.

 

Рис. 8. Пример файла со ссылками

 

Fig. 8. Example of a file with links

 

Файлы собираются с сайта Google Patents автоматически, при помощи XHR-запросов, в результате выполнения которых извлекаются ссылки на патенты. Ссылки добавляются в массив и передаются в пул процессов для ускорения процесса парсинга. Создается директория html_for_process, в которой формируются html-файлы для каждого процесса (рис. 9).

 

Рис. 9. HTML-документы для процессов

 

Fig. 9. HTML documents for processes

 

В каждом процессе сайт загружается по ссылке через бота, созданного при помощи библиотеки Selenium, и весь html-код записывается в файл, соответствующий процессу, информация о патенте сохраняется в словарь (рис. 10).

Собранные данные добавляются в очередь, после чего записываются в БД.

Для активизации парсинга требуется выбрать классы IPC, которые требуются пользователю.

 

 

Рис. 10. Пример словаря с информацией о патенте

Fig. 10. Example of a dictionarywith information about a patent

 

В режиме просмотра информации из БД на странице отображается навигационная панель, поле поиска, список с найденными патентами, поля для отображения информации из БД (название, идентификационный номер, ссылки, дата подачи, дата одобрения, статус, изобретатели, патентообладатели и т. д.) (рис. 11).

 

Рис. 11. Просмотр патентной информации

Fig. 11. Viewing patent information

 

При запуске процесса прогнозирования развития технологий указывается конкретный класс IPC, который выбирает пользователь. На рис. 12 представлено сравнение результатов прогнозирования (серая кривая) и реальная информация временных рядов (количество патентов, соответствующих указанному патентному классу, в данном временном периоде) (черная кривая).

 

 

Рис. 12. График с прогнозированием

Fig. 12. Prediction diagram

 

Общая тенденция к плавному затуханию патентования технологии, соответствующей классу H04N5/2258 «Камеры, использующие два или более датчика изображения, например, CMOS-сенсор для видео и CCD-матрицу для неподвижного изображения», прослеживается как на реальных, так и на прогнозируемых данных.

В процессе работы распарсены патенты из Google Patents для класса IPC H04N «Передача изображений, например, телевидение» в количестве
28 591 патентов и записаны в спроектированную БД.

Возможные направления совершенствования системы:

– оптимизация системы парсинга, полный переход на XHR-запросы к серверу;

– улучшение автоматического подбора параметров для модели ARIMA или использование других методов прогнозирования;

установка разработанного программного обеспечения на кластерную многонодовую систему для ускорения обработки патентных данных.

Область применения разработанного метода – анализ мирового патентного массива [21–23], содержащегося в Google Patents, для прогнозирования и визуализации статистических и прогнозных данных о развитии технологий в области теле- и радиовещания.

Заключение

Разработан метод прогнозирования развития технологий на примере теле- и радиовещания, спроектировано, программно реализовано и протестировано программное обеспечение, реализующее разработанный метод. Было проведено тестирование процесса прогнозирования развития теле- и радиотехнологий на основе построенных временных рядов на интервале 2015–2020 гг.

Новизна метода прогнозирования развития технологий заключается в кооперации методов кластеризации патентов USPTO (США) на основе международной патентной классификации и прогнозирования технологических трендов посредством сформированных временных рядов.

Практическая значимость исследования заключается в разработанном программном обеспечении прогнозирования развития технологий в области теле- и радиовещания. Данная программная разработка вышла в финал отборочного этапа IV Всероссийского научно-технического конкурса разработок и научно-практических решений в области кинопроизводства, телерадиовещания и телекоммуникаций «Первый шаг».

References

1. International Patent Classification (IPC) // WIPO. URL: https://www.wipo.int/classifications/ipc/en/ (data obrascheniya: 05.03.2023).

2. Otkrytyy kurs mashinnogo obucheniya. Tema 9. Analiz vremennyh ryadov s pomosch'yu Python // Habr. URL: https://habr.com/ru/company/ods/blog/327242/ (data obrascheniya: 05.03.2023).

3. Prognozirovanie vremennyh ryadov s pomosch'yu ARIMA v Python 3 // 8host. URL: https://8host-com.turbopages.org/8host.com/s/blog/prognozirovanie-vremennyx-ryadov-s-pomoshhyu-arima-v-python-3/ (data obrascheniya: 05.03.2023).

4. Patseer. URL: https://patseer.com/ (data obrascheniya: 05.03.2023).

5. Speed, Ease-of-use, and Global Patent Data // Ac-claimip. URL: https://www.acclaimip.com/ (data obrascheniya: 05.03.2023).

6. Patent iNSIGHT Pro. URL: https://www.patentinsightpro.com/ (data obrascheniya: 05.03.2023).

7. Imagine a new era with generative AI // Thomson Reuters. URL: https://www.thomsonreuters.com/en.html (data obrascheniya: 05.03.2023).

8. Spravochnik po HTML. URL: http://htmlbook.ru/html (data obrascheniya: 05.03.2023).

9. Python. URL: https://www.python.org/ (data obrascheniya: 05.03.2023).

10. Tkinter - Python interface to Tcl/Tk // Python. URL: https://docs.python.org/3/library/tkinter.html (data obrascheniya: 05.03.2023).

11. Dokumentaciya po biblioteke Python Requests // Digitology.tech. URL: https://digitology.tech/docs/requests/index.html (data obrascheniya: 05.03.2023).

12. XMLHttpRequest // M mdn web docs. URL: https://developer.mozilla.org/ru/docs/Web/API/XMLHttpRequest (data obrascheniya: 05.03.2023).

13. Dokumentaciya Beautiful Soup. URL: https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html (data obrascheniya: 05.03.2023).

14. Selenium dlya Python. Glava 1. Ustanovka // Habr. URL: https://habr.com/ru/post/248559/ (data obrascheniya: 05.03.2023).

15. Google Patents // Google. URL: https://patents.google.com (data obrascheniya: 05.03.2023).

16. Multiprocessing - Process-based parallelism // Python. URL: https://docs.python.org/3/library/multiprocessing.html (data obrascheniya: 05.03.2023).

17. Statsmodels 0.14.0 // Statsmodels. URL: https://www.statsmodels.org/stable/index.html (data obra-scheniya: 05.03.2023).

18. Matplotlib: Visualization with Python // Matplotlib. URL: https://matplotlib.org/ (data obrascheniya: 05.03.2023).

19. MySQL Documentation // MySQL. URL: https://dev.mysql.com/doc/ (data obrascheniya: 05.03.2023).

20. Cursor Objects // PyMySQL. URL: https://pymysql.readthedocs.io/en/latest/modules/cursors.html (data obrascheniya: 05.03.2023).

21. Korobkin D., Saveliev M., Vereschak G., Fomenkov S. The Building a Patent Landscape for Technological Forecasting Tasks // Advances in Automation IV: Conference paper. 2023. V. 986. P. 314-324. DOI: https://doi.org/10.1007/978-3-031-22311-2_31.

22. Kolesnikova V., Korobkin D., Fomenkov S., Rayushkin E., Glushkin V. The Analysis of Technology Development Trends Based on the Network Semantic Structure “Subject-Action-Object” // Studies in Systems, Decision and Control. 2022. V. 417. P. 43-53. DOI: https://doi.org/10.1007/978-3-030-95116-0_4.

23. Manukyan A., Korobkin D., Fomenkov S., Kolesnikov S. Semantic patent analysis with Amazon Web Services // Journal of Physics: Conference Seriesthis link is disabled. 2021. V. 2060 (1). P. 012025. DOI:https://doi.org/10.1088/1742-6596/2060/1/012025.


Login or Create
* Forgot password?