КОМП'ЮТЕРНА МОДЕЛЬ ГЕНЕРАЦІЇ ВІДПОВІДЕЙ У ПОШУКОВІЙ СИСТЕМІ НА ОСНОВІ НЕСТРУКТУРОВАНОЇ БАЗИ ЗНАНЬ
DOI:
https://doi.org/10.32782/KNTU2618-0340/2020.3.2-1.13Ключові слова:
семантична мережа, автоматична обробка тексту, система запит-відповідь, генерація текстуАнотація
Метою роботи є розробка моделі системи запит-відповідь, що спроможна створювати конкретні текстові відповіді на запит користувача, використовуючи у своєму алгоритмі генерацію наукового тексту на природній мові. Система визначає смислові зв'язки в документах, створюючи при цьому новий текст, який містить відповідь на питання користувача. У статті розглядається модель системи, що базується на розробленому підході до формування семантичної моделі документа, який дозволяє отримувати кількісні показники семантичних властивостей документу на природній мові і сенсові зв’язки між компонентами тексту. Розроблена у вигляді прикладного програмного автомата, система семантичного пошуку має використовувати модель, спроможну працювати із достатньо формалізованим типом знань, а саме - науковим текстом і дозволяти автоматично формувати програмну семантичну модель як окремого документа, так і всього корпусу знань в цілому. На основі отриманої структури додаток має генерувати текстову відповідь на отриманий користувальницький запит. Це призводить до важливої наукової властивості створеної моделі – додаток повинен мати можливість використовувати нерозмічений заздалегідь корпус текстів, що являє собою неструктуровану базу знань, задля чого необхідно створити та дослідити семантичну модель наукового тексту на природній мові, а також розробити алгоритм її формування з семантичної мережі. Такий підхід вирішує більшість питань обробки тексту задля подальшої автоматичної генерації відповіді. Додатково розроблена підсистема автоматичної класифікації наукових текстів за ступенем їх зв’язності, що використовує у своїй роботі кількісні характеристики семантичних властивостей створеної моделі наукового тексту. У статті описані розроблені критерії оцінки створених систем та алгоритмів. Отримана таким чином система, окрім організації зручного пошукового середовища, утворює універсальну модель для проведення автоматичної обробки текстів на семантичному рівні для груп слов’яномовних текстів формального стилю, набір інструментів якої дозволяють гнучко створювати і оброблювати тематичні повнотекстові корпуси документів без попередньої семантичної розмітки та отримати програмну модель тексту формалізованої стильової спрямованості із кількісними характеристиками семантичних властивостей тексту, на основі яких можливо вирішувати інші завдання автоматичної обробки текстів.
The aim of the work is to develop a request-response system model capable of creating specific textual responses to a user’s request, using a scientific text generating in a natural language in its algorithm. The system determines the semantic links in the documents, while creating a new text containing the answer to the user's question. The article discusses a model of a system based on the developed approach to the formation of a semantic model of a document, which allows you to get quantitative indicators of the semantic properties of a document in a natural language and semantic links between components of a scientific text. Developed as an application software, the semantic search system should use a model capable of working with a sufficiently formalized type of knowledge, namely - scientific text and allow you to automatically form a software semantic model of a single document and the body of knowledge as a whole. Based on the received structure, the application should generate a text response to the received user request. This leads to an important scientific property of the created model - the application should be able to use unstructured corpus of texts, which is an unstructured knowledge base, for which it is necessary to create and explore a semantic model of scientific text in natural language, and develop an algorithm for its formation from the semantic network. This approach solves most word processing issues for further automatic generation. In addition, a subsystem for the automatic classification of scientific texts by the degree of their connectivity was developed, which uses quantitative characteristics of the created model of a scientific text in its work. The article describes the developed criteria for evaluating the created systems and algorithms. The system thus obtained, in addition to organizing a convenient search environment, forms a universal model for automatic text processing at a semantic level for groups of Slavic-language texts of a formal style, a set of tools that allow you to flexibly create and process thematic full-text document bodies without preliminary semantic markup and get a program text model formalized stylistic orientation with quantitative characteristics of semantic properties text and, on the basis of which it is possible to solve other problems of automatic word processing.
Посилання
Поляков П. Ю. Використання семантичних категорій в завданні класифікації відгуків про книги. Матеріали міжнародної конференції «Діалог» (м. Москва, 29 травня - 2 червня 2013 р.). Москва, 2013. С. 193-199.
Антонов А. В. Галактика Zoom. Оцінка модифікації методу формування інфопортрета. Матеріали третього російського семінару по оцінці методів інформаційного пошуку. (м. Ярославль, 6 жовтня 2018 р.). Ярославль, 2018. С. 226.
Губин М.Ю., Разин В.В., Тузовский А.Ф. Применение семантических сетей и частотных характеристик текстов на естественных языках для создания семантических метаописаний. Проблемы информатики. 2011. № S2. С. 59–63.
Pismak A. E., Kharitonova A. E. The Method of Automatic Formation of a Semantic Network from Weakly Structured Sources. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2016. Vol. 16. № 2. P. 324-330.
Волковський О. С., Ковилін Є. Р. Комп’ютерна система інтелектуального семантичного пошуку з використанням генерації текстів. Вісник Херсонського національного університету. 2018. № 3(66). С. 238-245.
Volkovsky O. S., Kovylin Y. R. Computer System of Building of the Semantic Model of the Document. IEEE Second International Conference on Data Stream Mining & Processing. (Lviv, August 21-25, 2018). P. 322-327. DOI: 10.1109/DSMP.2018.8478591.
Volkovsky O. S., Kovylin Y. R. Mathematical Model for Automatic Creation the Semantic Thesaurus for the Scientific Text. System Technologies. 2019. № 6. P. 82-88.
Волковський О. С., Ковилін Є. Р. Модель автоматичної оцінки адекватності комп'ютерних систем «запит-відповідь» з використанням генерації текстів. Системні технології. 2020. № 4 (129). C. 50-58.
Волковський О. С., Ковилін Є. Р. (2017). Комп’ютерна система автоматичного визначення зв'язності тексту. Системні технології. 2017. № 1 (112). С. 11-17.
Волковський О. С., Ковилін Є. Р. (2018). Комп’ютерна система автоматичного аналізу промислових інструкцій. Системні технології. 2018. № 3(116). С. 28-37.
Poliakov, P. Iu. (2013). Vykorystannia semantychnykh katehorii v zavdanni klasyfikatsii vidhukiv pro knyhy. Proceedings of the international conference «Dialoh». (Moscow, May 29 June 2, 2013), pp. 193-199.
Antonov, A. V. (2018). Otsinka modyfikatsii metodu formuvannia infoportreta: Halaktyka Zoom. Proceedings of the third Russian seminar on the evaluation of information retrieval methods, (Yaroslavl, October 6, 2018), pp. 226.
Gubin, M. Yu., Razin, V. V., & Tuzovsky, A. F. (2017). Application of semantic networks and frequency characteristics of texts on natural languages for the creation of semantic metapopsis. Problems of Informatics. S2, 59-64.
Pismak, A. E., & Kharitonova, A. E. (2016). The method of automatic formation of a semantic network from weakly structured sources. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 16, 2, 324-330.
Volkovskyi, O. S., & Kovylin, Ye. R. (2018). Kompiuterna systema intelektualnoho semantychnoho poshuku z vykorystanniam heneratsii tekstiv. Visnyk Khersonskoho natsionalnoho universytetu. 66, 3, 238-245.
Volkovsky, O. S., & Kovylin, Y. R. (2018). Computer System of Building of the Semantic Model of the Document. 2018 IEEE Second International Conference on Data Stream Mining & Processing (Lviv, August 21-25, 2018), pp. 322-327. DOI: 10.1109/DSMP.2018.8478591
Volkovsky, O. S., & Kovylin, Y. R. (2019). Mathematical model for automatic creation the semantic thesaurus for the scientific text. System technologies. 6, 82-88.
Volkovskyi, O. S., & Kovylin, Ye. R. (2020). Model avtomatychnoi otsinky adekvatnosti kompiuternykh system «zapyt-vidpovid» z vykorystanniam heneratsii tekstiv. Systemni tekhnolohii. 4, 50-58.
Volkovskyi, O. S., & Kovylin, Ye. R. (2017). Kompiuterna systema avtomatychnoho vyznachennia zviaznosti tekstu. Systemni tekhnolohii. 1, 11-17.
Volkovskyi, O. S., & Kovylin, Ye. R. (2018). Kompiuterna systema avtomatychnoho analizu promyslovykh instruktsii. Systemni tekhnolohii. 3, 28-37.
##submission.downloads##
Опубліковано
Версії
- 2020-09-07 (2)
- 2020-09-06 (1)