METHOD OF ENCODING CONTOURS WITH MUSICAL SOUND
DOI:
https://doi.org/10.32782/KNTU2618-0340/2021.4.1.5Abstract
The article discusses technologies for converting visual information into sound form, which are actively developing at the present time. These technologies are used in auditory-visual systems for blind and visually impaired people. For sighted people, partial transfer of visual information to an acoustic signal will improve a general perception of information, facilitate a task of visual monitoring, and focus simultaneously on several visual fields. In the article it is proposed a method for constructing a sound image of an object's contour on a digital image using musical sound in a convenient for perception frequency range from 440 Hz to 1760 Hz. The contour defines the most important feature of the object is its shape and it is the most informative characteristic for recognition. In accordance with the proposed method, the sound image is formed on a basis of a one-dimensional representation of the contour using the "angle-distance" signature is a function of the distance from centroid to the contour points with a uniform step on the angle. Centroid is analogous to the "point of view" that is a place where the eyes of a person are focused, when he begins to inspect an object bounded by the contour. When constructing a sequence of sound signals, the principle is used: a higher value of the signature corresponds to a higher frequency of the sound signal (higher note). Human hearing is characterized by a relatively high resolution to perceive changes in a musical sound frequency. The musical image constructed by this method carries visual information about the location of the object's contour points, while the task of recognizing the shape of the object is performed by the human brain. A total playback time of the sound image depends on the selected step on angle and the specified duration of sounding each signal in the sequence. Taking into account the inertia of hearing, it is recommended to set the duration of a signal 65 ms. Based on sound images, it is easy to interpret simple geometric shapes (circle, square, etc.), which are fundamental building blocks of more complex objects. Therefore, the recognition of their characteristic sound signature is an important step towards the interpretation of complex images.
У статті розглянуті технології перетворення візуальної інформації у звукову форму, які активно розвиваються у даний час. Ці технології використовуються у системах звукобачення для незрячих і людей із слабким зором. Зрячим людям частковий перенос візуальної інформації на акустичний сигнал дозволить покращити загальне сприйняття інформації, полегшити задачу візуального моніторингу, зосередити увагу одночасно на декількох візуальних полях. У статті запропоновано метод побудови звукового образу контуру об’єкта на цифровому зображенні за допомогою музичного звуку у зручному для сприйняття діапазоні частот від 440 Гц до 1760 Гц. Контур визначає найважливішу властивість об’єкту – його форму і є найбільш інформативною характеристикою для розпізнавання. Згідно із запропонованим методом, звуковий образ формується на основі одновимірного представлення контуру з використанням сигнатури «кут-відстань» - функції відстані від центроїда до точок контуру з рівномірним кроком по куту. Центроїд є аналогом «точки погляду» – місця, куди сфокусовані очі людини, коли вона починає оглядати обмежений контуром об’єкт. При побудові послідовності звукових сигналів використовується принцип: більшому значенню сигнатури відповідає більша частота звукового сигналу (більш висока нота). Слух людини характеризується відносно високою роздільною здатністю щодо сприйняття зміни частоти музичного звуку. Побудований за цим методом музичний образ несе візуальну інформацію про розташування точок контуру об’єкта, при цьому задачу розпізнавання форми об’єкта виконує мозок людини. Загальний час відтворення звукового образу контуру залежить від вибраного кроку по куту і заданої тривалості звучання кожного сигналу послідовності. Враховуючи інерційність слуху, рекомендовано задати тривалість звучання 65 мс. На основі звукових образів нескладно інтерпретувати прості геометричні фігури (коло, квадрат та ін.), які є фундаментальними будівельними блоками більш складних об’єктів. Тому визнання їхньої характерної звукової сигнатури – важливий крок до інтерпретації складних зображень.
References
Meijer P.B.L. (1992) An Experimental System for Auditory Image Repre¬sentations. IEEE Transactions on Biomedical Engineering. 39, 2, 112–121.
Radzishevskiy, A.Yu. (2006) Osnovyi analogovogo i tsifrovogo zvuka. Moskva: Izdatelskiy dom “Vilyams”.
Alty, J.L., & Rigas, D.I. (1998) Communicating Graphical Information to Blind Users Using Music: the Role of Context. Proceedings of the SIGCHI conference on Human factors in computing systems, Los Angeles, USA, 574–581.
Cronly-Dillon, J., Persaud, K.C., & Gregory, R.P.F. (1999) The Perception of Visual Images Encoded in Musical Form: A Study in Cross-Modality Information Transfer. Proceedings: Biological Sciences. 266, 1436, 2427–2433.
Abboud, S., Hanassy, S., Levy-Tzedek, S., Maidenbaum, S., & Amedi, A. (2014) EyeMusic: Introducing a ‘Visual’ Colourful Experience for the Blind Using Auditory Sensory Substitution. Restorative Neurology and Neuroscience. 32, 2, 247–257.
Uno, S., Suzuki, Y., Watanabe, T., Matsumoto, M., & Wang, Y. (2018) Sound-based image and position recognition system ‘SIPReS’. Proceedings of the 24th International Conference on Auditory Display (ICAD 2018), Michigan Technological University, USA, 67–72.
Gostev, I.M. (2010) Metodyi identifikatsii graficheskih ob'ektov na osnove geometricheskoy korrelyatsii. Fizika elementarnyih chastits i atomnogo yadra. 41, 1, 49–96.
Zhang, D., & Lu, G. (2004) Review of shape representation and description techniques. Pattern Recognition. 37, 1, 1–19.
Kalenchuk-Porkhanova, А.А., & Vakal, L.P. (2008) Paket programm approksimatsii funktsiy. Kompiuterni zasoby, merezhi ta systemy. 7, 32–38.
Vakal, L.P. (2006) Rivnomirne kuskovo-polinomialne nablyzhennia. Kompiuterni zasoby, merezhi ta systemy. 5, 53–59.
Vakal, L.P. (2016) Solving uniform nonlinear approximation problem using continuous genetic algorithm. Journal of Automation and Information Sciences. 48, 6, 49–59.
Gonsales, R., & Vuds, R. (2012) Tsifrovaya obrabotka izobrazheniy. Moskva: Tehnosfera.