Audio and Text Conditioned Abstract Sound Synthesis through Human-AI Interaction

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2023-01-23
Department
Major/Subject
Human-Computer Interaction
Mcode
SCI3097
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
75 + 10
Series
Abstract
Recent trends in computational creativity research have drawn attention to multi- modal models relating data from two or more modalities, such as text, image and audio. Even though multimodal models have been demonstrated as a successful approach to text-conditioned image generation, such models have not been as studied for generative tasks in the audio domain. This work attempts to fill the gap by study- ing audio and text conditioned abstract sound synthesis based on the multimodal AudioCLIP model. By creating sound abstractions from user input, the studied synthesis algorithm aims to allow such human-computer co-exploration with artificial intelligence (AI) adaptable to artistic work. As a computational creativity support tool, the studied algorithm is among the few tools offering AI-based ideation for professional composers. This work evaluates qualitatively the suitability of the suggested abstract sound synthesis algorithm for co-creative ideation. While different approaches to abstract sound synthesis were compared with experiments, the quality of the synthesized sounds and their usefulness to artistic work were evaluated in a user study with professional composers. As one of the main findings, the research reveals that the AudioCLIP model is not effective enough for the studied multimodal generative task. However, the synthesis-by-optimization approach adapted from an exemplary study is able to create sounds that are interesting to professional composers. Ensuring stronger resemblance between user-provided input and generated results and providing users more control for steering the system is among the topics worth further research. In addition, further research is motivated by professional composers’ need for automatic tools to replace the manual work of idea generation from inspirational examples, as observed in the user study.

Laskennallista luovuutta koskevan tutkimuksen viimeaikaiset kehityssuunnat ovat kiinnittäneet huomion multimodaalisiin malleihin, jotka yhdistävät dataa kahdesta tai useammasta modaliteetista kuten teksti, kuva ja ääni. Vaikka multimodaalisten mallien on osoitettu menestyvän hyvin tekstille ehdollistettujen kuvien luomisessa, vastaavia malleja ei ole tutkittu yhtä paljon ääneen liittyvien luovien tehtävien osalta. Tämä työ pyrkii vastaamaan edellä mainittuun puutteeseen tutkimalla äänellä ja tekstillä ehdollistettua abstraktin äänen synteesiä, joka perustuu AudioCLIP- nimiselle multimodaaliselle mallille. Luomalla ääniabstraktioita käyttäjäsyötteestä tutkittu synteesialgoritmi pyrkii mahdollistamaan ihmisen ja tietokoneen välisen yhteis-eksploraation (eng. co-exploration) tekoälyä hyödyntäen siten, että se mukautuu osaksi taiteellista työtä. Tutkittu algoritmi on yksi harvoista laskennallisista, luovuutta tukevista työkaluista, jotka mahdollistavat tekoälyperusteisen ideoinnin ammattisäveltäjille. Käsillä oleva työ arvioi laadullisesti ehdotetun, abstraktia ääntä syntetisoivan algoritmin sopivuutta kollaboratiiviseen luovaan ideointiin. Työssä verrataan eri lähestymistapoja abstraktin äänen synteesiin kokeista saaduilla tuloksilla. Syntetisoitujen äänten laatua ja systeemin hyötyä taiteelliselle työlle arvioidaan käyttäjätutkimuksella, johon osallistui ammattisäveltäjiä. Eräs tärkeimmistä tutkimuksen löydöksistä osoittaa, että AudioCLIP-malli ei ole tarpeeksi tehokas käytettäväksi tutkittuun multimodaaliseen tehtävään. Kuitenkin eräästä esimerkkitutkimuksesta mukailtu lähestymistapa synteesin optimointiin osoittautui kyvykkääksi luomaan ääniä, jotka ammattisäveltäjät kokevat mielenkiintoisiksi. Tutkimuksen perusteella aiheita, jotka ansaitsisivat lisää tutkimusta, ovat käyttäjäsyötteen ja luotujen tulosten välisen vahvemman samankaltaisuuden varmistaminen sekä keinot tarjota käyttäjille lisää mahdollisuuksia systeemin ohjaamiseen. Lisäksi jatkotutkimusta motivoi käyttäjä- tutkimuksessa havaittu ammattisäveltäjien tarve automatisoiduille työkaluille, jotka korvaavat musiikillisten ideoiden manuaalisen laatimisen inspiroivista esimerkeistä.
Description
Supervisor
Oulasvirta, Antti
Thesis advisor
Hämäläinen, Perttu
Keywords
abstract sound synthesis, co-creative ideation, creativity support tools, computational creativity, multimodal artificial intelligence, differentiable sound synthesis
Other note
Citation