Audio and Text Conditioned Abstract Sound Synthesis through Human-AI Interaction

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorHämäläinen, Perttu
dc.contributor.authorHassinen, Heidi
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorOulasvirta, Antti
dc.date.accessioned2023-01-29T18:18:20Z
dc.date.available2023-01-29T18:18:20Z
dc.date.issued2023-01-23
dc.description.abstractRecent trends in computational creativity research have drawn attention to multi- modal models relating data from two or more modalities, such as text, image and audio. Even though multimodal models have been demonstrated as a successful approach to text-conditioned image generation, such models have not been as studied for generative tasks in the audio domain. This work attempts to fill the gap by study- ing audio and text conditioned abstract sound synthesis based on the multimodal AudioCLIP model. By creating sound abstractions from user input, the studied synthesis algorithm aims to allow such human-computer co-exploration with artificial intelligence (AI) adaptable to artistic work. As a computational creativity support tool, the studied algorithm is among the few tools offering AI-based ideation for professional composers. This work evaluates qualitatively the suitability of the suggested abstract sound synthesis algorithm for co-creative ideation. While different approaches to abstract sound synthesis were compared with experiments, the quality of the synthesized sounds and their usefulness to artistic work were evaluated in a user study with professional composers. As one of the main findings, the research reveals that the AudioCLIP model is not effective enough for the studied multimodal generative task. However, the synthesis-by-optimization approach adapted from an exemplary study is able to create sounds that are interesting to professional composers. Ensuring stronger resemblance between user-provided input and generated results and providing users more control for steering the system is among the topics worth further research. In addition, further research is motivated by professional composers’ need for automatic tools to replace the manual work of idea generation from inspirational examples, as observed in the user study.en
dc.description.abstractLaskennallista luovuutta koskevan tutkimuksen viimeaikaiset kehityssuunnat ovat kiinnittäneet huomion multimodaalisiin malleihin, jotka yhdistävät dataa kahdesta tai useammasta modaliteetista kuten teksti, kuva ja ääni. Vaikka multimodaalisten mallien on osoitettu menestyvän hyvin tekstille ehdollistettujen kuvien luomisessa, vastaavia malleja ei ole tutkittu yhtä paljon ääneen liittyvien luovien tehtävien osalta. Tämä työ pyrkii vastaamaan edellä mainittuun puutteeseen tutkimalla äänellä ja tekstillä ehdollistettua abstraktin äänen synteesiä, joka perustuu AudioCLIP- nimiselle multimodaaliselle mallille. Luomalla ääniabstraktioita käyttäjäsyötteestä tutkittu synteesialgoritmi pyrkii mahdollistamaan ihmisen ja tietokoneen välisen yhteis-eksploraation (eng. co-exploration) tekoälyä hyödyntäen siten, että se mukautuu osaksi taiteellista työtä. Tutkittu algoritmi on yksi harvoista laskennallisista, luovuutta tukevista työkaluista, jotka mahdollistavat tekoälyperusteisen ideoinnin ammattisäveltäjille. Käsillä oleva työ arvioi laadullisesti ehdotetun, abstraktia ääntä syntetisoivan algoritmin sopivuutta kollaboratiiviseen luovaan ideointiin. Työssä verrataan eri lähestymistapoja abstraktin äänen synteesiin kokeista saaduilla tuloksilla. Syntetisoitujen äänten laatua ja systeemin hyötyä taiteelliselle työlle arvioidaan käyttäjätutkimuksella, johon osallistui ammattisäveltäjiä. Eräs tärkeimmistä tutkimuksen löydöksistä osoittaa, että AudioCLIP-malli ei ole tarpeeksi tehokas käytettäväksi tutkittuun multimodaaliseen tehtävään. Kuitenkin eräästä esimerkkitutkimuksesta mukailtu lähestymistapa synteesin optimointiin osoittautui kyvykkääksi luomaan ääniä, jotka ammattisäveltäjät kokevat mielenkiintoisiksi. Tutkimuksen perusteella aiheita, jotka ansaitsisivat lisää tutkimusta, ovat käyttäjäsyötteen ja luotujen tulosten välisen vahvemman samankaltaisuuden varmistaminen sekä keinot tarjota käyttäjille lisää mahdollisuuksia systeemin ohjaamiseen. Lisäksi jatkotutkimusta motivoi käyttäjä- tutkimuksessa havaittu ammattisäveltäjien tarve automatisoiduille työkaluille, jotka korvaavat musiikillisten ideoiden manuaalisen laatimisen inspiroivista esimerkeistä.fi
dc.format.extent75 + 10
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/119485
dc.identifier.urnURN:NBN:fi:aalto-202301291835
dc.language.isoenen
dc.programmeMaster’s Programme in Computer, Communication and Information Sciencesfi
dc.programme.majorHuman-Computer Interactionfi
dc.programme.mcodeSCI3097fi
dc.subject.keywordabstract sound synthesisen
dc.subject.keywordco-creative ideationen
dc.subject.keywordcreativity support toolsen
dc.subject.keywordcomputational creativityen
dc.subject.keywordmultimodal artificial intelligenceen
dc.subject.keyworddifferentiable sound synthesisen
dc.titleAudio and Text Conditioned Abstract Sound Synthesis through Human-AI Interactionen
dc.titleÄänellä ja tekstillä ehdollistettu, ihmisen ja tekoälyn vuorovaikutuksessa tapahtuva abstraktin äänen synteesifi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Hassinen_Heidi_2023.pdf
Size:
8.51 MB
Format:
Adobe Portable Document Format