Around the book in 10 minutes: generating a narrative visualization with the help of generative AI
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Wakita, Ken | |
dc.contributor.author | Mairue, Sami | |
dc.contributor.school | Perustieteiden korkeakoulu | fi |
dc.contributor.supervisor | Holme, Petter | |
dc.date.accessioned | 2024-06-23T17:09:06Z | |
dc.date.available | 2024-06-23T17:09:06Z | |
dc.date.issued | 2024-06-17 | |
dc.description.abstract | This thesis aims to present a method of visualizing a story in a way that supports user interaction. The goal is to enable the user to gain a more detailed understanding of the story. It will also investigate whether it is possible to utilize Large Language Models to extract information from a text to a format that can be computationally parsed, and whether it is possible to create images with consistent features using text to image models by giving the model prior context. The book used for the visualization is Around the world in 80 days. LLM performance is evaluated mainly by comparing the correctness of the results to manually labelled gold standard for selected chapters that attempt to indicate the worst-case scenario of many characters being present in several locations during a single chapter. The effectiveness of images created with automatically generated image descriptions is evaluated by subjectively comparing them to images created with manual descriptions that attempt to capture the key event or events in the chapter. Finally, character portraits generated with LLM-generated descriptions will be compared to illustrations in the 1873 release of the book. Furthermore, the cost of both the use of the LLMs and text to image models will be evaluated to see whether this approach would be financially viable. Finally, the visualization will be evaluated based on responsiveness and resource usage. The LLM-generated files required a total of 12 manual fixes, while comparing the data to manual data revealed shortcomings in being able to extract all characters in some chapters. Thus, fully automating the process is not possible at the moment, but it is more effective than extracting the data manually. Similarly, images generated with text to image models provided acceptable results in some cases, but manual oversight and fixes are still required for most of the images. Finally, while it is possible to understand events within the story by moving from a high-level overview to the full text with the visualization, it still requires further optimization to improve responsiveness. | en |
dc.description.abstract | Tämä työ pyrkii esittelemään keinon visualisoida tarinan tapahtumia vuorovaikutuksen avulla. Tavoitteena on, että vuorovaikutusten avulla käyttäjä ymmärtäisi kirjan tapahtumat syvemmin kuin ilman niitä. Tämän lisäksi työssä tutkitaan, onko mahdollista käyttää tiedon etsimiseen kirjasta muotoon, jota voi käsitellä ohjelmallisesti, ja voivatko kuvageneraattorit luoda konteksin avulla johdonmukaisia kuvasarjoja. Visualisoinnin esimerkkinä on Jules Vernen Maailman ympäri 80 päivässä. Kielimallin suorituskykyä arvioidaan vertaamalla tuloksia käsin luotuun dataan kappaleista, jotka sisältävät monia sijainteja lyhyen ajan aikana. Tämän tavoitteena oli arvioida suorituskykyä pahimmassa mahdollisessa tilanteessa. Ohjelmallisesti luotujen kuvien onnistuneisuutta arvioidaan vertaamalla niitä subjektiivisesti kuviin, jotka on luotu käsin luodulla kuvauksella, joka pyrkii havainnollistamaan tietyn luvun tärkeimmän tai tärkeimmät tapahtumat. Tärkeimmistä hahmoista luotuja muotokuvia verrataan kuvituksiin, jotka luotiin 1873 julkaistuun painokseen. Lopuksi visualisoinnin suorituskykyä arvioidaan suorituskyvyn ja resurssien käytön perusteella. Kielimallin luomat tiedostot vaativat yhteensä 12 korjausta, ja tarkempi vertailu paljasti, että joissain kappaleissa kielimallilla oli vaikeuksia sijoittaa kaikkia hahmoja tiettyihin paikkoihin. Täten tiedon hakua ei voi vielä täysin automatisoida, mutta se on silti nopeampaa kuin tiedon kokoaminen käsin. Samoin kuvageneraattorin täysin automaattisesti luodut kuvat olivat tietyissä tapauksissa hyväksyttäviä, mutta suurin osa kuvista vaati tarkistusta ja korjauksia. Vaikka aikaisempiin töihin verrattuna työssä luotu visualisaatio mahdollistaa paremman tarinan ymmärtämisen liikkumalla yleisestä kuvauksesta alkuperäiseen tekstiin, sitä täytyy optimoida, jotta se pystyy reagoimaan vuorovaikutukseen nopeammin. | fi |
dc.format.extent | 89+4 | |
dc.format.mimetype | application/pdf | en |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/129312 | |
dc.identifier.urn | URN:NBN:fi:aalto-202406234897 | |
dc.language.iso | en | en |
dc.programme | Master’s Programme in Computer, Communication and Information Sciences | fi |
dc.programme.major | Computer Science | fi |
dc.programme.mcode | SCI3042 | fi |
dc.subject.keyword | storyline visualization | en |
dc.subject.keyword | generative artificial intelligence | en |
dc.subject.keyword | large language models | en |
dc.subject.keyword | text to image models | en |
dc.title | Around the book in 10 minutes: generating a narrative visualization with the help of generative AI | en |
dc.title | Kirjan ympäri 10 minuutissa: narratiivisen visualisaation luominen generatiivisen tekoälyn avulla | fi |
dc.type | G2 Pro gradu, diplomityö | fi |
dc.type.ontasot | Master's thesis | en |
dc.type.ontasot | Diplomityö | fi |
local.aalto.electroniconly | yes | |
local.aalto.openaccess | yes |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- master_Mairue_Sami_2024.pdf
- Size:
- 8.03 MB
- Format:
- Adobe Portable Document Format