Around the book in 10 minutes: generating a narrative visualization with the help of generative AI

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorWakita, Ken
dc.contributor.authorMairue, Sami
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorHolme, Petter
dc.date.accessioned2024-06-23T17:09:06Z
dc.date.available2024-06-23T17:09:06Z
dc.date.issued2024-06-17
dc.description.abstractThis thesis aims to present a method of visualizing a story in a way that supports user interaction. The goal is to enable the user to gain a more detailed understanding of the story. It will also investigate whether it is possible to utilize Large Language Models to extract information from a text to a format that can be computationally parsed, and whether it is possible to create images with consistent features using text to image models by giving the model prior context. The book used for the visualization is Around the world in 80 days. LLM performance is evaluated mainly by comparing the correctness of the results to manually labelled gold standard for selected chapters that attempt to indicate the worst-case scenario of many characters being present in several locations during a single chapter. The effectiveness of images created with automatically generated image descriptions is evaluated by subjectively comparing them to images created with manual descriptions that attempt to capture the key event or events in the chapter. Finally, character portraits generated with LLM-generated descriptions will be compared to illustrations in the 1873 release of the book. Furthermore, the cost of both the use of the LLMs and text to image models will be evaluated to see whether this approach would be financially viable. Finally, the visualization will be evaluated based on responsiveness and resource usage. The LLM-generated files required a total of 12 manual fixes, while comparing the data to manual data revealed shortcomings in being able to extract all characters in some chapters. Thus, fully automating the process is not possible at the moment, but it is more effective than extracting the data manually. Similarly, images generated with text to image models provided acceptable results in some cases, but manual oversight and fixes are still required for most of the images. Finally, while it is possible to understand events within the story by moving from a high-level overview to the full text with the visualization, it still requires further optimization to improve responsiveness.en
dc.description.abstractTämä työ pyrkii esittelemään keinon visualisoida tarinan tapahtumia vuorovaikutuksen avulla. Tavoitteena on, että vuorovaikutusten avulla käyttäjä ymmärtäisi kirjan tapahtumat syvemmin kuin ilman niitä. Tämän lisäksi työssä tutkitaan, onko mahdollista käyttää tiedon etsimiseen kirjasta muotoon, jota voi käsitellä ohjelmallisesti, ja voivatko kuvageneraattorit luoda konteksin avulla johdonmukaisia kuvasarjoja. Visualisoinnin esimerkkinä on Jules Vernen Maailman ympäri 80 päivässä. Kielimallin suorituskykyä arvioidaan vertaamalla tuloksia käsin luotuun dataan kappaleista, jotka sisältävät monia sijainteja lyhyen ajan aikana. Tämän tavoitteena oli arvioida suorituskykyä pahimmassa mahdollisessa tilanteessa. Ohjelmallisesti luotujen kuvien onnistuneisuutta arvioidaan vertaamalla niitä subjektiivisesti kuviin, jotka on luotu käsin luodulla kuvauksella, joka pyrkii havainnollistamaan tietyn luvun tärkeimmän tai tärkeimmät tapahtumat. Tärkeimmistä hahmoista luotuja muotokuvia verrataan kuvituksiin, jotka luotiin 1873 julkaistuun painokseen. Lopuksi visualisoinnin suorituskykyä arvioidaan suorituskyvyn ja resurssien käytön perusteella. Kielimallin luomat tiedostot vaativat yhteensä 12 korjausta, ja tarkempi vertailu paljasti, että joissain kappaleissa kielimallilla oli vaikeuksia sijoittaa kaikkia hahmoja tiettyihin paikkoihin. Täten tiedon hakua ei voi vielä täysin automatisoida, mutta se on silti nopeampaa kuin tiedon kokoaminen käsin. Samoin kuvageneraattorin täysin automaattisesti luodut kuvat olivat tietyissä tapauksissa hyväksyttäviä, mutta suurin osa kuvista vaati tarkistusta ja korjauksia. Vaikka aikaisempiin töihin verrattuna työssä luotu visualisaatio mahdollistaa paremman tarinan ymmärtämisen liikkumalla yleisestä kuvauksesta alkuperäiseen tekstiin, sitä täytyy optimoida, jotta se pystyy reagoimaan vuorovaikutukseen nopeammin.fi
dc.format.extent89+4
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/129312
dc.identifier.urnURN:NBN:fi:aalto-202406234897
dc.language.isoenen
dc.programmeMaster’s Programme in Computer, Communication and Information Sciencesfi
dc.programme.majorComputer Sciencefi
dc.programme.mcodeSCI3042fi
dc.subject.keywordstoryline visualizationen
dc.subject.keywordgenerative artificial intelligenceen
dc.subject.keywordlarge language modelsen
dc.subject.keywordtext to image modelsen
dc.titleAround the book in 10 minutes: generating a narrative visualization with the help of generative AIen
dc.titleKirjan ympäri 10 minuutissa: narratiivisen visualisaation luominen generatiivisen tekoälyn avullafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Mairue_Sami_2024.pdf
Size:
8.03 MB
Format:
Adobe Portable Document Format