On the quality of mathematical writing produced by ChatGPT and Gemini
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-06-18
Department
Major/Subject
Mathematics
Mcode
SCI3054
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
48+73
Series
Abstract
Large Language Models (LLMs) have gained popularity in recent years, particularly after the release of ChatGPT, which is an LLM created by OpenAI. LLMs generate human-like text according to a given prompt. LLMs use Natural Language Processing (NLP) to generate the text. In this thesis, we look into two LLMs, ChatGPT and Google Gemini, and investigate the quality of mathematical text generated by both of the models. The research questions of this thesis are the following three questions: 1) Can ChatGPT and Gemini write good mathematical text? 2) Can they write sensible references? and 3) Which LLM is better for these two tasks? This is done by asking both ChatGPT and Gemini to write abstracts on 25 statistical terms and give references to the texts. A student and a professor from Aalto University then assess the quality of writing in terms of mathematical accuracy. The results are further analysed by performing sign tests. Additionally, the LLMs are asked to give sources in the texts, which are then checked for accuracy. The two LLMs are then given a normalized score based on the amount of mistakes made in the references. A sign test and a t-test for paired observations are then conducted for assessing the difference of these scores. We discover that both ChatGPT and Gemini generate quite poor quality of mathematical text. Although the text is well written, it lacks accuracy and mathematical correctness and also sometimes chooses quite goofy words, considering the type of text being written. The references are often riddled with mistakes or they flat out do not exist. Although both ChatGPT and Gemini were found out to be bad in both producing mathematical text and producing references, ChatGPT was found out to be better than Gemini in producing references, but Gemini was found out to be slightly better in producing mathematical text according to both the student and the professor.Suuret kielimallit ovat tulleet suosituiksi viime vuosina, erityisesti ChatGPT:n julkaisemisen jälkeen. Suuret kielimallit tuottavat tekstiä annetun kehotteen mukaan, ja ne käyttävät luonnollisen kielen prosessointia tekstin tuottamiseen. Tässä diplomityössä tarkastellaan kahta suuriin kielimalleihin perustuvaa tekstigeneraattoria, ChatGPT:tä ja Google Geminia, sekä niiden tuottaman matemaattisen tekstin laatua. Tutkimuskysymykset ovat seuraavat: 1) Osaavatko ChatGPT ja Gemini kirjoittaa hyvää matemaattista tekstiä? 2) Osaavatko ne kirjoittaa järkeviä viitteitä? ja 3) Kumpi menetelmä on parempi näissä kahdessa tehtävässä? Tutkimus tehdään pyytämällä kielimalleja kirjoittamaan tiivistelmät 25:stä tilastollisesta termistä ja antamaan viitteet teksteihin. Tämän jälkeen yksi Aalto-yliopiston oppilas sekä yksi Aalto-yliopiston professori erikseen valitsevat mielestään paremman tekstin, ja näille arvioinneille tehdään merkkitestit. Lisäksi teksteille annetaan normalisoitu pistemäärä niiden tekemien viitevirheiden perusteella. Tälle pistemäärädatalle tehdään merkkitesti, sekä parillisten otosten t-testi. Tekstejä lukiessa huomaa, että sekä ChatGPT että Gemini tuottavat melko huonolaatuista matemaattista tekstiä. Vaikka teksti on hyvin kirjoitettu, se on matemaattisesti virheellistä ja valitsee joskus varsin hassuja sanoja kyseiseen tekstityyppiin. Viitteissä on usein virheitä tai ne eivät yksinkertaisesti ole olemassa. Vaikka sekä ChatGPT:n että Geminin havaittiin olevan huonoja sekä matemaattisen tekstin että viitteiden tuottamisessa, sekä opiskelijan että professorin mukaan ChatGPT oli parempi viitteiden tuottamisessa, mutta Gemini oli hieman parempi matemaattisen tekstin sisällön tuottamisessa.Description
Supervisor
Ilmonen, PauliinaThesis advisor
Ilmonen, PauliinaKeywords
large language models, ChatGPT, Google Gemini, statistical testing