On the quality of mathematical writing produced by ChatGPT and Gemini

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-06-18

Department

Major/Subject

Mathematics

Mcode

SCI3054

Degree programme

Master’s Programme in Mathematics and Operations Research

Language

en

Pages

48+73

Series

Abstract

Large Language Models (LLMs) have gained popularity in recent years, particularly after the release of ChatGPT, which is an LLM created by OpenAI. LLMs generate human-like text according to a given prompt. LLMs use Natural Language Processing (NLP) to generate the text. In this thesis, we look into two LLMs, ChatGPT and Google Gemini, and investigate the quality of mathematical text generated by both of the models. The research questions of this thesis are the following three questions: 1) Can ChatGPT and Gemini write good mathematical text? 2) Can they write sensible references? and 3) Which LLM is better for these two tasks? This is done by asking both ChatGPT and Gemini to write abstracts on 25 statistical terms and give references to the texts. A student and a professor from Aalto University then assess the quality of writing in terms of mathematical accuracy. The results are further analysed by performing sign tests. Additionally, the LLMs are asked to give sources in the texts, which are then checked for accuracy. The two LLMs are then given a normalized score based on the amount of mistakes made in the references. A sign test and a t-test for paired observations are then conducted for assessing the difference of these scores. We discover that both ChatGPT and Gemini generate quite poor quality of mathematical text. Although the text is well written, it lacks accuracy and mathematical correctness and also sometimes chooses quite goofy words, considering the type of text being written. The references are often riddled with mistakes or they flat out do not exist. Although both ChatGPT and Gemini were found out to be bad in both producing mathematical text and producing references, ChatGPT was found out to be better than Gemini in producing references, but Gemini was found out to be slightly better in producing mathematical text according to both the student and the professor.

Suuret kielimallit ovat tulleet suosituiksi viime vuosina, erityisesti ChatGPT:n julkaisemisen jälkeen. Suuret kielimallit tuottavat tekstiä annetun kehotteen mukaan, ja ne käyttävät luonnollisen kielen prosessointia tekstin tuottamiseen. Tässä diplomityössä tarkastellaan kahta suuriin kielimalleihin perustuvaa tekstigeneraattoria, ChatGPT:tä ja Google Geminia, sekä niiden tuottaman matemaattisen tekstin laatua. Tutkimuskysymykset ovat seuraavat: 1) Osaavatko ChatGPT ja Gemini kirjoittaa hyvää matemaattista tekstiä? 2) Osaavatko ne kirjoittaa järkeviä viitteitä? ja 3) Kumpi menetelmä on parempi näissä kahdessa tehtävässä? Tutkimus tehdään pyytämällä kielimalleja kirjoittamaan tiivistelmät 25:stä tilastollisesta termistä ja antamaan viitteet teksteihin. Tämän jälkeen yksi Aalto-yliopiston oppilas sekä yksi Aalto-yliopiston professori erikseen valitsevat mielestään paremman tekstin, ja näille arvioinneille tehdään merkkitestit. Lisäksi teksteille annetaan normalisoitu pistemäärä niiden tekemien viitevirheiden perusteella. Tälle pistemäärädatalle tehdään merkkitesti, sekä parillisten otosten t-testi. Tekstejä lukiessa huomaa, että sekä ChatGPT että Gemini tuottavat melko huonolaatuista matemaattista tekstiä. Vaikka teksti on hyvin kirjoitettu, se on matemaattisesti virheellistä ja valitsee joskus varsin hassuja sanoja kyseiseen tekstityyppiin. Viitteissä on usein virheitä tai ne eivät yksinkertaisesti ole olemassa. Vaikka sekä ChatGPT:n että Geminin havaittiin olevan huonoja sekä matemaattisen tekstin että viitteiden tuottamisessa, sekä opiskelijan että professorin mukaan ChatGPT oli parempi viitteiden tuottamisessa, mutta Gemini oli hieman parempi matemaattisen tekstin sisällön tuottamisessa.

Description

Supervisor

Ilmonen, Pauliina

Thesis advisor

Ilmonen, Pauliina

Keywords

large language models, ChatGPT, Google Gemini, statistical testing

Other note

Citation