Developing and Evaluating an Automated Translation Model for Biology in Finnish and Swedish

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Department

Mcode

SCI3043

Language

en

Pages

63

Series

Abstract

This Master's thesis investigates the performance of various machine translation (MT) systems in translating Finnish to Swedish, with a particular emphasis on their efficacy in handling biology-related texts. In response to the need for accurate translation of specialized materials, a prototype MT model was developed and compared against existing systems, including Google Translate, GPT-4, Fiskmö, ChatGPT, and Helsinki-NLP (Hugging Face). The evaluation employed three metrics: the Bilingual Evaluation Understudy (BLEU) for semantic accuracy, the Character n-gram F-score (Chrf) for character-level precision, and the Translation Edit Rate (TER) for measuring the extent of post-editing required. The analysis revealed that while general text translations achieved relative parity among the MT systems, the translation of biology-specific content exhibited notable disparities. The Created Model, designed as a prototype for a company's translation of their biology materials, demonstrated superior performance, leaving behind established MT systems with higher BLEU and Chrf scores and a lower TER. This suggests that the Created Model's biology-tailored architecture, trained on domain-specific datasets, is particularly adept at navigating the nuances of biology terminology and context. The results underscore the potential of custom-tailored MT systems in professional settings where accuracy in specialized content is crucial. The Created Model's effectiveness presents a compelling case for its adoption by companies seeking to enhance the translation of their educational and technical materials. This research not only contributes to the academic understanding of MT capabilities in specialized domains but also provides a practical framework for developing MT solutions that can be directly applied within the industry. The implications of these findings are discussed in terms of their relevance to the future of MT development, the importance of domain-specific training, and the integration of MT technology into the translation workflows of businesses requiring high-fidelity translations of specialized content.

Detta magisterarbete forskar prestandan hos olika maskinöversättningssystem (MT) när de översätter från finska till svenska, med särskilt fokus på deras förmåga att hantera biologirelaterade texter. För att möta behovet av kvalitativ översättning av specialmaterial, har en prototyp av en MT-modell utvecklats och ställts mot befintliga system såsom Google Translate, GPT-4, Fiskmö, ChatGPT, och Helsinki-NLP (Hugging Face). Utvärderingen baserades på tre mått: Bilingual Evaluation Understudy (BLEU) för semantisk precision, Character n-gram F-score (Chrf) för noggrannhet på teckennivå, och Translation Edit Rate (TER) för att kvantifiera omfattningen av nödvändig efterredigering. Analysen avslöjade att trots att översättningar av generella texter uppnådde en relativ jämnhet bland de olika MT-systemen, framträdde betydande skillnader i översättningarna av biologispecifikt innehåll. Den utvecklade modellen, framtagen som en prototyp för översättning av ett företags biologimaterial, visade en överlägsen prestanda med högre BLEU- och Chrf-poäng samt en lägre TER än de etablerade systemen. Detta antyder att modellens skräddarsydda arkitektur för biologi, som tränats på domänspecifikt data, är exceptionellt lämpad för att hantera den komplexa biologiska terminologin och dess sammanhang. Resultaten lyfter fram potentialen i skräddarsydda MT-system i professionella sammanhang där precision i specialiserat innehåll är ytterst viktigt. Effektiviteten hos den skapade modellen ger starka argument för dess implementering av företaget som strävar efter att förbättra översättningen av sitt utbildningsmaterial. Denna studie bidrar inte bara till den akademiska förståelsen för MT-systemens kapacitet inom specialiserade områden utan erbjuder också ett praktiskt ramverk för utvecklingen av MT-lösningar som kan tillämpas direkt. Implikationerna av dessa fynd diskuteras med avseende på deras betydelse för framtiden inom MT-utveckling, vikten av domänspecifik träning, samt integrationen av MT-teknologi i översättningsprocesser hos företag som behöver högkvalitativa översättningar av specialinnehåll.

Description

Supervisor

Hyvönen, Eero

Thesis advisor

Arkko, Lasse

Other note

Citation