Normalized Compression Distance in Automatic Evaluation of Machine Translations
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Authors
Date
2010
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Language
en
Pages
[12] + 80
Series
Abstract
The development of machine translation systems depends on the evaluation of their results. However, manual evaluation of the translation quality is labour expensive and slow. For this reason, several automatic machine translation evaluation metrics have been developed. The best performing evaluation metrics use additional language specific resources (e.g. lists of synonyms or part-of-speech tagging). However, these resources do not exist for all languages. This thesis evaluates the suitability of Normalized Compression Distance for the automatic evaluation of machine translations. Normalized Compression Distance is a general distance measure between two strings, based on the theoretical foundations of Algorithmic Information Theory and Kolmogorov complexity. We show that, in system-level evaluation, Normalized Compression Distance achieves similar correlations to human evaluations as the standard machine translation evaluation metrics. In sentence-level evaluation, Normalized Compression Distance performs on the same level as the state-of-the-art evaluation metrics. Furthermore, NCD achieved the best performance among the evaluated metrics that did not use additional language specific resources.Konekäännösjärjestelmien kehittäminen edellyttää niiden tuottamien käännösten arviointia. Käännösten manuaalinen arviointi on kuitenkin työlästä. Tästä syystä on kehitetty useita käännösten automaattiseen arviointiin tarkoitettuja menetelmiä. Parhaat näistä menetelmistä käyttävät kuitenkin ylimääräisiä kielestä riippuvia resursseja (esimerkiksi synonyymisanakirjoja tai sanaluokkatietoja), joita ei ole olemassa kaikille kielille. Työssä arvioidaan normalisoidun kompressioetäisyyden (engl. Normalized Compression Distance) sopivuutta konekäännösten automaattiseen arviointiin. Normalisoitu kompressioetäisyys on yleinen, kahden merkkijonon välinen etäisyysmitta, joka perustuu algoritmiseen informaatioteoriaan ja Kolmogorovin kompleksisuuteen. Työssä näytetään, että systeemitason arvioinnissa normalisoitu kompressioetäisyys saavuttaa samantasoisia korrelaatioita ihmisarvioiden kanssa kuin yleisesti käytetyt käännösten automaattiset evaluointimenetelmät. Lausetason arvioinnissa normalisoitu kompressioetäisyys tuottaa samantasoisia evaluointeja kuin viimeisintä tekniikkaa edustavat automaattiset menetelmät. Lisäksi, normalisoitu kompressioetäisyys saavutti parhaat tulokset, kun sitä vertailtiin muiden sellaisten menetelmien kanssa, jotka eivät käytä ylimääräisiä kielestä riippuvia resursseja.Description
Supervisor
Honkela, TimoThesis advisor
Väyrynen, Jaakko J.Keywords
machine translation, konekääntäminen, automatic evaluation, automaattinen arviointi, normalized compression distance, normalisoitu kompressioetäisyys