Neural Network Architectures for Mobile Device Screen Crack Detection
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-06-13
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
44
Series
Abstract
Mobile devices have replaced conventional telephones during the past two decades. The market for used mobile devices has emerged due to this development. Estimating the value of used mobile devices is essential for an efficient market. The mobile device screen contributes significantly to the price of mobile devices. Therefore, determining the condition of the screen presents a significant portion of this process. Crack detection is one of the principal tasks in determining the condition of a mobile device screen. If the screen contains cracks, it likely needs to be replaced. Reliable automation of this task can significantly decrease the amount of manual labor it requires. Machine Learning is an interdisciplinary field of study, which concerns itself with a class of algorithms that utilize data to improve over time. Machine Learning algorithms have solved several algorithmic problems, which have been previously unsolved. Examples of such problems include machine translation and object detection. Neural networks are a class of machine learning algorithms, which have been particularly successful at these tasks. They have outperformed several other methods in recent years partly due to the increased effectiveness of Graphics Processing Units. Convolutional neural networks are a class of neural networks, which have recently shown state-of-the-art performance in most Computer Vision tasks. Computer Vision is the study of algorithms, that process visual data. They have proven effective in detecting shapes from images that contain important task-related information. However, they are ineffective at identifying features that require context from a larger area. Cracks are often spread out over large areas on the mobile device screen. In addition to that, they exhibit fewer distinguishable features for convolutional neural networks to detect. Transformers, another class of neural networks, are more context-aware. They can consider the entire image when determining the importance of a pixel. They were designed for Natural Language Processing, and have recently crossed over to Computer Vision. This thesis proposes three neural network architectures for automated crack detection in mobile device screens: ResNet-101, ResNet-101 FPN, and Vision Transformer. The Vision Transformer outperformed the other architectures on the test metrics, reaching a 5-fold cross-validation accuracy of 96.3%. The results indicate that the Vision Transformer might be capable of reliably detecting cracks on mobile device screens in a production environment.Mobiililaitteet ovat kahden viime vuosikymmenen aikana korvanneet lankapuhelimet. Tämän seurauksena ovat syntyneet markkinat käytetyille mobiililaitteille. Käytettyjen mobiililaitteiden hinnan määritys on tärkeä osa niiden vaihdantaa. Merkittävä osuus nykyaikaisen laitteen hinnasta tulee sen näytöstä. Tästä syystä mobiililaitteen näytön kunnon määrittäminen on tärkeä osa laitteen kunnon määrittämistä. Luotettava halkeamien tunnistaminen näytöstä on välttämätöntä näytön kunnon määrittämiseksi - jos näytössä on halkeamia, se täytyy todennäköisesti vaihtaa. Tämän prosessin automatisointi voi vähentää siihen vaadittavan manuaalisen työn määrää merkittävästi. Koneoppiminen on poikkitieteellinen tutkimusala, joka käsittelee datan avulla kehittyviä algoritmeja. Nämä algoritmit on yleensä suunniteltu suorittamaan yhtä tehtävää, jossa ne paranevat suorituksen aikana. Koneoppimisalgoritmeilla on ratkaistu useita ongelmia, joita ei ole kyetty ratkaisemaan muilla menetelmillä. Konekääntäminen ja esineentunnistus ovat esimerkkejä tällaisista ongelmista. Neuroverkot ovat joukko koneoppimisalgoritmeja, jotka ovat suoriutuneet näistä tehtävistä erityisen hyvin. Niiden suorituskyky ja suosio ovat kasvaneet viime vuosikymmenen aikana osittain näytönohjaimien suorituskyvyn kasvun ansiosta. Konvoluutioneuroverkot ovat neuroverkkoja, joita on käytetty menestyksekkäästi useissa konenäön sovelluksissa. Konenäkö viittaa visuaalista dataa käsittelevien algoritmien tutkimukseen. Konvoluutioneuroverkot kykenevät tunnistamaan kuvista tehokkaasti tunnistustehtävän kannalta oleellisia piirteitä. Ne ovat vähemmän tehokkaita tehtävissä, jotka vaativat laajempien alueiden huomioimista. Halkeamat läpäisevät usein mobiililaitteen koko ruudun. Niissä on myös huomattavasti vähemmän tunnistettavia piirteitä kuin tyypillisissä esinekategorioissa. Muuntajat ovat neuroverkkoja, jotka suunniteltiin alun perin luonnollisen kielen käsittelyä varten, mutta niitä on alettu soveltaa myös konenäössä. Ne kykenevät ottamaan huomioon koko kuvan päättäessään yksittäisen pikselin merkitystä tehtävän kannalta. Tämä diplomityö esittelee kolme neuroverkkoarkkitehtuuria automaattiseen halkeamien tunnistukseen mobiililaitteiden ruuduista: ResNet-101, ResNet-101 FPN, ja Vision Transformer. Vision Transformer suoriutui näistä parhaiten. Sen tarkkuus ristivalidoinnissa oli 96,3 %. Se vaikuttaa saatujen tulosten perusteella kyvykkäältä toimimaan luotettavasti tuotantoympäristössä.Description
Supervisor
Solin, ArnoThesis advisor
Väänänen, JaniKeywords
computer vision, machine learning, vision transformer, attention