InBase 2.0: Sequence database and research tool for auto- catalytic self-splicing proteins

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Master's thesis
Ask about the availability of the thesis by sending email to the Aalto University Learning Centre oppimiskeskus@aalto.fi
Date
2015-05-11
Department
Major/Subject
Laskennallinen ja kognitiivinen biotiede
Mcode
S3001
Degree programme
BIO - Bioinformaatioteknologia
Language
en
Pages
74+7
Series
Abstract
Inteins are autocatalyzing self-splicing proteins that are excised from a host protein giving a free intein and an active protein. Other protein groups related to inteins by their ability to self-splice are also found and their function are at some level studied. These proteins share a domain named as HINT (Hedgehog/Intein). At the moment these groups are named as inteins, bacterial intein-like proteins A, B and C, hedgehog proteins and Vints. The purpose of this work was to build a platform, named as InBase 2.0, where the functions and properties of these self-splicing elements could be studied efficiently. The database that gathers protein sequences having these common properties lies at the basis of InBase 2.0. The database is a relational database linking other important information to the actual sequential data of the proteins. Such information is for example publications, classification of proteins, measured self-splicing activities etc. A set of tools was added to the InBase 2.0 in order to perform sequential analysis and comparison between the sequences. The set of tools performing sequential analysis includes BLAST, InterProScan 5, ClustalW and WebLogo. Several known inteins contain homing endonuclease domain. This domain can copy the intein coding sequence to another location in a genome. However, the copy site needs to have a specific recognition site, which is again specific to the intein. The capability of the tools were studied by constructing a workflow capable to predict such recognition sites. Some recognition sites are known and the constructed workflow utilizing the tools of InBase 2.0 was capable to find these recognition sites with a small deficiency, not been able to predict the length of the site. Classification of the protein sequences containing the HINT domain is not very clear. InBase 2.0 main purpose for now on is to help to provide more specific definitions to the subgroups of the HINT domain containing proteins.

Inteinit ovat proteiineja, jotka silmukoituvat automaattisesti irti isäntäproteiinista ilman entsyymejä tai muita katalyyttejä. Silmukoitumisesta seuraa toimiva isäntäproteiini ja vapaa inteini. Tämä automaattinen leikkauttuminen on inteini -proteiinien perusominaisuus ja myös muita samankaltaisilla ominaisuuksilla varustettuja proteiiniryhmiä on löydetty. Kaikissa näissä ryhmissä - inteinit mukaanluettuna - on proteiini -alue (engl. domain) nimeltä HINT, joka vastaa leikkautumisesta. Tällä hetkellä ryhmät ovat inteinit, bakteeriperäiset inteinien kaltaiset proteiinit A, B ja C, sekä Hedgehog ja Vint -ryhmät. Monet näiden ryhmien proteiineista ovat huonosti tutkittuja. Tämän työn tarkoituksena on rakentaa verkkopohjainen työkalu - nimeltään InBase 2.0 - näiden ryhmien ominaisuuksien tutkimiseen sekä tietokanta proteiinisekvenssien tallennukseen. InBase 2.0:n tietokanta on relaatiotietokanta, jossa proteiinisekvensseihin voidaan linkittää niihin liittyvää tietoa. Tallaista tietoa on esimerkiksi sekvenssiin liittyvät julkaisut, sekvenssien luokitukset ja leikkautumisaktiivisuus. InBase 2.0:n työkalupaketti sisältää sekvenssianalyysissä yleisesti käytettyjä ohjelmistoja. Työkalut ovat BLAST, InterProScan 5, ClustalW ja WebLogo. Useat inteinit sisältävät myös proteiini -domainin nimeltä hakeutuva endonukleaasi. Tämä domaini voi kopioida inteiniä koodavan DNA -sekvenssin toisaalle organismin genomissa. Uusi sijainti tulee kuitenkin sisältää lyhyen ko. inteinille spesifisen DNA -sekvenssin, ns. tunnistusalue. Osalta inteineistä tämä tunnistusalue on tunnettu. Tätä tietoa käytettiin hyväksi, kun InBase 2.0:n työkaluista rakennettiin yhteiskäyttökokonaisuus, jolla näitä tunnistusalueita pyritään ennustamaan. Kokonaisuus toimii kyeten selvittämään tunnetut tunnistusalueet, mutta ei sitä kuinka pitkä tämä alue on. Toinen päätehtävä InBase 2.0:lla on se että HINT domainin sisältävien proteiinien luokittelu on hankalaa ja epämääräistä. Tähän ongelmaan pyritään saada selkeämpi määrittely käyttäen hyväksi InBase 2.0 työkaluja.
Description
Supervisor
Lampinen, Jouko
Thesis advisor
Iwai, Hideo
Keywords
proteins, inteins, hint, sequence analysis, biological databases
Other note
Citation