InBase 2.0: Sequence database and research tool for auto- catalytic self-splicing proteins

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Iwai, Hideo
dc.contributor.author Kuula, Jani
dc.date.accessioned 2015-05-27T08:24:45Z
dc.date.available 2015-05-27T08:24:45Z
dc.date.issued 2015-05-11
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/16245
dc.description.abstract Inteins are autocatalyzing self-splicing proteins that are excised from a host protein giving a free intein and an active protein. Other protein groups related to inteins by their ability to self-splice are also found and their function are at some level studied. These proteins share a domain named as HINT (Hedgehog/Intein). At the moment these groups are named as inteins, bacterial intein-like proteins A, B and C, hedgehog proteins and Vints. The purpose of this work was to build a platform, named as InBase 2.0, where the functions and properties of these self-splicing elements could be studied efficiently. The database that gathers protein sequences having these common properties lies at the basis of InBase 2.0. The database is a relational database linking other important information to the actual sequential data of the proteins. Such information is for example publications, classification of proteins, measured self-splicing activities etc. A set of tools was added to the InBase 2.0 in order to perform sequential analysis and comparison between the sequences. The set of tools performing sequential analysis includes BLAST, InterProScan 5, ClustalW and WebLogo. Several known inteins contain homing endonuclease domain. This domain can copy the intein coding sequence to another location in a genome. However, the copy site needs to have a specific recognition site, which is again specific to the intein. The capability of the tools were studied by constructing a workflow capable to predict such recognition sites. Some recognition sites are known and the constructed workflow utilizing the tools of InBase 2.0 was capable to find these recognition sites with a small deficiency, not been able to predict the length of the site. Classification of the protein sequences containing the HINT domain is not very clear. InBase 2.0 main purpose for now on is to help to provide more specific definitions to the subgroups of the HINT domain containing proteins. en
dc.description.abstract Inteinit ovat proteiineja, jotka silmukoituvat automaattisesti irti isäntäproteiinista ilman entsyymejä tai muita katalyyttejä. Silmukoitumisesta seuraa toimiva isäntäproteiini ja vapaa inteini. Tämä automaattinen leikkauttuminen on inteini -proteiinien perusominaisuus ja myös muita samankaltaisilla ominaisuuksilla varustettuja proteiiniryhmiä on löydetty. Kaikissa näissä ryhmissä - inteinit mukaanluettuna - on proteiini -alue (engl. domain) nimeltä HINT, joka vastaa leikkautumisesta. Tällä hetkellä ryhmät ovat inteinit, bakteeriperäiset inteinien kaltaiset proteiinit A, B ja C, sekä Hedgehog ja Vint -ryhmät. Monet näiden ryhmien proteiineista ovat huonosti tutkittuja. Tämän työn tarkoituksena on rakentaa verkkopohjainen työkalu - nimeltään InBase 2.0 - näiden ryhmien ominaisuuksien tutkimiseen sekä tietokanta proteiinisekvenssien tallennukseen. InBase 2.0:n tietokanta on relaatiotietokanta, jossa proteiinisekvensseihin voidaan linkittää niihin liittyvää tietoa. Tallaista tietoa on esimerkiksi sekvenssiin liittyvät julkaisut, sekvenssien luokitukset ja leikkautumisaktiivisuus. InBase 2.0:n työkalupaketti sisältää sekvenssianalyysissä yleisesti käytettyjä ohjelmistoja. Työkalut ovat BLAST, InterProScan 5, ClustalW ja WebLogo. Useat inteinit sisältävät myös proteiini -domainin nimeltä hakeutuva endonukleaasi. Tämä domaini voi kopioida inteiniä koodavan DNA -sekvenssin toisaalle organismin genomissa. Uusi sijainti tulee kuitenkin sisältää lyhyen ko. inteinille spesifisen DNA -sekvenssin, ns. tunnistusalue. Osalta inteineistä tämä tunnistusalue on tunnettu. Tätä tietoa käytettiin hyväksi, kun InBase 2.0:n työkaluista rakennettiin yhteiskäyttökokonaisuus, jolla näitä tunnistusalueita pyritään ennustamaan. Kokonaisuus toimii kyeten selvittämään tunnetut tunnistusalueet, mutta ei sitä kuinka pitkä tämä alue on. Toinen päätehtävä InBase 2.0:lla on se että HINT domainin sisältävien proteiinien luokittelu on hankalaa ja epämääräistä. Tähän ongelmaan pyritään saada selkeämpi määrittely käyttäen hyväksi InBase 2.0 työkaluja. fi
dc.format.extent 74+7
dc.language.iso en en
dc.title InBase 2.0: Sequence database and research tool for auto- catalytic self-splicing proteins en
dc.title InBase 2.0: Tietokanta ja tutkimustyökalu automaattisesti isäntäproteiinista irti silmukoituville proteiineille fi
dc.type G2 Pro gradu, diplomityö en
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.subject.keyword proteins en
dc.subject.keyword inteins en
dc.subject.keyword hint en
dc.subject.keyword sequence analysis en
dc.subject.keyword biological databases en
dc.identifier.urn URN:NBN:fi:aalto-201505272915
dc.programme.major Laskennallinen ja kognitiivinen biotiede fi
dc.programme.mcode S3001 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Lampinen, Jouko
dc.programme BIO - Bioinformaatioteknologia fi
dc.location P1 fi


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account