InBase 2.0: Sequence database and research tool for auto- catalytic self-splicing proteins

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorIwai, Hideo
dc.contributor.authorKuula, Jani
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorLampinen, Jouko
dc.date.accessioned2015-05-27T08:24:45Z
dc.date.available2015-05-27T08:24:45Z
dc.date.issued2015-05-11
dc.description.abstractInteins are autocatalyzing self-splicing proteins that are excised from a host protein giving a free intein and an active protein. Other protein groups related to inteins by their ability to self-splice are also found and their function are at some level studied. These proteins share a domain named as HINT (Hedgehog/Intein). At the moment these groups are named as inteins, bacterial intein-like proteins A, B and C, hedgehog proteins and Vints. The purpose of this work was to build a platform, named as InBase 2.0, where the functions and properties of these self-splicing elements could be studied efficiently. The database that gathers protein sequences having these common properties lies at the basis of InBase 2.0. The database is a relational database linking other important information to the actual sequential data of the proteins. Such information is for example publications, classification of proteins, measured self-splicing activities etc. A set of tools was added to the InBase 2.0 in order to perform sequential analysis and comparison between the sequences. The set of tools performing sequential analysis includes BLAST, InterProScan 5, ClustalW and WebLogo. Several known inteins contain homing endonuclease domain. This domain can copy the intein coding sequence to another location in a genome. However, the copy site needs to have a specific recognition site, which is again specific to the intein. The capability of the tools were studied by constructing a workflow capable to predict such recognition sites. Some recognition sites are known and the constructed workflow utilizing the tools of InBase 2.0 was capable to find these recognition sites with a small deficiency, not been able to predict the length of the site. Classification of the protein sequences containing the HINT domain is not very clear. InBase 2.0 main purpose for now on is to help to provide more specific definitions to the subgroups of the HINT domain containing proteins.en
dc.description.abstractInteinit ovat proteiineja, jotka silmukoituvat automaattisesti irti isäntäproteiinista ilman entsyymejä tai muita katalyyttejä. Silmukoitumisesta seuraa toimiva isäntäproteiini ja vapaa inteini. Tämä automaattinen leikkauttuminen on inteini -proteiinien perusominaisuus ja myös muita samankaltaisilla ominaisuuksilla varustettuja proteiiniryhmiä on löydetty. Kaikissa näissä ryhmissä - inteinit mukaanluettuna - on proteiini -alue (engl. domain) nimeltä HINT, joka vastaa leikkautumisesta. Tällä hetkellä ryhmät ovat inteinit, bakteeriperäiset inteinien kaltaiset proteiinit A, B ja C, sekä Hedgehog ja Vint -ryhmät. Monet näiden ryhmien proteiineista ovat huonosti tutkittuja. Tämän työn tarkoituksena on rakentaa verkkopohjainen työkalu - nimeltään InBase 2.0 - näiden ryhmien ominaisuuksien tutkimiseen sekä tietokanta proteiinisekvenssien tallennukseen. InBase 2.0:n tietokanta on relaatiotietokanta, jossa proteiinisekvensseihin voidaan linkittää niihin liittyvää tietoa. Tallaista tietoa on esimerkiksi sekvenssiin liittyvät julkaisut, sekvenssien luokitukset ja leikkautumisaktiivisuus. InBase 2.0:n työkalupaketti sisältää sekvenssianalyysissä yleisesti käytettyjä ohjelmistoja. Työkalut ovat BLAST, InterProScan 5, ClustalW ja WebLogo. Useat inteinit sisältävät myös proteiini -domainin nimeltä hakeutuva endonukleaasi. Tämä domaini voi kopioida inteiniä koodavan DNA -sekvenssin toisaalle organismin genomissa. Uusi sijainti tulee kuitenkin sisältää lyhyen ko. inteinille spesifisen DNA -sekvenssin, ns. tunnistusalue. Osalta inteineistä tämä tunnistusalue on tunnettu. Tätä tietoa käytettiin hyväksi, kun InBase 2.0:n työkaluista rakennettiin yhteiskäyttökokonaisuus, jolla näitä tunnistusalueita pyritään ennustamaan. Kokonaisuus toimii kyeten selvittämään tunnetut tunnistusalueet, mutta ei sitä kuinka pitkä tämä alue on. Toinen päätehtävä InBase 2.0:lla on se että HINT domainin sisältävien proteiinien luokittelu on hankalaa ja epämääräistä. Tähän ongelmaan pyritään saada selkeämpi määrittely käyttäen hyväksi InBase 2.0 työkaluja.fi
dc.format.extent74+7
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/16245
dc.identifier.urnURN:NBN:fi:aalto-201505272915
dc.language.isoenen
dc.locationP1fi
dc.programmeBIO - Bioinformaatioteknologiafi
dc.programme.majorLaskennallinen ja kognitiivinen biotiedefi
dc.programme.mcodeS3001fi
dc.rights.accesslevelclosedAccess
dc.subject.keywordproteinsen
dc.subject.keywordinteinsen
dc.subject.keywordhinten
dc.subject.keywordsequence analysisen
dc.subject.keywordbiological databasesen
dc.titleInBase 2.0: Sequence database and research tool for auto- catalytic self-splicing proteinsen
dc.titleInBase 2.0: Tietokanta ja tutkimustyökalu automaattisesti isäntäproteiinista irti silmukoituville proteiineillefi
dc.typeG2 Pro gradu, diplomityöen
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
dc.type.publicationmasterThesis
local.aalto.idinssi51468
local.aalto.inssiarchivenr2856
local.aalto.inssilocationP1 Ark Aalto
local.aalto.openaccessno

Files