UniGene

UniGene is NCBI databank van het transcriptoom en dus ondanks de naam, niet primair een database genen. Elk item is een set van transcripten die lijken voort te komen uit dezelfde transcriptie locus. Informatie over eiwit gelijkenissen, genexpressie, cDNA-klonen, en genomische locatie is inbegrepen bij elk item.

Beschrijvingen van de UniGene transcript gebaseerd en genoom gebaseerde build procedures beschikbaar.

Een gedetailleerde beschrijving van UniGene databank

De UniGene bron, ontwikkeld NCBI, clusters EST's en andere mRNA-sequenties, tezamen met coderende sequenties geannoteerd op genomisch DNA, in subsets van verwante sequenties. Meestal is elk cluster bestaat uit sequenties die door een enkel gen, met inbegrip van alternatief gesplitste transcripten. Echter, sommige genen worden voorgesteld door meer dan één cluster. De clusters zijn organisme specifieke en beschikbaar voor de mens, muis, rat, zebravis, en runderen. Ze zijn uitgevoerd in verschillende fasen, een automatisch proces op basis van speciale sequentievergelijking algoritmen. Eerst worden de nucleotidesequenties zocht verontreinigingen zoals mitochondriaal, ribosomale en vectorsequentie, repetitieve elementen en lage complexiteit sequenties. Na een sequentie is afgeschermd, moet tenminste 100 basen bevatten een kandidaat voor indienststelling UniGene zijn. mRNA en genomisch DNA worden eerst geclusterd in gen verbindingen. Een tweede sequentievergelijking ESTs verbindt aan elkaar en aan het gen verbindingen. In dit stadium zijn alle clusters '' verankerd '' en bevat hetzij een sequentie met een polyadenyleringsplaats of twee ESTs gelabeld als afkomstig van het uiteinde 3 van een kloon. Kloon gebaseerde randen worden toegevoegd door het koppelen van de 5 en 3 ESTs die uit dezelfde kloon. In sommige gevallen kan deze koppeling clusters geïdentificeerd in een eerder stadium samen te voegen. Tenslotte verankerde EST en genclusters van grootte 1 worden vergeleken met andere UniGene clusters bij lagere strengheid. De UniGene build wordt wekelijks bijgewerkt, en de sequenties die deel uitmaken van een cluster kan veranderen. Het is dus niet veilig om te verwijzen naar een UniGene cluster door de cluster identifier; in plaats daarvan moet men de GenBank toegangsnummers van de sequenties gebruikt in het cluster.

Met ingang van juli 2000 heeft de mens subset van UniGene bevatte 1,7 miljoen sequenties in 82.000 clusters; 98% van deze geclusterde sequenties zijn EST's, en voor 2% uit mRNA of CDS geannoteerd op genomisch DNA. Deze menselijke clusters kunnen fragmenten tot 82.000 unieke menselijke genen vertegenwoordigen, wat betekent dat veel menselijke genen nu worden weergegeven in een UniGene cluster. Slechts 1,4% van clusters totaal gebrek ESTs, wat impliceert dat de meeste menselijke genen worden vertegenwoordigd door ten minste één EST. Omgekeerd blijkt dat de meeste menselijke genen zijn slechts aangeduid met EST; slechts 16% van de clusters bevatten ofwel een mRNA of CDS geannoteerd op genomisch DNA. Omdat er minder EST beschikbaar voor muizen, ratten en zebravis, de UniGene clusters zijn niet representatief voor de unieke genen in het genoom. Muis UniGene bevat 895.000 sequenties in 88.000 clusters en rat UniGene bevat 170.000 sequenties in 37.000 clusters.

Een nieuw UniGene bron, HomoloGene omvat curator en berekende orthologen en homologen van genen van mens, muis, rat en zebravis. Berekende orthologen en homologen zijn het resultaat van de nucleotidesequentie vergelijkingen tussen alle UniGene clusters voor elk paar organismen. Homologen zijn geïdentificeerd als de beste match tussen een UniGene cluster in een organisme en een cluster in een tweede organisme. Wanneer twee sequenties in andere organismen best matches elkaar, worden de UniGene clusters overeenkomt met het paar sequenties overwogen vermeende orthologen. Een speciaal symbool geeft aan dat UniGene clusters in drie of meer organismen delen een onderling consistente ortholoog relatie. De berekende orthologen en homologen worden vermoedelijke beschouwd, aangezien zij uitsluitend gebaseerd op sequentievergelijkingen. Samengesteld orthologen worden geleverd door de Mouse Genome Database in het Jackson Laboratory en de zebravis Information Database aan de Universiteit van Oregon en kan ook worden verkregen uit de wetenschappelijke literatuur. Vragen aan UniGene zijn op een van de UniGene pagina's in een tekstvak ingevoerd. Zoektermen kunnen bijvoorbeeld de UniGene identifier, een gen naam, een tekst term die ergens in de UniGene record of het toegangsnummer van een EST of gen sequentie in het cluster. Bijvoorbeeld, de cluster getiteld 'A disintegrine en metalloprotease domein 10' 'dat de sequentie voor humane ADAM10 bevat kan worden opgevraagd door het invoeren ADAM10, desintegrine, AF009615 of H69859. Om een ​​specifiek deel van de UniGene verslag opvragen, gebruiken het symbool. Bijvoorbeeld, zoekt genen met de naam van het symbool ingesloten tussen haakjes, zoekt ingangen die zijn toegewezen aan chromosoom num, retourneert items in een cDNA-bibliotheek die door id en se- lects ingangen gekoppeld met een GenBank proteïne identifier id.

De pagina zoekresultaten bevat een lijst van alle UniGene clusters die overeenkomen met de zoekopdracht. Elke cluster wordt geïdentificeerd door een identificator, een beschrijving en een gen symbool, indien beschikbaar. Cluster identificatiemiddelen worden voorafgegaan door Hs voor Homo sapiens, Rn voor Rattus norvegicus, Mm voor Mus musculus of Dn voor Danio rerio. De beschrijvingen van UniGene clusters worden ontleend LocusLink, indien beschikbaar, of de titel van een sequentie in het cluster. Het rapport pagina UniGene voor elke cluster koppelt aan gegevens uit andere bronnen NCBI. Aan de bovenkant van de pagina staan ​​links naar LocusLink, dat beschrijvende informatie over genetische loci, OMIM, een catalogus van menselijke genen en genetische aandoeningen, en HomoloGene biedt. Vervolgens worden weergegeven overeenkomsten tussen de vertaling van DNA-sequenties in het cluster en eiwitsequenties van modelorganismen, zoals mens, muis, rat, fruitvlieg en worm. De daarop volgende hoofdstuk beschrijft relevante kaartinformatie. Het wordt gevolgd door '' uitdrukking informatie, '' die de weefsels waaruit de EST's in het cluster zijn gemaakt, samen met links naar de SAGE databank bevat. Sequenties die het cluster worden opgesomd vervolgens met een link naar deze sequenties downloaden.

Het is belangrijk op te merken dat de clusters die EST alleen zal ontbreken een aantal van deze gebieden, zoals LocusLink, OMIM en mRNA / Gene koppelingen bevatten. UniGene titels voor dergelijke clusters, zoals '' EST, zwak vergelijkbaar met ORF2 bevat een reverse transcriptase domein '' zijn afgeleid van de titel van een gekarakteriseerde eiwit waarmee de getranslateerde EST sequentie uitgelijnd. Het cluster titel kan net zo eenvoudig als 'EST' zijn 'als de EST delen geen significante gelijkenis met gekarakteriseerde eiwitten.

Gerelateerde databases

  • NCBI Gene databank NCBI databank catalogiseren van individuele genen
  • HomoloGene NCBI databank die groepen homologe genen slaat uit verschillende organismen
(0)
(0)
Commentaren - 0
Geen commentaar

Voeg een reactie

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tekens over: 3000
captcha