Sample 3300008522

Basic Information
IMG/M Taxon OID	3300008522 Open in IMG/M
GOLD Reference (Study \| Sequencing Project \| Analysis Project)	Gs0063646 \| Gp0052931 \| Ga0111045
Sample Name	Human tongue dorsum microbial communities from NIH, USA - visit 1, subject 765135172 reassembly
Sequencing Status	Permanent Draft
Sequencing Center	Baylor College of Medicine, J. Craig Venter Institute (JCVI), Washington University in St. Louis
Published?	N
Use Policy	Open

Basic Information

IMG/M Taxon OID

3300008522 Open in IMG/M

GOLD Reference
(Study | Sequencing Project | Analysis Project)

Gs0063646 | Gp0052931 | Ga0111045

Sample Name

Human tongue dorsum microbial communities from NIH, USA - visit 1, subject 765135172 reassembly

Sequencing Status

Permanent Draft

Sequencing Center

Baylor College of Medicine, J. Craig Venter Institute (JCVI), Washington University in St. Louis

Published?

Use Policy

Open

Dataset Contents
Total Genome Size	124642862
Sequencing Scaffolds	19
Novel Protein Genes	22
Associated Families	20

Dataset Contents

Total Genome Size

124642862

Sequencing Scaffolds

Novel Protein Genes

Associated Families

Dataset Phylogeny
Taxonomy Groups	Number of Scaffolds
All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ctYA416	5
All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae	1
All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes	2
Not Available	3
All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria	1
All Organisms → Viruses → Predicted Viral	2
All Organisms → cellular organisms → Bacteria → Terrabacteria group → Firmicutes → Bacilli → Lactobacillales → Streptococcaceae → Streptococcus	1
All Organisms → cellular organisms → Bacteria	2
All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae → Haemophilus → Haemophilus parainfluenzae	1
All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ct6uZ8	1

Dataset Phylogeny

Taxonomy Groups

Number of Scaffolds

All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ctYA416

All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae

All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes

Not Available

All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria

All Organisms → Viruses → Predicted Viral

All Organisms → cellular organisms → Bacteria → Terrabacteria group → Firmicutes → Bacilli → Lactobacillales → Streptococcaceae → Streptococcus

All Organisms → cellular organisms → Bacteria

All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae → Haemophilus → Haemophilus parainfluenzae

All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ct6uZ8

Ecosystem Assignment (GOLD)
Name	Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase
Type	Host-Associated
Taxonomy	Host-Associated → Human → Digestive System → Oral Cavity → Tongue Dorsum → Human → Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase

Ecosystem Assignment (GOLD)

Name

Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase

Type

Host-Associated

Taxonomy

Host-Associated → Human → Digestive System → Oral Cavity → Tongue Dorsum → Human → Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase

Alternative Ecosystem Assignments
Environment Ontology (ENVO)	Unclassified
Earth Microbiome Project Ontology (EMPO)	Host-associated → Animal → Animal surface

Alternative Ecosystem Assignments

Environment Ontology (ENVO)

Unclassified

Earth Microbiome Project Ontology (EMPO)

Host-associated → Animal → Animal surface

Location Information
Location	USA: Maryland: Natonal Institute of Health
Coordinates	Lat. (^o)	39.0042816	Long. (^o)	-77.1012173	Alt. (m)	N/A	Depth (m)	N/A
Location on Map

Zoom:	Powered by OpenStreetMap^©

Location Information

Location

USA: Maryland: Natonal Institute of Health

Coordinates

Lat. (^o)

39.0042816

Long. (^o)

-77.1012173

Alt. (m)

N/A

Depth (m)

N/A

Location on Map

Zoom:

Family	Category	Number of Sequences	3D Structure?
F032313	Metagenome	180	N
F043991	Metagenome	155	N
F046432	Metagenome	151	Y
F054110	Metagenome	140	N
F067846	Metagenome	125	Y
F068942	Metagenome	124	N
F074985	Metagenome	119	N
F077405	Metagenome	117	N
F081455	Metagenome	114	N
F084362	Metagenome	112	N
F085820	Metagenome	111	N
F089057	Metagenome	109	N
F092229	Metagenome	107	N
F092232	Metagenome	107	N
F095629	Metagenome	105	N
F095631	Metagenome	105	N
F099452	Metagenome	103	N
F099453	Metagenome	103	N
F103436	Metagenome	101	Y
F105379	Metagenome	100	N

Family

Scaffold	Taxonomy	Length	IMG/M Link
Ga0111045_100094	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ctYA416	50311	Open in IMG/M
Ga0111045_100106	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ctYA416	48215	Open in IMG/M
Ga0111045_100554	All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae	20037	Open in IMG/M
Ga0111045_101385	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes	11167	Open in IMG/M
Ga0111045_102201	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ctYA416	8025	Open in IMG/M
Ga0111045_102988	Not Available	6439	Open in IMG/M
Ga0111045_103128	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ctYA416	6244	Open in IMG/M
Ga0111045_103925	All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria	5261	Open in IMG/M
Ga0111045_104147	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ctYA416	5040	Open in IMG/M
Ga0111045_104321	All Organisms → Viruses → Predicted Viral	4879	Open in IMG/M
Ga0111045_104751	All Organisms → cellular organisms → Bacteria → Terrabacteria group → Firmicutes → Bacilli → Lactobacillales → Streptococcaceae → Streptococcus	4515	Open in IMG/M
Ga0111045_106655	Not Available	3448	Open in IMG/M
Ga0111045_107337	All Organisms → cellular organisms → Bacteria	3178	Open in IMG/M
Ga0111045_110609	All Organisms → cellular organisms → Bacteria	2300	Open in IMG/M
Ga0111045_112913	All Organisms → Viruses → Predicted Viral	1910	Open in IMG/M
Ga0111045_115509	All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae → Haemophilus → Haemophilus parainfluenzae	1591	Open in IMG/M
Ga0111045_129028	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes	839	Open in IMG/M
Ga0111045_133661	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → unclassified Caudoviricetes → Myoviridae sp. ct6uZ8	715	Open in IMG/M
Ga0111045_140199	Not Available	584	Open in IMG/M

Sequences

Scaffold ID	Protein ID	Family	Sequence
Ga0111045_100094	Ga0111045_10009416	F089057	MINVIPLIAKKYNRKGDTSGSLKSLISDLNCVTDNDDVLLFLSSIPRETKYSLDDAFDIIVSNDEYSNIFRATLVFLNIDLDYHRLLLNAIKSESYTIICMINKAIPTPDLFLAKNNYECLTIALDKSYAIFDKVLGMVVGQIKHTASSKEGRALGIFMTLCILNKDIDKLASLCTGYLATCRSEYMVKDLMNKSAIDAFQYMSEEDIHIVVDDINSRTVLSRYLNKI*
Ga0111045_100106	Ga0111045_10010616	F081455	MENVECISNLISKCSDYINRKEKNTNTEEKDIPPVEEIGAETVDIIDAAEEAIQQPLQNKDASIAVNFSQMVNKPKEEVKTEVNSVPPEGETKVNVLFPKTEHILGNYVDYDSFIKIKESNTDKVVRAVRLLNYKMSDQNAAAAFAQFVSTFNPEGDLNKRLRYELIRHQGREKDLVIRLSTVLNGTTKYYADIYPDLNKIDLDHHLISSAKK*
Ga0111045_100106	Ga0111045_10010620	F099453	MNRFDVIELAQQTLTFVYDTFNGKVNTLDPYTRLNFVSGYLDTKTNIARTTPYGCIYVSLEAFADTVERQGFIDTDQIRNLALEIIIHELTHVDQLIDYKYIKFNNGYRDEVELKCVKQSCQWILDNMQYIRSLGLVVIPEVYQARLANLGNIIYTPKYPIAIAMAKLEYMLGRKFREFSNNNIEIQYIDRLKTHYSFMVCENRSYINSRNLNDLGERLLNDKQYTVEYLEYGNSKLVIKITQGV*
Ga0111045_100106	Ga0111045_10010639	F092229	MNKEYRFNHIPEVVLRNIRFIRDNNIDIGTGDDVLECMMDINPVVRTKIYDDYEFAKDVAERRFGSTIEGLDLRTVLQKCINRPYNSILNNIFFRYFNSELIDDLFKLGQSPKVLDLAIEYECEYYTVNAAKTNIRRYNTDAYYNKFAADSNIISSHRSLHDPQVNAVKSAEFTYDLLMASRAEEFNPEIVREIFVKYGLKPNSSRNLYNRINDNLNLFYYIEDYLEEYKEEGRFIYGTKEYKILKELRSLPLMVVLTQLTRKNDSGYVLNSNLELVKG*
Ga0111045_100554	Ga0111045_1005542	F067846	MESLQAQWERKTFNDYDRRCCAEDAYNEAIEREIECIEDDISNGDSDAICAFSEKMFDDDEFLKAVALGTDYEEMRIKILTAMAEDRLEQIEEDYRKGYILND*
Ga0111045_101385	Ga0111045_10138513	F095629	MTFKERMMRELIICVCLLGCFGVANANNVEQPKEVKIVHNDDSVILHKKIYQLEKRIERLEELLKKEDK*
Ga0111045_102201	Ga0111045_1022015	F095631	MASDAVSVNKTLRSYQETVLNTVQNDTLLNANIYDIHQYIENIKKRYVDEDEITLSMGIFGYMGDVNSNALQNAVTMAAEYSNEAIPIKAKFEKNVISHALMLGINKIFAEPATMQAMFVFYEDELILNTVSDTFKFDRNIKIMVGDYEFHLPYDLIIKRIELPTGEYIYTGMYDTTQSNPIITRNSNDVDPYLKPTVRSKIDGRNVVMLLVDLRQYEYTTYHKTIITTNPLESKMLQFEFDNQLAGFDVDVKEYDQPTRKLKPVYNGLNTDGINNFCNYTYIDSSTIRVMFDNSSYLPTANTEVTVNLYTCQGSNGNISYKDSIYFRVKSEKINYDRLNLLVIPTSDAQYGIDKRSIADLKKLIPKEALSRGSVTNSTDINNYFNTIDDDDNKLFFFKKMDNPLARLYYAFVLMDSPTNIIPTNTIPIEAIRRDFDNISDSNYILTAGNIIKYDGTTNASVAYQSSEEELNNARKNQFLYMNPFMCIVNKKPLYVSYYMNIMDVNKLLEFTYVNQDSKVQFVANKMNWYRHYLSERDTYVGDISIMQNIQSDIGLVHRDDPYDPEKITGVDVKVLAVFYTDEKYQVPYRWAEAEFVNYDQNTFIMDYKFKLNTDNKIDKNIKLKINNVYEVGNATRLSPGYMTNNMNMKIFVFAKDVFGYNAGLHKADQIFTADFLEGYSLTNEYTVKYGIDFLYNYSDLIESHIKIRKQDNGQISYIIDRVPVISYDYVNTEERIQDFINNLEKKRIHILECLDVLEDSFGIDIKFFNTYGPSKLFYVNDGVPLNRVNLSMTFKVKFLTTTDKYLTEYIKNDIRKYIEDKSRISDIHIPNIITFITQKYAENVTYFEFLDFNGYGPGYQHIYRKDESIVGRIPEFLNINTIGTENNALDINIIIA*
Ga0111045_102988	Ga0111045_10298812	F084362	MNCTFTVRWSDEKNKPHAKTYATEDDAKRAKKWLLEHGVRSVDIAVKINNKPAGSLKDDNPSESAAEQKGFWWQE*
Ga0111045_103128	Ga0111045_1031285	F092232	MNTQAKFIAEYNDKNRPKFNDKFFNKSDDDIIEDLKDVILSCERNKFYTIKVLNFEVIDDYNEVQKLLIGDETPSISIKDSDLKILKVTYHVACTKDEDTFDVLIAIPRVIDGAYIHLNGNDYFPLFQLVDGSTYNNTTASSAKTQSITLKTNSNAVKMLRNFIDLNTTNEETVRAAMFSVYLFDHKVTLFEYYLARFGWYETLDKFNFEDVIKISDHDLNDPEYYTFAIANAHMKTPFYISAVKSFMDNDRILQSFVASFARAISLYATKKTTLDQIYTTEFWICKLGYNFVSSETSVFTKGNAIIESLENSYDIPTKKRLRLPDHIKEDIYSVLKWMACEFSSIRLKNNLDASSKRIRWSEYIAAMYIMLINVKLRRLPEKHDPNMEAYRIKQQLNTQPMALIAELQKSNLKGFRNMVNDRDSFLQLKYTIKGPSGPGESNSKNVARNVRAIDPSHLGIIDLNTSSASDPGVGGMLCPLNYGVYEWNSFTNEEEPNVWDENFSKMLNIYREEKGYTSAIMLADDAGLELTDAR
Ga0111045_103925	Ga0111045_1039255	F046432	MWEMTENELNEIISKYQMPEVRYLVEEEGSFGESEFFWVIQNQSTNQKYLLVNTYSHHGVEAEVEYYREEGFDNLEAIPRRIETLENASDADDEISKYLFGMYSIFEIKS*
Ga0111045_104147	Ga0111045_1041477	F099452	MDKTYAELLQETLSKIYELKDLNNRDRGKALTIFIGERLNRELLLSSMNIFNLYKEIVNLDDVSLLNDLRKTSWYKDWFISDKRNSDLIDLSKFNFRSLERFEKESYLKDVEHYDFKKVIEVDSYSLYDTLAEENGVDLFKLAAENILINHGFFNNTDYNLYDIPDKYMEDIEVSLYMCLLNSGNMDFMDKKTFKSTELFYIVKNDICGTIFFTLFDRMNEDTRTRVR*
Ga0111045_104321	Ga0111045_1043215	F054110	VNYQPTIKKLLKALQMNGRRYVVDVRQSWSKYDKPCKIYIVSRMYTEEEYKLTFPEKYKKGKTFKQGQLYKKESEYSSTKQHEVLLFLVRTYKGGD*
Ga0111045_104751	Ga0111045_1047513	F103436	MITTSKGGWRYKSDFEIFDSLRDWVMKCDVKYVKRDALDKIDYARSLWCRAEYVAAVHLLDENEVFLKKSDWPYYALGIQILRARKHEFFNE*
Ga0111045_106655	Ga0111045_1066553	F032313	MYRFLILIFALTLMACDNNTPQEKPREQEKHEVPVSKPKPQFDEVGERIWYGQTPAMRLDSTNYGAGLTSVFGMRTSSISKQRFDSLFKQTVWEIKDIRVVETDLSLAKKNPGIMGWVTTTEFTCRNGVIVLHRQGINVNHVDTVNYVYDEVGNEIVLDTGIRWSVLRLNKNAVEFLQRGRTMWGPFDWYYGRNSGRSEVTLEAK*
Ga0111045_106655	Ga0111045_1066554	F032313	MYRFLILIFALMLMACDNDTPQEKPREQEKHEVPVPKPKPQFDEVGERIWYGRTPAIRLDSTDYGAGLTWVLEMRTSSIPKQRFDSLFKQTVWEIKDICAVETDLSLAKKIPRFVGGSIAKEFTCRNGVILRHMQGIDINCVDTVNYVYNEDLNEIVLEGTGIRWYVLRLNKYAVEFLQQGHNIWGPFDWYYGRNSGRSEVTLEAK*
Ga0111045_107337	Ga0111045_1073371	F046432	MWEMTESKLSNIISKYQLPMDNYLVEIDGAFGRGEFFWVIKNQSTNKKYLLVNTYSHHGVESELECYREGGFDNLEAIPRKIETLENASDADDEISKYLFGMYSIFEIKP*
Ga0111045_110609	Ga0111045_1106092	F085820	MRSTFYLFAMLFVATTFFSCETGEPAPRATWGEIVNPIEAFMYPRDLKVFAGDNDGRRWLILVIPDSTKSSFAPTSKSTPAEVARYKELSQLVGNPTEPVVNECHFHRTWLTQGVKGIRVLRTRADGRDEDVTAQCGNLYFYTDKQIFDCQFKCGNRSIFAKPLGETVEADYLWLPGRDVFGLVAPLNPDGLKQRIVLRLADGTEIEKELSEKGKK*
Ga0111045_112913	Ga0111045_1129133	F074985	MMELTDGGWYKTPRIIKGSDFLAHIHDTYASGNAMYVEFKASEGEVRILEYKRLYDVDTESAVLFTINTYPQESILLKNIEEYEFIQYRPQQAWKAIHMGSTKRFNLEQFDQLWLDQTFQKLHPVIVNHDGKFWYVMGLKLDVDADGSFWGLYLKRQDSDFMKEIRMPLTQKFIYNPISGSWFLDDPTQEIKDLEEIKQTLRADAILDVTVSGVPMKLIRVQEIAKGVLFFVFQDEEKNKRYYYNRPAIKLRIVTDSKTGEQKYLLDHIKAMHID*
Ga0111045_115509	Ga0111045_1155091	F077405	CRALPTELFPRLLVVKQRGVFYGFIVLCQIKFVKNFFDWLKIVQK*
Ga0111045_129028	Ga0111045_1290282	F043991	DLNGDLNEEAYEFEDVKLDEYIDKRSNVKPSWVGKYSHQMHFDLPDDTEVSFYKGLNIVCADINFAGGIRTILFKCRQKKNLTRFISRVLEIAQGDPSNVHPDFRA*
Ga0111045_133661	Ga0111045_1336612	F105379	IIGVGPEKSYFQTTSFMVDLSPHINNLLVNISDLKNLDKITQLEPSKENPEIAIHKPVVSVFNWDAEYVKACMNSLREYQIDDNIIARTDEFHNTDCYNELMAGSASTGAFRINIGGYMIDIPKSAIPTLKSDHVVATVYNAPNKDFNVLRFKITKRNGIIVNQSMLFLPY*
Ga0111045_140199	Ga0111045_1401991	F068942	RKILSLPTLALCFTLCTALFAGCGENYDGSVTEVHWSNVKNPEYGNAINITLKAEGETFTTVGDHSWISFSNDASTLDTFTRHRFPEMDKDTAYYKDIVIYLTRNESKGTATLKLVAPPNRTQQPKQFKFSVSVTPPGLYIFKVRQPALPAKAQ*

NMPFamsDB

NMPFamsDB

NMPFamsDB

A database of Novel Metagenome Protein Families

A database of Novel Metagenome Protein Clusters

A database of Novel Metagenome Protein Clusters

3300008522: Human tongue dorsum microbial communities from NIH, USA - visit 1, subject 765135172 reassembly

Overview

Ecosystem and Geography

Associated Families

Associated Scaffolds

Sequences