Sample 3300006007

3300006007: Groundwater microbial communities from the Columbia River, Washington, USA, for microbe roles in carbon and contaminant biogeochemistry - GW-RW metaG T3_23-Sept-14

Overview

Basic Information
IMG/M Taxon OID	3300006007 Open in IMG/M
GOLD Reference (Study \| Sequencing Project \| Analysis Project)	Gs0114663 \| Gp0115666 \| Ga0073917
Sample Name	Groundwater microbial communities from the Columbia River, Washington, USA, for microbe roles in carbon and contaminant biogeochemistry - GW-RW metaG T3_23-Sept-14
Sequencing Status	Permanent Draft
Sequencing Center	DOE Joint Genome Institute (JGI)
Published?	N
Use Policy	Open

Dataset Contents
Total Genome Size	130273757
Sequencing Scaffolds	35
Novel Protein Genes	40
Associated Families	39

Dataset Phylogeny
Taxonomy Groups	Number of Scaffolds
All Organisms → Viruses → Predicted Viral	2
All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → environmental samples → uncultured Caudovirales phage	4
All Organisms → cellular organisms → Archaea → unclassified Archaea → archaeon	2
Not Available	18
All Organisms → cellular organisms → Bacteria → Proteobacteria → Betaproteobacteria → Nitrosomonadales → Methylophilaceae → unclassified Methylophilaceae → Methylophilaceae bacterium	2
All Organisms → cellular organisms → Bacteria	1
All Organisms → cellular organisms → Bacteria → Nitrospirae	2
All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes	1
All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → Caudovirales → Myoviridae → unclassified Myoviridae → Synechococcus phage S-CBM2	1
All Organisms → cellular organisms → Eukaryota → Sar → Stramenopiles → Ochrophyta → Bacillariophyta → Coscinodiscophyceae → Thalassiosirophycidae → Thalassiosirales → Thalassiosiraceae → Thalassiosira → Thalassiosira pseudonana	1
All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales → Prevotellaceae → Prevotella → Prevotella disiens	1

Ecosystem and Geography

Ecosystem Assignment (GOLD)
Name	Groundwater Microbial Communities From The Columbia River, Washington, Usa
Type	Environmental
Taxonomy	Environmental → Terrestrial → Soil → Sand → Unclassified → Sand → Groundwater Microbial Communities From The Columbia River, Washington, Usa

Alternative Ecosystem Assignments
Environment Ontology (ENVO)	freshwater river biome → microcosm → sand
Earth Microbiome Project Ontology (EMPO)	Free-living → Non-saline → Subsurface (non-saline)

Location Information
Location	USA: Columbia River, Washington
Coordinates	Lat. (^o)	46.372	Long. (^o)	-119.272	Alt. (m)	N/A	Depth (m)	N/A
Location on Map

Zoom:	Powered by OpenStreetMap^©

Associated Families

Family	Category	Number of Sequences	3D Structure?
F000166	Metagenome / Metatranscriptome	1810	Y
F000331	Metagenome / Metatranscriptome	1285	Y
F001097	Metagenome / Metatranscriptome	780	Y
F001808	Metagenome / Metatranscriptome	631	Y
F002487	Metagenome / Metatranscriptome	554	Y
F003299	Metagenome / Metatranscriptome	495	N
F003806	Metagenome / Metatranscriptome	467	Y
F007169	Metagenome / Metatranscriptome	356	N
F008361	Metagenome / Metatranscriptome	334	Y
F008688	Metagenome / Metatranscriptome	329	N
F009134	Metagenome	322	Y
F009204	Metagenome	321	Y
F009682	Metagenome / Metatranscriptome	314	Y
F010688	Metagenome / Metatranscriptome	300	Y
F010915	Metagenome / Metatranscriptome	297	Y
F011136	Metagenome / Metatranscriptome	294	Y
F016803	Metagenome / Metatranscriptome	244	Y
F020140	Metagenome / Metatranscriptome	225	Y
F021301	Metagenome / Metatranscriptome	219	N
F021761	Metagenome / Metatranscriptome	217	Y
F023108	Metagenome	211	Y
F026423	Metagenome / Metatranscriptome	198	Y
F030691	Metagenome / Metatranscriptome	184	Y
F031025	Metagenome / Metatranscriptome	183	N
F032259	Metagenome / Metatranscriptome	180	Y
F033034	Metagenome / Metatranscriptome	178	Y
F033776	Metagenome	176	Y
F041765	Metagenome / Metatranscriptome	159	Y
F043233	Metagenome / Metatranscriptome	156	N
F044447	Metagenome / Metatranscriptome	154	N
F050158	Metagenome / Metatranscriptome	145	Y
F054024	Metagenome	140	N
F055558	Metagenome	138	N
F055721	Metagenome / Metatranscriptome	138	Y
F056186	Metagenome	138	N
F057371	Metagenome / Metatranscriptome	136	Y
F072094	Metagenome / Metatranscriptome	121	N
F080037	Metagenome / Metatranscriptome	115	Y
F097186	Metagenome / Metatranscriptome	104	N

Associated Scaffolds

Scaffold	Taxonomy	Length	IMG/M Link
Ga0073917_1001287	All Organisms → Viruses → Predicted Viral	2901	Open in IMG/M
Ga0073917_1003659	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → environmental samples → uncultured Caudovirales phage	1605	Open in IMG/M
Ga0073917_1007549	All Organisms → cellular organisms → Archaea → unclassified Archaea → archaeon	1100	Open in IMG/M
Ga0073917_1007753	Not Available	1084	Open in IMG/M
Ga0073917_1008344	All Organisms → Viruses → Predicted Viral	1042	Open in IMG/M
Ga0073917_1008914	All Organisms → cellular organisms → Archaea → unclassified Archaea → archaeon	1006	Open in IMG/M
Ga0073917_1009577	All Organisms → cellular organisms → Bacteria → Proteobacteria → Betaproteobacteria → Nitrosomonadales → Methylophilaceae → unclassified Methylophilaceae → Methylophilaceae bacterium	968	Open in IMG/M
Ga0073917_1010616	Not Available	916	Open in IMG/M
Ga0073917_1011431	Not Available	883	Open in IMG/M
Ga0073917_1012601	Not Available	839	Open in IMG/M
Ga0073917_1012904	All Organisms → cellular organisms → Bacteria	829	Open in IMG/M
Ga0073917_1013425	All Organisms → cellular organisms → Bacteria → Nitrospirae	812	Open in IMG/M
Ga0073917_1013591	Not Available	807	Open in IMG/M
Ga0073917_1015133	Not Available	762	Open in IMG/M
Ga0073917_1016059	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes	738	Open in IMG/M
Ga0073917_1016638	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → environmental samples → uncultured Caudovirales phage	725	Open in IMG/M
Ga0073917_1017387	Not Available	708	Open in IMG/M
Ga0073917_1017604	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → Caudovirales → Myoviridae → unclassified Myoviridae → Synechococcus phage S-CBM2	704	Open in IMG/M
Ga0073917_1019299	All Organisms → cellular organisms → Eukaryota → Sar → Stramenopiles → Ochrophyta → Bacillariophyta → Coscinodiscophyceae → Thalassiosirophycidae → Thalassiosirales → Thalassiosiraceae → Thalassiosira → Thalassiosira pseudonana	670	Open in IMG/M
Ga0073917_1020109	Not Available	657	Open in IMG/M
Ga0073917_1021286	Not Available	638	Open in IMG/M
Ga0073917_1021705	All Organisms → cellular organisms → Bacteria → Proteobacteria → Betaproteobacteria → Nitrosomonadales → Methylophilaceae → unclassified Methylophilaceae → Methylophilaceae bacterium	632	Open in IMG/M
Ga0073917_1022321	Not Available	623	Open in IMG/M
Ga0073917_1022549	All Organisms → cellular organisms → Bacteria → Nitrospirae	620	Open in IMG/M
Ga0073917_1025072	Not Available	586	Open in IMG/M
Ga0073917_1025368	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → environmental samples → uncultured Caudovirales phage	583	Open in IMG/M
Ga0073917_1025998	Not Available	576	Open in IMG/M
Ga0073917_1026987	Not Available	565	Open in IMG/M
Ga0073917_1027229	Not Available	563	Open in IMG/M
Ga0073917_1028413	Not Available	551	Open in IMG/M
Ga0073917_1029961	Not Available	536	Open in IMG/M
Ga0073917_1030960	Not Available	528	Open in IMG/M
Ga0073917_1031661	All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales → Prevotellaceae → Prevotella → Prevotella disiens	522	Open in IMG/M
Ga0073917_1031729	All Organisms → Viruses → Duplodnaviria → Heunggongvirae → Uroviricota → Caudoviricetes → environmental samples → uncultured Caudovirales phage	521	Open in IMG/M
Ga0073917_1033666	Not Available	506	Open in IMG/M

Sequences

Scaffold ID	Protein ID	Family	Sequence
Ga0073917_1001287	Ga0073917_10012872	F021301	MNWNNITIHQLQEIHSCRDMSDLERQMNILAIALNLSMDEVESMTLDKLTSEFEKLSFLNDLPKAPIQFMFKLRGRYFKLAKTPNEMCGHHFIELQQVFNGDVIESLNKIVALLSVEVDFFGRNKKVVDAQAHYEDKCGLMMGLPVPLPYTYALFFLEVYPELLKNILCSLKEEMKDMTEQLTNPQ*
Ga0073917_1001287	Ga0073917_10012874	F031025	VALSITQQPDSYHPAFNDTNFVITESSGGIYTSSNFKFIANVKVAATSVAKLKAPIYFGSVNKGVFNIGRIMESYVSNNWSFTDTSPSGCVDSFSDYEVEFGYEYSPSATGTITEYLDLTSATGTVWNAALNPFDLVTYAQAQYLATSSSAKFLTNVRTRYIHRTQKDWLYALKGDATSVVITYSDASTQTFTLPSSKVVRIPVGSQLTIPGAATYFDVVLKLGGTAKSETYRINIKDECSKYETTDIFFMNRLGGFDSFRFNMVRRDTFEVARKQFQSNPYTLGATYGYATSVRTRSNYHTTASQKVKLTSNWIDDTESVWLKDLIESPVVYMYDGTLYAVNIDNANYEQKKGVQDKLFNLELDITLSFADKSQRL*
Ga0073917_1003659	Ga0073917_10036591	F072094	MKLLILTDGINGVVYHRLFTPHLRMQIDGQADVSVCQSIEEWLTLDYTQFDVIIFSRWLGAKHYDVLKKIADSGTPYVVDIDDYWILPKYNPAYW
Ga0073917_1007549	Ga0073917_10075492	F009682	LTKIERDNNIQTMIKDLYMKNSNEKILVQSDDLKYDGKNIIIPSYYASIVYDYLDNVNIEDMNLNDADMHDYLAFCSFFEDIIDHKADKGGN*
Ga0073917_1007753	Ga0073917_10077532	F097186	MSDLIVGEQDPRGVDWVSITLGACLGATITFIVGGQNGEAVGKSIERATVQCIDELGVRNSDSTSACWDMQAEALNRMELQRQAIDRLAERCVLSVPEADRLRVTRVKDVKPFKVVIPAPSSSAGSADWDAEDFGPPGDPDGKP*
Ga0073917_1008344	Ga0073917_10083442	F007169	MSYQLQFDFETLEQKEKRLKDWHDQQVKLNKMFEGKANDYYIYNKHVDQFIDFLPYRLGWGLKGNYNELRWWIKCQYQKFRYGVSDDEVYSLETNIAKYMVPRLQYFKKKGKMGIPMKFLPSNYDNLQDEDREKAEKIGEKEINRILDEMIFAFDYIIDPDKYVTFPKSCSWDIKDKNYFNREKNLEAKQAWDEYTKTCEQLDARKKQGLQFFVDHMDMLWI*
Ga0073917_1008914	Ga0073917_10089141	F020140	FDSPYSLHFMTHKFAVIVDKKFYNQIQNNSDFYLRVLVLDVIRALVPNEESADKYSSDIFYKCAKSISKEVKMLEDEKTVIFYLELSSGYLDDFFEKPLDDFE*
Ga0073917_1009577	Ga0073917_10095772	F001808	SCSAQYHLNKAIKKGYTCEETGDTIRITTLDSIPVIIHDSIVWEKFITTKDTIIKYNTVYVPKTRLEKRIEYKLKVKTIYKDRIVQKAQAKATRPKTRGNLNLLFVGVGIGLLLSYLFKFARDKYLF*
Ga0073917_1010616	Ga0073917_10106162	F021761	MISNLWVNRITALVVLAAIYAAGYAGGRDATVQAHHNHPACHTNLKP*
Ga0073917_1011431	Ga0073917_10114312	F008361	LVAVELSEATKELEKATSAIENAETSKARLDASVELKKATARLEGINYLS*
Ga0073917_1012601	Ga0073917_10126013	F010915	MIVIVQVGLDLYTLSYVKYEECDIHQCIKYDLSSEDVSQFLGNN*
Ga0073917_1012601	Ga0073917_10126014	F033034	MKVAKLTKKAQDIVNQIMSADAVDIDHGCIGERIAYGNMHLSGEGLECNVNVDGDIGEMIISNESLNAAVISEGTIEIDSEHIKDNPYGDMTITLYKLSKINAL*
Ga0073917_1012904	Ga0073917_10129043	F001097	MNNFEWPTNDSSRIKPLQGLRSERVDTQVQPKEIDDWLKQSVALVAGSVRGLGTNQRKVRYFAFEGQNDEATK*
Ga0073917_1013425	Ga0073917_10134252	F026423	LVTVGCTAPMKQPTTVGPYCNISWDKTNNSKVAWYQLTVIDQSKQAKIVRFIPADTTTVSCRDVGANHDGIWEVTVQSCYDKSTCGLPTEAARMQITTK*
Ga0073917_1013591	Ga0073917_10135911	F041765	AEFFNKEVDKIIYKVTTTKSTKQRIKYIKQMIALKNRLSLEVKMLEDLDNF*
Ga0073917_1015133	Ga0073917_10151331	F030691	TQTSGSATSGEIAFDVFVKNISSTSDAARLSLAQQLKDAGLWTGKISSKFNIKYYTALAKLEEKYQGQITVDQIVGATVSAKRFDVLADLVEGGDGEDGPKTTKQTYVTSASQTAKLLNAVAVDLLERDLTKAEQAKYLKMINAEQRKQPSVQTSGKGFTTTLGGVDEEQFIKEKLQSTSEAKNVRATDAYTVLMKEFGGLR*
Ga0073917_1016059	Ga0073917_10160592	F002487	MITRQDAIKDLSHGDYCCYCTEPKTSGSCCGENHFVPFEDLYEEDKEAMIEEYLSEGNSNGT*
Ga0073917_1016638	Ga0073917_10166382	F032259	MLAEPVRARVYAFDKDKKLVGPSKVVLPAGWYVLPKN*
Ga0073917_1017387	Ga0073917_10173871	F044447	MKLQDLTIDQFQRIGAIEFSSVLGDYDKRAGVVAIVEGVDISIVREMPAKSVLKRYKVIISEWNALP
Ga0073917_1017604	Ga0073917_10176042	F055721	MNREEYYKYIEENDTYPEHSHTWIVRTYTGDKLFYRNFGTFETKEEAKEFIENYKVKYTTKGFITRYSIQGLCEVL*
Ga0073917_1019299	Ga0073917_10192992	F000331	ERVHQVIATMLRTAEIDMANSVAPSDIDTFLTNASWAIRSTYHTVLKASPGAAIFGRDMLFDIPYIADWSKIGDYRQRQTDLNTARENKSRADYDYKVGDKVLIRKDGILRKSESRYDSEPWTITSVHTNGTIRVERGTKSERINIRRVTPYFEN*
Ga0073917_1020109	Ga0073917_10201091	F009134	VCIEKKTESLESLSILVRNRLAADAASTLERIDSYSLDGIKDESVRETILGSVAKRSALVFGWSEQGEQASVSINLLGSMPDRSIEVSVTNEAETK*
Ga0073917_1021286	Ga0073917_10212862	F080037	HDCMTQAMAYAWAIRDNAQDDGVPIPVELVASFQDDYNNIIAALNEAHNLAS*
Ga0073917_1021705	Ga0073917_10217051	F023108	MMRYLAIILLLSSCSAQYHLNKAIKKGYKCEQTGDTIRITTLDSIPVIINDTIVWEKIINTKDTIIKYNTVYVPKTRLDKRIEY
Ga0073917_1022321	Ga0073917_10223211	F008688	FITVTVEPPKTKVYLIMSYRGNDLSIEKVYLKKENAQKYCDMYKDSHNYSVEERELTE*
Ga0073917_1022549	Ga0073917_10225491	F056186	MTKEQAAALREKWEEGENPPCRHLHLELEHNNDDYLTDNYHCTACGELVAANTRDPFQVI
Ga0073917_1025072	Ga0073917_10250722	F043233	AGIKDAVGIAKIRLKAESASDLEKKVAKYESELAQLRKATTPASGQPSAPARQKQFHELSSNEQEKELLRMAAEADRMGV*
Ga0073917_1025368	Ga0073917_10253681	F003299	PVKLVTRIIEAYDADHVKQLIQKNDDLILLIEEV*
Ga0073917_1025998	Ga0073917_10259981	F009204	NNYPRRPYNTKTRKSIQERIKMKTTIKYYTQNIYGVRREKFIDKKQESVFFQLTGRRTLDSVSRELIRDLSGSSIEFEQSLPPE*
Ga0073917_1026987	Ga0073917_10269872	F054024	MSDTFSNHFYIEGPYEDLLNVTKDLDFTDGSIDYDGWEIEGGSAVLHFDGYYCPLDELEKASAKYPSLKIIFRFTQELLIAGLLIYEDGKIKLQSYYNWDTGTSSVTTAQE*
Ga0073917_1027229	Ga0073917_10272291	F080037	MAYAHAIRDNAQDDGVPIPMELVVSFQDDYNNILTALNEAHNLAS*
Ga0073917_1027229	Ga0073917_10272292	F057371	MQEIKVRFEPADLTDLDHQAAAAGTSRSAFIRNKALSLPVARLNTVEYHALVADAVSAMRGDLPRLQVEYLVAYVITRLDQHSRQAVAGHQPAT*
Ga0073917_1028413	Ga0073917_10284132	F016803	MISLISRVRAAWAFGRHQCWVDALPWNRDDATTLNNFFKSETGKKFKDALLNTVLMQNASAITDKNHLQYSSGFAMGQASLVKVIEMMADRESITGQEDDPDSVTNT*
Ga0073917_1029721	Ga0073917_10297211	F050158	MAQETVSIAWCDNGMVDGKFMQGVTDVMLKSGINFTTTLRSQ
Ga0073917_1029961	Ga0073917_10299611	F033776	ARSKGLNFTVNIRLSREEIEAARRLGDGNISMGVRWCIRYANGREMKPIKLSTMLRSAAVLAAQLEAA*
Ga0073917_1030960	Ga0073917_10309601	F055558	DGFNLQSAGKLMTYNFALIVMDRVFESESNTIEVLSDTAQIMSDIFALVETNTESDGDFELSINGNASPFYDSKTDILAGYAINFQVLTPYLSNSCVVPI*
Ga0073917_1031661	Ga0073917_10316611	F011136	SRLAHDKQKGSDLLHEVLARLMDRPQQDIEDIVCRGKVEAYVNRALWLSWHSNRSDYAIKYRKYYELHVEKQVDDSKQDETWIGAFIDGEYLYNAIGRLNEFDAILLRLYSKPDFDYKELSAETGIPYSYLRTSIHRALKRIREYVKLQRSLSHTARETEYLQKM*
Ga0073917_1031729	Ga0073917_10317291	F003806	MSNEIEIPLKLSGVQSLKAELRSLKAAIAEASDPEQMAALAAQAGKVADRIKDANDAVNVFASGSKFEQIKNSFGGIQDSLMSLDFEEASDKAKVFAKNL
Ga0073917_1033666	Ga0073917_10336661	F010688	TLAPLPILLGTWCIVRRPLPRCNMRPKTATIMVIAVGPKGHRREIGGAPSHSACGCDEADNNAPMIAIPVEALSTDTEDGQQASPEVGDEVVLQEVRGVLKKLENGEAYVEIKSVNGMPAEYEKAGKESMEPMDEEGMRNMVSEYDSEMES*
Ga0073917_1033968	Ga0073917_10339682	F000166	MPNIPTPEQSQLFAQSVRKWQQVLSLGDWRIEKGSKAAKAAMASVEFNASARLATYRLGDFGAERITPESLDQTALHELLHVFLHDLMTVAQDPKSSQDEIEMQEHRVINLLEKLLSKDSNGRT*

Bioinformatics & Integrated Biology Lab
Institute for Fundamental Biomedical Research
Biomedical Sciences Research Center "Alexander Fleming"

NMPFamsDB

NMPFamsDB

NMPFamsDB

A database of Novel Metagenome Protein Families

A database of Novel Metagenome Protein Clusters

A database of Novel Metagenome Protein Clusters

3300006007: Groundwater microbial communities from the Columbia River, Washington, USA, for microbe roles in carbon and contaminant biogeochemistry - GW-RW metaG T3_23-Sept-14

Overview

Ecosystem and Geography

Associated Families

Associated Scaffolds

Sequences