Scaffold Ga0209166

Basic Information
Taxon OID	3300027857 Open in IMG/M
Scaffold ID	Ga0209166_10000004 Open in IMG/M
Source Dataset Name	Surface soil microbial communities from Centralia Pennsylvania, which are recovering from an underground coalmine fire - Coalmine Soil_Cen01_05102014_R1 (SPAdes)
Source Dataset Category	Metagenome
Source Dataset Use Policy	Open
Sequencing Center	DOE Joint Genome Institute (JGI)
Sequencing Status	Permanent Draft

Basic Information

Taxon OID

Scaffold ID

Ga0209166_10000004 Open in IMG/M

Source Dataset Name

Surface soil microbial communities from Centralia Pennsylvania, which are recovering from an underground coalmine fire - Coalmine Soil_Cen01_05102014_R1 (SPAdes)

Source Dataset Category

Metagenome

Source Dataset Use Policy

Open

Sequencing Center

DOE Joint Genome Institute (JGI)

Sequencing Status

Permanent Draft

Scaffold Components
Scaffold Length (bps)	606044
Total Scaffold Genes	571 (view)
Total Scaffold Genes with Ribosome Binding Sites (RBS)	450 (78.81%)
Novel Protein Genes	9 (view)
Novel Protein Genes with Ribosome Binding Sites (RBS)	6 (66.67%)
Associated Families	9

Scaffold Components

Scaffold Length (bps)

606044

Total Scaffold Genes

571 (view)

Total Scaffold Genes with Ribosome Binding Sites (RBS)

450 (78.81%)

Novel Protein Genes

9 (view)

Novel Protein Genes with Ribosome Binding Sites (RBS)

6 (66.67%)

Associated Families

Taxonomy
All Organisms → cellular organisms → Bacteria → Proteobacteria	(Source: IMG/M)

Taxonomy

All Organisms → cellular organisms → Bacteria → Proteobacteria

(Source: IMG/M)

Source Dataset Ecosystem
Environmental → Terrestrial → Soil → Unclassified → Unclassified → Surface Soil → Surface Soil Microbial Communities From Centralia Pennsylvania, Which Are Recovering From An Underground Coalmine Fire.

Source Dataset Ecosystem

Environmental → Terrestrial → Soil → Unclassified → Unclassified → Surface Soil → Surface Soil Microbial Communities From Centralia Pennsylvania, Which Are Recovering From An Underground Coalmine Fire.

Source Dataset Sampling Location
Location Name	USA: Pennsylvania, Centralia
Coordinates	Lat. (^o)	40.7999	Long. (^o)	-76.3402	Alt. (m)	Depth (m)
Location on Map

Zoom:	Powered by OpenStreetMap^©

Source Dataset Sampling Location

Location Name

USA: Pennsylvania, Centralia

Coordinates

Lat. (^o)

40.7999

Long. (^o)

-76.3402

Alt. (m)

Depth (m)

Location on Map

Zoom:

Associated Families

Family	Category	Number of Sequences	3D Structure?
F000579	Metagenome / Metatranscriptome	1011	Y
F007480	Metagenome / Metatranscriptome	350	Y
F008454	Metagenome / Metatranscriptome	333	Y
F010670	Metagenome / Metatranscriptome	300	Y
F014995	Metagenome / Metatranscriptome	258	Y
F022700	Metagenome / Metatranscriptome	213	Y
F030498	Metagenome / Metatranscriptome	185	Y
F062774	Metagenome / Metatranscriptome	130	Y
F075734	Metagenome / Metatranscriptome	118	Y

Sequences

Protein ID	Family	RBS	Sequence
Ga0209166_10000004123	F062774	N/A	MKAGEKYFALTPKGVEELRGRAAKLDANTRNILSLIEQGFTSADALLQRSKSTRDEMIDMLRLLLGNGFVSTAVSDGTVKAPTPEPTPSVADSISERLRLKQGISPSQARFALSNFCLDQFGTAGKDLADVVDLCEDVAGLQMALDSIRSEVKRVCPDQRPALVACVREINETDYDG
Ga0209166_10000004127	F022700	N/A	MGHWYYGRHFTLLAAGAVILFFVAQWNLLRDSLIGTFALNGALHALALVSTLRAPEVLSRKAAFIAIAIVLSVMSLYVGIIGLTLFAVLPGSERLYVVLGVCALSGAITYGSLVRLFWLRRLSSRLILSMAASCVLATLLAFLARTHAVWLGSWWLAAVWWFAFSGSLYFFDTHPDVLQRSKYNAANKGAPTWRDA
Ga0209166_10000004248	F075734	GAGG	MKKYRLGLAALALMVTAAHADDYLSPTEERVRLSLGVVRYSNRTDLQINSSADVPGTPLNAEDEFGLDKVDYEAKVQALVRVGERNRLRFDYFSLDRSGQNTLTQPIVFRDVVLQPGDPLKSDLSIRTFGITYGYSFLHSDRYEVAATIGINDTDISARARVQTQTRHIDQTEDQAGPFPTVGLDATYVLSKRFYFDGRAQYFKVHIDDIDGSLGIYELDALYRLRPNISFALGYTSLRAHLASTQIKQSGLFNFNSSGPEIFLRVAF
Ga0209166_10000004274	F030498	AGGAG	MATMFGKCRSGSDFWSMRREASLNWLALGLLLAAWNASDNDAAANDAAADAHRRPAALRGYTHVSVRAANRVAADL
Ga0209166_10000004292	F008454	GGAGG	MSKTYVAGLMSGFLGGMMGAFVLGHLGVPVISPASAAPVQEMISAGRIRLVDATGRTRAEFAMSPDGGPGLFFYDSKGRNRLVLGLYSPAESEYPFVVLNDTHNEAAGIFRLFGGQETPVVVLKNKGADRSILGLNPSSTEPFLVNYSSDRKKTAIFGSF
Ga0209166_10000004358	F014995	GGAGG	VHHRRPLLYPWLSSTALTALFMAGTSMSWGAPRVDDLVPQAPAAFLPGGMLGIQLGGSWEASKQNPSLHRLTCQSVPDARDFDEVCFFRASADSRVGGAAIHDGFIVRKDDHVVLVGTGIAIKNADDPLAESVVQSFQSQIHSAFQHTGDNVLFVKLPARRLTDDEMAGYSQKAPVLLVQLEPKNNELAILYGYLGPVNVFGSLTSD
Ga0209166_10000004419	F010670	GGAGG	MNKFVLIVLATFTLMASGLSVAGDKTTDAPAKSSSFVPHPHTSRHVYGTPIQPAVVSHARTSPHKQTSKKRSSKTASRDKR
Ga0209166_10000004466	F007480	GGAGG	MDNPNSPANPSPRTTLKLKAGVKRALEEPKAKPEPQPQSKGNQKPGAHWSDEYKRRMQADMDALTSR
Ga0209166_1000000499	F000579	N/A	MVLQWHALGGTWTACDMPPALVHGIALIRAAGPNICIFGQGGRLRLQVGPHQYALSENSPRISCTRGIASFGFRRRFTVKSSSGDVLFSHSYWTHQGRDFYRWLAEKASDPDWRISCARQWSDGVASGAMRPH

NMPFamsDB

NMPFamsDB

NMPFamsDB

A database of Novel Metagenome Protein Families

A database of Novel Metagenome Protein Clusters

A database of Novel Metagenome Protein Clusters

Scaffold Ga0209166_10000004

Overview

Ecosystem & Geography

Associated Families

Sequences