Scaffold Ga0070730

Basic Information
Taxon OID	3300005537 Open in IMG/M
Scaffold ID	Ga0070730_10000002 Open in IMG/M
Source Dataset Name	Surface soil microbial communities from Centralia Pennsylvania, which are recovering from an underground coalmine fire - Coalmine Soil_Cen01_05102014_R1
Source Dataset Category	Metagenome
Source Dataset Use Policy	Open
Sequencing Center	DOE Joint Genome Institute (JGI)
Sequencing Status	Permanent Draft

Basic Information

Taxon OID

Scaffold ID

Source Dataset Name

Surface soil microbial communities from Centralia Pennsylvania, which are recovering from an underground coalmine fire - Coalmine Soil_Cen01_05102014_R1

Source Dataset Category

Metagenome

Source Dataset Use Policy

Open

Sequencing Center

DOE Joint Genome Institute (JGI)

Sequencing Status

Permanent Draft

Scaffold Components
Scaffold Length (bps)	606246
Total Scaffold Genes	576 (view)
Total Scaffold Genes with Ribosome Binding Sites (RBS)	453 (78.65%)
Novel Protein Genes	9 (view)
Novel Protein Genes with Ribosome Binding Sites (RBS)	6 (66.67%)
Associated Families	9

Scaffold Components

Scaffold Length (bps)

606246

Total Scaffold Genes

576 (view)

Total Scaffold Genes with Ribosome Binding Sites (RBS)

453 (78.65%)

Novel Protein Genes

9 (view)

Novel Protein Genes with Ribosome Binding Sites (RBS)

6 (66.67%)

Associated Families

Taxonomy
All Organisms → cellular organisms → Bacteria → Proteobacteria	(Source: IMG/M)

Taxonomy

All Organisms → cellular organisms → Bacteria → Proteobacteria

(Source: IMG/M)

Source Dataset Ecosystem
Environmental → Terrestrial → Soil → Unclassified → Unclassified → Surface Soil → Surface Soil Microbial Communities From Centralia Pennsylvania, Which Are Recovering From An Underground Coalmine Fire.

Source Dataset Ecosystem

Environmental → Terrestrial → Soil → Unclassified → Unclassified → Surface Soil → Surface Soil Microbial Communities From Centralia Pennsylvania, Which Are Recovering From An Underground Coalmine Fire.

Source Dataset Sampling Location
Location Name	USA: Pennsylvania, Centralia
Coordinates	Lat. (^o)	40.7999	Long. (^o)	-76.3402	Alt. (m)	Depth (m)
Location on Map

Zoom:	Powered by OpenStreetMap^©

Source Dataset Sampling Location

Location Name

USA: Pennsylvania, Centralia

Coordinates

Lat. (^o)

40.7999

Long. (^o)

-76.3402

Alt. (m)

Depth (m)

Location on Map

Zoom:

Associated Families

Family	Category	Number of Sequences	3D Structure?
F000579	Metagenome / Metatranscriptome	1011	Y
F007480	Metagenome / Metatranscriptome	350	Y
F008454	Metagenome / Metatranscriptome	333	Y
F010670	Metagenome / Metatranscriptome	300	Y
F014995	Metagenome / Metatranscriptome	258	Y
F022700	Metagenome / Metatranscriptome	213	Y
F030498	Metagenome / Metatranscriptome	185	Y
F062774	Metagenome / Metatranscriptome	130	Y
F075734	Metagenome / Metatranscriptome	118	Y

Sequences

Protein ID	Family	RBS	Sequence
Ga0070730_10000002100	F000579	N/A	MVLQWHALGGTWTACDMPPALVHGIALIRAAGPNICIFGQGGRLRLQVGPHQYALSENSPRISCTRGIASFGFRRRFTVKSSSGDVLFSHSYWTHQGRDFYRWLAEKASDPDWRISCARQWSDGVASGAMRPH*
Ga0070730_10000002124	F062774	N/A	MKAGEKYFALTPKGVEELRGRAAKLDANTRNILSLIEQGFTSADALLQRSKSTRDEMIDMLRLLLGNGFVSTAVSDGTVKAPTPEPTPSVADSISERLRLKQGISPSQARFALSNFCLDQFGTAGKDLADVVDLCEDVAGLQMALDSIRSEVKRVCPDQRPALVACVREINETDYDG*
Ga0070730_10000002128	F022700	N/A	MGHWYYGRHFTLLAAGAVILFFVAQWNLLRDSLIGTFALNGALHALALVSTLRAPEVLSRKAAFIAIAIVLSVMSLYVGIIGLTLFAVLPGSERLYVVLGVCALSGAITYGSLVRLFWLRRLSSRLILSMAASCVLATLLAFLARTHAVWLGSWWLAAVWWFAFSGSLYFFDTHPDVLQRSKYNAANKGAPTWRDA*
Ga0070730_10000002250	F075734	GAGG	MKKYRLGLAALALMVTAAHADDYLSPTEERVRLSLGVVRYSNRTDLQINSSADVPGTPLNAEDEFGLDKVDYEAKVQALVRVGERNRLRFDYFSLDRSGQNTLTQPIVFRDVVLQPGDPLKSDLSIRTFGITYGYSFLHSDRYEVAATIGINDTDISARARVQTQTRHIDQTEDQAGPFPTVGLDATYVLSKRFYFDGRAQYFKVHIDDIDGSLGIYELDALYRLRPNISFALGYTSLRAHLASTQIKQSGLFNFNSSGPEIFLRVAF*
Ga0070730_10000002276	F030498	AGGAG	MATMFGKCRSGSDFWSMRREASLNWLALGLLLAAWNASDNDAAANDAAADAHRRPAALRGYTHVSVRAANRVAADL*
Ga0070730_10000002294	F008454	GGAGG	MSKTYVAGLMSGFLGGMMGAFVLGHLGVPVISPASAAPVQEMISAGRIRLVDATGRTRAEFAMSPDGGPGLFFYDSKGRNRLVLGLYSPAESEYPFVVLNDTHNEAAGIFRLFGGQETPVVVLKNKGADRSILGLNPSSTEPFLVNYSSDRKKTAIFGSF*
Ga0070730_10000002361	F014995	GGAGG	VHHRRPLLYPWLSSTALTALFMAGTSMSWGAPRVDDLVPQAPAAFLPGGMLGIQLGGSWEASKQNPSLHRLTCQSVPDARDFDEVCFFRASADSRVGGAAIHDGFIVRKDDHVVLVGTGIAIKNADDPLAESVVQSFQSQIHSAFQHTGDNVLFVKLPARRLTDDEMAGYSQKAPVLLVQLEPKNNELAILYGYLGPVNVFGSLTSD*
Ga0070730_10000002423	F010670	GGAGG	MNKFVLIVLATFTLMASGLSVAGDKTTDAPAKSSSFVPHPHTSRHVYGTPIQPAVVSHARTSPHKQTSKKRSSKTASRDKR*
Ga0070730_10000002471	F007480	GGAGG	MDNPNSPANPSPRTTLKLKAGVKRALEEPKAKPEPQPQSKGNQKPGAHWSDEYKRRMQADMDALTSR*

NMPFamsDB

NMPFamsDB

NMPFamsDB

A database of Novel Metagenome Protein Families

A database of Novel Metagenome Protein Clusters

A database of Novel Metagenome Protein Clusters

Scaffold Ga0070730_10000002

Overview

Ecosystem & Geography

Associated Families

Sequences