SRA数据库解读

目前,所有的测序数据都存储在国际核酸序列数据库联盟(INSDC)里,包括SRA,EBI,DDBJ。上传到任何一个数据库中的数据都会彼此共享。但是维护最好的当属SRA数据库。本文只涉及SRA数据库。以下是NCBI对SRA数据库的简介:

The SRA is NIH’s primary archive of high-throughput sequencing data and is part of the International Nucleotide Sequence Database Collaboration (INSDC) that includes at the NCBI Sequence Read Archive (SRA), the European Bioinformatics Institute (EBI), and the DNA Database of Japan (DDBJ). Data submitted to any of the three organizations are shared among them.

从GSE ID说起

通常,我们读到一篇文章,想用一下里面的数据,我们能从文章中得到的信息一般是GSE ID,该ID和GEO数据库关联,一般直接google就能检索到GSE ID下的详细信息。

GEO Datasets有三个ID,分别是

  • GPL,Platform ID。这个ID记录了测序或芯片平台,对于芯片平台,其包含了探针-基因对应表。一个GPL ID对应一个平台。一个GPL ID对应多个GSM IDGSE ID。这个ID由数据上传者提供。但是对应的记录应该由厂商提供。
  • GSM,Sample ID。这个ID记录了一个处于特定处理条件的样本以及对应的建库测序方法。一个GSM ID对应一个GPL ID,但是对应多个GSE ID。这个ID中的记录由数据上传者提供,包括样本处理方式,建库的方法,数据处理方式等。
  • GSE,Series ID。这个ID将所有关联的样本联系起来,形成一个有目的的研究。这个ID对应的记录由数据上传者提供,包括文章的摘要(如果发表有的话),整体实验设计思路等。

一篇文章内可能包含多个GSE ID。有一些是作者自己贡献的数据,有些是已经发表的数据。一般来讲,每个GSE ID记录提供了处理后的数据,可以直接用。但是通常,因为数据处理方法不一样,数据不好放在一起比较。所以我们希望得到原始数据。这个时候,就需要访问SRA数据库了。

SRA数据库

每一个GSE ID都能对应到SRA数据库的SRP ID。在Relations term下面,直接给出了超链接。

点击链接进入SRA数据库,有时候一个Series下面有很多样本,不方便查看。我们可以使用SRA Run Selector浏览。

点击RunInfo Table可以获得每个样本的所有信息;

点击Accession List可以获得所有的SRR ID ,用prefetch就可以下载对应的.sra文件了

我把sratoolkit用python做了个简单的封装。可以直接通过这个脚本下载相应数据。


以上简单介绍了如何通过GSE ID下载对应的原始数据。下面简单介绍一下SRA数据库中几个常用的ID。

  • SRA,用户进行一次有效的数据上传就会产生一个SRA ID,通常我们不使用这个ID。
  • SRX,这是SRA数据库的最小记录单位。一个SRX编号对应一次实验。和GSM ID对应。
  • SRP,SRA study,和GSE ID对应。
  • SRR,这个ID对应真实的测序数据。每一个实验可能对应多个SRR ID,因为有时候测序仪RUN一次无法产生足够的数据,比如HiC数据。

下表时SRA数据库的官方解释。

Accession Prefix Accession Name Definition Example
SRA SRA submission accession The submission accession represents a virtual container that holds the objects represented by the other five accessions and is used to track the submission in the archive. Since the SRA accession number is an artificial packaging construct, there is no example available since the SRA accession number has no specific response page
SRP SRA study accession A Study is an object that contains the project metadata describing a sequencing study or project. Imported from BioProject. HTML
SRX SRA experiment accession An Experiment is an object that contains the metadata describing the library, platform selection, and processing parameters involved in a particular sequencing experiment. HTML
SRR SRA run accession A Run is an object that contains actual sequencing data for a particular sequencing experiment. Experiments may contain many Runs depending on the number of sequencing instrument runs that were needed. HTML
SRS SRA sample accession A Sample is an object that contains the metadata describing the physical sample upon which a sequencing experiment was performed. Imported from BioSample. HTML
SRZ SRA analysis accession An analysis is an object that contains a sequence data analysis BAM file and the metadata describing the sequence analysis.

【备注】

  • 人的基因组数据通常是限制访问的,一般需要通过dbGap数据库来获取访问权限。

Reference

About GEO DataSets

GEO DataSets的数据组织形式

SRA Overview

SRA Handbook