UCSC数据库上手指南(四)—— UCSC Table Browser下载基因的bed文件和转录本序列

在日常的基因组研究过程中,经常要根据基因名字去提取基因Exon/CDS区域bed信息,或者需要获取基因转录本的序列信息。UCSC Table Browser可从基因组数据库(如refseq、ensemble等)下载数据,用户输入表格参数后,点击提交既可以批量得到所需要的基因bed文件和转录本序列等。本文将通过实际例子介绍怎么通过UCSC Table Browser下载基因的bed文件和转录本序列。

进入UCSC主页(http://genome.ucsc.edu/),点击菜单栏上的Tools -> Table Browser进入Table Browser页面。


主要步骤:
1. Select dataset-选择适当的数据库。
在 "clade" 下拉菜单中选择所需的生物类群(如哺乳动物),在 "genome" 下拉菜单中选择感兴趣的物种基因组,这里选择Human物种,在"assembly"下拉菜单中选择物种的基因组版本,这里选择hg19版本,然后在 "Group" 下拉菜单并选择Genes and Gene Predictions,"track"下拉菜单选择NCBI RefSeq数据库,"table"下拉菜单选择RefSeq All(ncbiRefSeq)。

2. Define region of interest-定义目标区域。
在"region"里面选择genome范围或者输入自定义的区域范围,这里选择genome。在"Identifiers"里面粘贴或者上传自己要转换的基因名字,可以通过paste list或者upload list来输入目标基因,这里以TP53和EGFR两个基因为例,输入完成后,点击submit提交。

paste list输入目标基因

upload list输入目标基因

3.Retrieve and display data-检索和展示数据。
在"output format"里面可以选择输出文件的格式,这里以bed格式和sequence格式进行演示。"output filename"里面可以按照需求填写输出文件的名字,也可以不填,不填的话会在网页上展示结果。

4.bed文件格式结果输出。
在"output format"里面选择BED格式,"output filename"里面输入定义的文件名,点击get output按钮。

这里可以对输出基因的范围进行设置,可以选择Exon, Introns或者Coding Exons(CDS)等,我们这里选择Coding Exons进行输出,选择完成点击get BED按钮,就得到了基因CDS的bed文件。


5. 序列文件格式结果输出。
在"output format"里面选择sequence格式,"output filename"里面输入定义的文件名,点击get output ->submit按钮。

"Sequence Retrieval Region Options"这里可以对输出序列的位置进行设置,可以选择UTR, CDS, introns或者基因的上下游区域。我们这里选择CDS区域的序列进行输出,"Sequence Formatting Options"这里可以对输出序列的大小写进行设计,用户可以按照自己的需求进行选择。设置完成后点击get sequence按钮就得到了基因转录本的序列信息。

至此,我们就掌握了如何利用UCSC Table Browser下载基因的bed文件和转录本序列。下一期我们将介绍如何利用UCSC Genome Browser查看探针对目标区域的覆盖情况。
往/期/回/顾
