IGV快速上手指南(五)——查看甲基化数据
在使用重亚硫酸盐处理的甲基化测序中,由于其实验的特殊性,会导致未甲基化的C转化为T碱基,因此直接将BAM文件导入IGV会导致大量的碱基和基因组不匹配,需要调整为专门的甲基化模式进行查看。
以WGBS(全基因组重亚硫酸盐甲基化测序) demo数据的查看为例:
视频教程:
图文教程:
以WGBS数据为例进行演示:
选择基因组版本并导入BAM文件
将BedGraph文件转化为tdf格式并导入
因为这里WGBS数据是用bismark进行分析的,因此会有专门的BedGraph文件记录各个位点的甲基化率。BedGraph文件会比较大,不太适合直接导入IGV中,需要先使用igvtools转化为tdf格式。
Tips:如果是WGBS数据,直接将全部染色体的BedGraph文件直接转成TDF文件仍然会很大,建议按照每个染色体分别提取BedGraph后再分别转化为TDF文件。
在菜单栏中选择"Tools" → "Run igvtools",在弹出窗口中,"Command"选择"To TDF","Input File"选择需要转换的BedGraph文件,其他参数保持默认,点击"Run"可以进行转化,转化完成后,下方的message窗口中会显示"Done"。
导入tdf文件
将生成的tdf文件导入IGV。菜单栏选择"File" → "Load from file",选择刚刚生成的tdf文件。需要注意的是,如果需要查看的是WGBS数据,建议单独导入各个染色体的tdf文件查看,不要直接导入所有染色体的tdf文件,以免占用过多内存导致卡死。例如下图中导入的是筛选15号染色体的tdf文件。
更改tdf的展示模式
tdf track记录的是甲基化率信息,默认情况下展示为柱状图。在tdf track右键可以在“Type of Graph”中选择其他的展示方式(Heatmap、Bar Chart、Points、Line Plot)。
重叠方式 |
IGV样式 |
优势 |
Heatmap |
|
热图中颜色的深浅表示甲基化率的大小,颜色越深,甲基化率越高 |
Bar Chart |
|
柱状图中,柱子的高低表示甲基化率的大小,柱子越高,甲基化率越高 |
Points |
|
点图中,点的高低表示甲基化率的大小,点越高,甲基化率越高 |
Line Plot |
|
峰图中,峰的高低表示甲基化率的大小,峰越高,甲基化率越高 |
将BAM文件的颜色模式改为甲基化模式
切换到15号染色体并放大视图后,会发现几乎所有的reads中都有很多红色和绿色的部分,这个是因为默认的颜色模式下,未发生甲基化的C在正义链和反义链中会被转化为T和A碱基,被误判为突变碱基。
因此可以在BAM文件右键选择"Color alignments by"→ "bisulfite mode" → "CG",转换为甲基化模式。这里考虑到大多数情况下关注CG的甲基化,因此选择了CG模式,如果关注其他甲基化,可以将"CG"替换为对应的甲基化模式。
更换模式后,展示如下图,reads大部分区域以灰色表示,只有CG位点标注为红色或蓝色,红色为T碱基,蓝色为C碱基。结合tdf track中的信息,可以准确找到CG类型的甲基化发生位置。
至此,IGV快速上手指南已经全部上线了,相信大家也已经对IGV的使用已经有了比较全面的了解。如果对IGV工具使用还有疑问,或希望学习到其他生信分析课程,欢迎留言。