HiChIP 数据分析: 过滤及Peak Calling

简介: HiChIP 数据分析: 过滤及Peak Calling

比对结果过滤

过滤步骤将配置文件和每个 mate 的最终合并 BAM 文件作为输入,并使用以下命令执行 reads 配对并将其分配到限制片段(-s proc_hic):

$HiC-Pro -c config-HiChIP.txt -i HiC_Pro/bowtie_results/bwt2 -o HiC_Pro -s proc_hic -s quality_checks

其中 -s quality_checks 保存与该第二步相关的统计和诊断图。

该命令在 hic_results/ 文件夹内生成一个 data/ 子文件夹,其中包含所有有效相互作用产物的坐标(.allValidPairs 文件)。

由于 HiC-Pro 执行配置文件中定义的所有过滤,因此可以使用一组修改后的过滤器重新运行过滤步骤。 首先,read pairs 根据其比对和配对情况进行过滤。 接下来,read pairs 被映射到限制片段上,并根据它们在限制片段上的位置和方向被分类为有效和无效 pairs。 然后,PCR 重复被移除,去重后的有效 pairs 被保存在 .allValidPairs 文件中。

如上表所总结的那样,在我们的数据集中,我们平均保留了约 28% 的测序 reads。

ChIP-Seq Peak Calling

为了用 hichipper 从 HiChIP 数据中准确鉴定相互作用区域,在可获得的情况下,提供来自 ChIP-Seq 实验的蛋白结合信息是有用的。

hichipper 将 ChIP-Seq peak 坐标以 BED 格式作为输入;我们将从 hESC 在 HS 处理前后 Rad21 ChIP-Seq 的原始 reads 开始生成此类文件。

在 fastq_ChIP 文件夹中下载 FASTQ 文件后,我们应用一个标准 pipeline,包括比对、转换为 BAM 格式、排序、去重复,最后进行 peak calling。

第一步是使用 bowtie 对 hg19 进行比对:

mkdir bowtie
mkdir ChIP_peaks
export BOWTIE_INDEXES=/home/Annotation/Homo_sapiens/UCSC/hg19/Sequence/BowtieIndex/

bowtie -S -t -p 16 -m 1 genome -1 fastq_ChIP/Rad21_1.fastq -2 fastq_ChIP/Rad21_2.fastq > bowtie/Rad21.sam

bowtie -S -t -p 16 -m 1 genome -1 fastq_ChIP/IgG_1.fastq -2 fastq_ChIP/IgG_2.fastq > bowtie/IgG.sam

接着,我们利用 samtools 进行 SAM 到 BAM 的转换,以及随后的排序和去重复:

samtools view -S -h -b bowtie/Rad21.sam -o bowtie/Rad21.bam

samtools view -S -h -b bowtie/IgG.sam -o bowtie/IgG.bam

samtools sort bowtie/Rad21.bam -o bowtie/Rad21.sort.bam

samtools sort bowtie/IgG.bam -o bowtie/IgG.sort.bam

samtools rmdup bowtie/Rad21.sort.bam bowtie/Rad21.sort.noDup.bam

samtools rmdup bowtie/IgG.sort.bam bowtie/IgG.sort.noDup.bam

rm bowtie/*.sam

rm bowtie/Rad21.bam

rm bowtie/IgG.bam

rm bowtie/*.sort.bam

最后,我们使用 MACS2 来Call ChIP-Seq peaks:

macs2 callpeak -t bowtie/Rad21.sort.noDup.bam -c bowtie/IgG.sort.noDup.bam --keep-dup all -g 2685511504 -n ChIP_peaks/Rad21

该命令将产生多个输出;对于 loop 的鉴定,我们需要 narrowPeak 文件(一种 BED 格式)。

最后,我们过滤 narrowPeak 文件,去除与 ENCODE blacklist 区域重叠的 peaks,通过以下命令生成最终的 Rad21_peaks.noBL.narrowPeak 文件:

intersectBed -a ChIP_peaks/Rad21_peaks.narrowPeak -b hg19_DAC_blacklist.bed -v > ChIP_peaks/Rad21_peaks.noBL.narrowPeak

我们分别在 untreated 和 HS 条件下获得 44,190 和 53,219 个显著的 Rad21 peaks。

相关文章
|
3月前
|
数据采集 数据挖掘 索引
HiChIP 数据分析: 用HiC-Pro预处理原始数据
HiChIP 数据分析: 用HiC-Pro预处理原始数据
|
3月前
|
数据挖掘 索引
HiChIP 数据分析: 数据集介绍
HiChIP 数据分析: 数据集介绍
HiChIP 数据分析: 数据集介绍
|
3月前
|
数据可视化 算法 数据挖掘
HiChIP 数据分析: 分析简介
HiChIP 数据分析: 分析简介
HiChIP 数据分析: 分析简介
|
2月前
|
存储 数据挖掘 Serverless
HiChIP 数据分析: 差异 Loop 检测
HiChIP 数据分析: 差异 Loop 检测
HiChIP 数据分析: 差异 Loop 检测
|
2月前
|
存储 算法 数据挖掘
HiChIP 数据分析: 鉴定 Loops
HiChIP 数据分析: 鉴定 Loops
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
791 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
243 2
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
313 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
12月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
|
机器学习/深度学习 数据采集 数据可视化
数据分析之旅:用Python探索世界
数据分析之旅:用Python探索世界
134 3