HiChIP 数据分析: 过滤及Peak Calling-阿里云开发者社区

HiChIP 数据分析: 过滤及Peak Calling

2025-08-28 90

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HiChIP 数据分析: 过滤及Peak Calling

比对结果过滤

过滤步骤将配置文件和每个 mate 的最终合并 BAM 文件作为输入，并使用以下命令执行 reads 配对并将其分配到限制片段（-s proc_hic）：

$HiC-Pro -c config-HiChIP.txt -i HiC_Pro/bowtie_results/bwt2 -o HiC_Pro -s proc_hic -s quality_checks

其中 -s quality_checks 保存与该第二步相关的统计和诊断图。

该命令在 hic_results/ 文件夹内生成一个 data/ 子文件夹，其中包含所有有效相互作用产物的坐标（.allValidPairs 文件）。

由于 HiC-Pro 执行配置文件中定义的所有过滤，因此可以使用一组修改后的过滤器重新运行过滤步骤。首先，read pairs 根据其比对和配对情况进行过滤。接下来，read pairs 被映射到限制片段上，并根据它们在限制片段上的位置和方向被分类为有效和无效 pairs。然后，PCR 重复被移除，去重后的有效 pairs 被保存在 .allValidPairs 文件中。

如上表所总结的那样，在我们的数据集中，我们平均保留了约 28% 的测序 reads。

ChIP-Seq Peak Calling

为了用 hichipper 从 HiChIP 数据中准确鉴定相互作用区域，在可获得的情况下，提供来自 ChIP-Seq 实验的蛋白结合信息是有用的。

hichipper 将 ChIP-Seq peak 坐标以 BED 格式作为输入；我们将从 hESC 在 HS 处理前后 Rad21 ChIP-Seq 的原始 reads 开始生成此类文件。

在 fastq_ChIP 文件夹中下载 FASTQ 文件后，我们应用一个标准 pipeline，包括比对、转换为 BAM 格式、排序、去重复，最后进行 peak calling。

第一步是使用 bowtie 对 hg19 进行比对：

mkdir bowtie
mkdir ChIP_peaks
export BOWTIE_INDEXES=/home/Annotation/Homo_sapiens/UCSC/hg19/Sequence/BowtieIndex/

bowtie -S -t -p 16 -m 1 genome -1 fastq_ChIP/Rad21_1.fastq -2 fastq_ChIP/Rad21_2.fastq > bowtie/Rad21.sam

bowtie -S -t -p 16 -m 1 genome -1 fastq_ChIP/IgG_1.fastq -2 fastq_ChIP/IgG_2.fastq > bowtie/IgG.sam

接着，我们利用 samtools 进行 SAM 到 BAM 的转换，以及随后的排序和去重复：

samtools view -S -h -b bowtie/Rad21.sam -o bowtie/Rad21.bam

samtools view -S -h -b bowtie/IgG.sam -o bowtie/IgG.bam

samtools sort bowtie/Rad21.bam -o bowtie/Rad21.sort.bam

samtools sort bowtie/IgG.bam -o bowtie/IgG.sort.bam

samtools rmdup bowtie/Rad21.sort.bam bowtie/Rad21.sort.noDup.bam

samtools rmdup bowtie/IgG.sort.bam bowtie/IgG.sort.noDup.bam

rm bowtie/*.sam

rm bowtie/Rad21.bam

rm bowtie/IgG.bam

rm bowtie/*.sort.bam

最后，我们使用 MACS2 来Call ChIP-Seq peaks：

macs2 callpeak -t bowtie/Rad21.sort.noDup.bam -c bowtie/IgG.sort.noDup.bam --keep-dup all -g 2685511504 -n ChIP_peaks/Rad21

该命令将产生多个输出；对于 loop 的鉴定，我们需要 narrowPeak 文件（一种 BED 格式）。

最后，我们过滤 narrowPeak 文件，去除与 ENCODE blacklist 区域重叠的 peaks，通过以下命令生成最终的 Rad21_peaks.noBL.narrowPeak 文件：

intersectBed -a ChIP_peaks/Rad21_peaks.narrowPeak -b hg19_DAC_blacklist.bed -v > ChIP_peaks/Rad21_peaks.noBL.narrowPeak

我们分别在 untreated 和 HS 条件下获得 44,190 和 53,219 个显著的 Rad21 peaks。

HiChIP 数据分析: 过滤及Peak Calling

比对结果过滤

ChIP-Seq Peak Calling

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

HiChIP 数据分析: 过滤及Peak Calling

比对结果过滤

ChIP-Seq Peak Calling

热门文章

最新文章

相关课程

相关电子书

相关实验场景