iRweb:技术说明
概述
本页介绍了 iRweb 生物信息学流程所涉及的技术步骤。如果您不熟悉下一代测序的数据分析,我们建议您访问我们的 NGS 概述页面。有关 iRweb 的一般介绍,请参阅我们关于数据分析的学习中心文章。有关 iRweb 的更多详细信息(本页未提供),请下载数据分析指南。
读取过滤
在对读取进行多路分解之后,根据我们的引物系统(arm-PCR 或 dam-PCR),配对读取(R1 和 R2)会根据平均 Qscores 进行质量修剪。修剪这些读取后,它们会重叠并拼接。如果修剪过度(即,如果读取修剪得足够多以至于它们无法重叠),则会丢弃这些读取。重叠后,读取会映射到 IMGT 数据库,只有映射到参考序列并包含典型 CDR3 基序的读取才会进入我们的 SMART 过滤器。
我们利用五个软件过滤器进一步消除 PCR 和测序错误,以及映射读取中的其他噪音。我们的 SMART 序列过滤系统包括测序错误过滤器、马赛克序列过滤器、扩增过滤器、参考过滤器和频率阈值过滤器。
1)排序错误过滤器
测序错误过滤器使用重叠区域的相同匹配来消除测序伪影。当使用双端测序时,如果 R1 和 R2 的拼接方式在两个方向上不是 100% 相同,则读取会被丢弃。
2)马赛克序列滤波器
马赛克序列过滤器检测并去除 PCR 期间产生的嵌合序列。
3)放大滤波器
扩增过滤器可消除 PCR 引入的插入、删除和替换错误。扩增过滤器的工作原理是查找可变 N 区域(CDR3 内)中的主要和次要序列分布。如果次要序列的出现频率低于最常见克隆的 5%,则删除相关读取。扩增过滤器将删除任何 indel 错误。
4)参考过滤器
然后,将通过 S 过滤器的读取与它们对齐的参考序列进行比较。如果读取与 GenBank 中的 VDJ 参考不一致,则会在此处将其过滤掉。
5)阈值滤波器(频率)
最后一步,根据频率过滤读取。根据身份折叠读取,为每个独特的 CDR3 和基因组合生成一个频率。经过多轮过滤和折叠后,如果序列出现的频率为 1,则将其删除,因为它被视为噪音。
SMART 过滤应用程序
我们的 SMART 过滤过程主要应用于 TCR 序列,因为 TCR 据称不存在体细胞超突变,这使我们能够应用参考过滤器(删除与 CDR3 区域中的参考序列不匹配的读取),还使我们能够将序列读取折叠为一个共识。如果不折叠序列读取(这是获得特定 CDR3 频率所必需的),我们就无法应用 PCR 错误过滤器和 Mosaic 错误过滤器。因此,对于 B 细胞,我们仅应用序列错误过滤器(通过重叠区域)。
序列分配详细信息
我们使用国际免疫遗传学信息系统 (IMGT) 中公开的序列,使用内部生物信息学工具进行分配。将 V、D、J 和 C 片段与测序读数的最佳比对分配给序列读数。
我们使用改良的 Smith-Waterman 算法对测序读段和种系参考(来自 IGMT 的人类共识)进行局部序列比对。比对参数为:匹配 = 1、不匹配 = 3、gap_open = 5、gap_extension = 2。V 匹配的截止分数为 50,J 匹配的截止分数为 20。此外,比对还检查 CDR3 区域周围是否存在适当的保守基序序列。
通过序列比对检测 D 基因可能很困难。D 基因用于形成重链的重组。引用Roitt、Brostoff 和 Male 的话,“D 区段的密码子数量和碱基对序列都高度可变……多个 D 区段可以连接起来形成扩大的 D 区。” 存在机制限制,无法使用位于所选 J 基因 3′ 处的 D 基因。V 和 J 连接的区域还可能存在插入和缺失以及其他噪音。当样本中可用的核苷酸不足以使我们的流程能够区分 D 基因甚至无法调用给定的 D 基因时,将使用星号并且不调用该基因。
请注意,同型信息可以准确调用,但亚型可能有多个合理的调用。这是因为软件使用最佳情况最后比对,因此如果比对的基因非常相似,它会分配给最后调用。
分析你的数据
虽然我们无法提供引物序列,但您可以获得完整的核苷酸序列,它可以为您提供代替引物序列所需的信息。
值得注意的是,我们的引物序列始于第一个框架区,因此缺少前 20-30 个核苷酸。我们通常可以使用 IMGT 参考推断出此序列。大多数人根据 iPair Analyzer 中报告的序列设计引物以从板中拾取靶标,并添加此缺失部分以完成 FR1 部分。
我们的小鼠 BCR 长读引物覆盖了从 FR2 内部到 C 区开头的部分,因此 CDR2 和 CDR3 将具有完全覆盖,但不会有任何关于 FR1 或 CDR1 的数据。当我们的生物信息学部门针对所有小鼠品系进行设计时,数据库中有大量截断序列。为了确保最大覆盖率,我们决定从覆盖大部分的位置进行设计。