iRweb：技术说明 – 方域生物

概述

本页介绍了 iRweb 生物信息学流程所涉及的技术步骤。如果您不熟悉下一代测序的数据分析，我们建议您访问我们的 NGS 概述页面。有关 iRweb 的一般介绍，请参阅我们关于数据分析的学习中心文章。有关 iRweb 的更多详细信息（本页未提供），请下载数据分析指南。

读取过滤

在对读取进行多路分解之后，根据我们的引物系统（arm-PCR 或 dam-PCR），配对读取（R1 和 R2）会根据平均 Qscores 进行质量修剪。修剪这些读取后，它们会重叠并拼接。如果修剪过度（即，如果读取修剪得足够多以至于它们无法重叠），则会丢弃这些读取。重叠后，读取会映射到 IMGT 数据库，只有映射到参考序列并包含典型 CDR3 基序的读取才会进入我们的 SMART 过滤器。

我们利用五个软件过滤器进一步消除 PCR 和测序错误，以及映射读取中的其他噪音。我们的 SMART 序列过滤系统包括测序错误过滤器、马赛克序列过滤器、扩增过滤器、参考过滤器和频率阈值过滤器。

1）排序错误过滤器

测序错误过滤器使用重叠区域的相同匹配来消除测序伪影。当使用双端测序时，如果 R1 和 R2 的拼接方式在两个方向上不是 100% 相同，则读取会被丢弃。

2）马赛克序列滤波器

马赛克序列过滤器检测并去除 PCR 期间产生的嵌合序列。

3）放大滤波器

扩增过滤器可消除 PCR 引入的插入、删除和替换错误。扩增过滤器的工作原理是查找可变 N 区域（CDR3 内）中的主要和次要序列分布。如果次要序列的出现频率低于最常见克隆的 5%，则删除相关读取。扩增过滤器将删除任何 indel 错误。

4）参考过滤器

然后，将通过 S 过滤器的读取与它们对齐的参考序列进行比较。如果读取与 GenBank 中的 VDJ 参考不一致，则会在此处将其过滤掉。

5)阈值滤波器（频率）

最后一步，根据频率过滤读取。根据身份折叠读取，为每个独特的 CDR3 和基因组合生成一个频率。经过多轮过滤和折叠后，如果序列出现的频率为 1，则将其删除，因为它被视为噪音。

SMART 过滤应用程序

我们的 SMART 过滤过程主要应用于 TCR 序列，因为 TCR 据称不存在体细胞超突变，这使我们能够应用参考过滤器（删除与 CDR3 区域中的参考序列不匹配的读取），还使我们能够将序列读取折叠为一个共识。如果不折叠序列读取（这是获得特定 CDR3 频率所必需的），我们就无法应用 PCR 错误过滤器和 Mosaic 错误过滤器。因此，对于 B 细胞，我们仅应用序列错误过滤器（通过重叠区域）。

序列分配详细信息

我们使用国际免疫遗传学信息系统 (IMGT) 中公开的序列，使用内部生物信息学工具进行分配。将 V、D、J 和 C 片段与测序读数的最佳比对分配给序列读数。

我们使用改良的 Smith-Waterman 算法对测序读段和种系参考（来自 IGMT 的人类共识）进行局部序列比对。比对参数为：匹配 = 1、不匹配 = 3、gap_open = 5、gap_extension = 2。V 匹配的截止分数为 50，J 匹配的截止分数为 20。此外，比对还检查 CDR3 区域周围是否存在适当的保守基序序列。

通过序列比对检测 D 基因可能很困难。D 基因用于形成重链的重组。引用Roitt、Brostoff 和 Male 的话，“D 区段的密码子数量和碱基对序列都高度可变……多个 D 区段可以连接起来形成扩大的 D 区。” 存在机制限制，无法使用位于所选 J 基因 3′ 处的 D 基因。V 和 J 连接的区域还可能存在插入和缺失以及其他噪音。当样本中可用的核苷酸不足以使我们的流程能够区分 D 基因甚至无法调用给定的 D 基因时，将使用星号并且不调用该基因。

请注意，同型信息可以准确调用，但亚型可能有多个合理的调用。这是因为软件使用最佳情况最后比对，因此如果比对的基因非常相似，它会分配给最后调用。

分析你的数据

虽然我们无法提供引物序列，但您可以获得完整的核苷酸序列，它可以为您提供代替引物序列所需的信息。

值得注意的是，我们的引物序列始于第一个框架区，因此缺少前 20-30 个核苷酸。我们通常可以使用 IMGT 参考推断出此序列。大多数人根据 iPair Analyzer 中报告的序列设计引物以从板中拾取靶标，并添加此缺失部分以完成 FR1 部分。

我们的小鼠 BCR 长读引物覆盖了从 FR2 内部到 C 区开头的部分，因此 CDR2 和 CDR3 将具有完全覆盖，但不会有任何关于 FR1 或 CDR1 的数据。当我们的生物信息学部门针对所有小鼠品系进行设计时，数据库中有大量截断序列。为了确保最大覆盖率，我们决定从覆盖大部分的位置进行设计。

生物信息学

概述

读取过滤

1）排序错误过滤器

2）马赛克序列滤波器

3）放大滤波器

4）参考过滤器

5)阈值滤波器（频率）

SMART 过滤应用程序

序列分配详细信息

分析你的数据

相关文章

iRepertoire 的数据分析服务

iPair：iRepertoire 的单细胞免疫测序服务

如何进行免疫组库测序