活动介绍

从短序列读取中推断异构体

立即解锁
发布时间: 2025-08-30 01:17:24 阅读量: 9 订阅数: 37 AIGC
### 从短序列读取中推断异构体 在基因研究中,从短序列读取推断异构体是一项重要任务。本文将详细介绍相关的理论基础、数据处理策略以及具体的推断算法。 #### 1. 二次规划公式化 - **基因与表达片段**:设 $G$ 为所有基因的集合,每个基因 $g$ 定义了一组表达片段 $S_g = \{s_1, s_2, \ldots, s_{|S_g|}\}$,这些表达片段根据它们在参考基因组中的位置排序。基因上的连接点是所有表达片段对 $(s_i, s_j)$,其中 $1 \leq i < j \leq |S_g|$,片段 $s_i$ 的长度为 $l_i$。 - **异构体表达水平**:基因 $g$ 的所有已知异构体集合记为 $F_g$,每个异构体 $f \in F_g$ 由表达片段的子集组成,异构体 $f$ 的表达水平(即每碱基的读取数)记为 $x_f$。所有基因的所有转录本长度之和,按其表达水平加权,为 $L_0 = C \cdot \sum_{g \in G} \sum_{s \in f, f \in F_g} l_s x_f$,其中常数 $C$ 定义了表达水平与对应异构体的转录本数量之间的线性关系,$C$ 可从数据中推断得出。 - **单端读取的分布**:设 $M$ 为映射到参考基因组的单端读取总数,$d_i$ 为落入表达片段 $s_i$ 的读取数。在均匀采样假设下,$d_i$ 是随机变量 $r_i$ 的观测值,$r_i$ 遵循二项分布 $B(M, p_i)$,其中 $p_i = C y_i l_i / L_0$,$y_i = \sum_{s_i \in f} x_f$。由于 $M$ 通常很大,$p_i$ 很小且 $M p_i$ 足够大,二项分布可近似为正态分布 $N(\mu_i, \sigma_i^2)$,其中 $\mu_i = M p_i$,$\sigma_i^2 = M p_i (1 - p_i) \approx M p_i = \mu_i$。 - **二次规划问题**:为了将读取映射到连接点,每个连接点 $(s_i, s_j)$ 被视为长度为 $2L_1 - 2$ 的片段,由 $s_i$ 的最后 $L_1 - 1$ 个碱基和 $s_j$ 的前 $L_1 - 1$ 个碱基组成。表达片段、异构体和单端读取之间的关系可以通过以下二次规划问题(QP)来描述: - 目标函数:$\min z = \sum_{s_i \in S \cup J} (\frac{\epsilon_i}{\sigma_i})^2$ - 约束条件: - $\sum_{s_i \in f} x_f l_i + \epsilon_i = d_i$,$s_i \in S \cup J$ - $x_f \geq 0$,$f \in F$ 其中 $\sigma_i$ 是正态分布 $N(\mu_i, \sigma_i^2)$ 的标准差,将从 $d_i$ 经验估计。该 QP 可通过简单变换证明为凸 QP,并可使用公共程序 QuadProg++ 在多项式时间内求解。由于 $\sigma_i$ 未知,用 $\sqrt{d_i}$ 近似代替 $\sigma_i$。 #### 2. 双端读取 双端读取由一对被间隙分隔的短(单端)读取组成。如果双端读取的跨度是一个遵循概率分布 $h(x)$ 的随机变量,有三种可能的生成双端读取的策略: - **策略 (a)**:双端读取的起始位置从所有表达异构体中均匀随机采样,然后根据分布 $h(x)$ 生成跨度。如果双端读取的结束位置超出异构体范围,则将其截断,使其结束位置位于异构体的末尾。 - **策略 (b)**:双端读取的中心位置从所有表达异构体中均匀随机采样,然后根据分布 $h(x)$ 生成跨度。如果起始(或结束)位置超出异构体范围,则将其截断,使其起始(或结束)位置位于异构体的起始(或结束)位置。 - **策略 (c)**:双端读取的结束位置从所有表达异构体中均匀随机采样,然后根据分布 $h(x)$ 生成跨度。如果双端读取的起始位置超出异构体范围,则将其截断,使其起始位置位于异构体的起始位置。 当应用这些策略生成一定数量的双端读取时,定理 1 给出了在第一个区间没有起始位置且在第三个区间没有结束位置的读取的概率的非平凡上界。 ```mermaid graph LR A[选择策略] -->|策略 (a)| B[随机采样起始位置] A -->|策略 (b)| C[随机采样中心位置] A -->|策略 (c)| D[随机采样结束位置] B --> E[生成跨度] C --> E D --> E E --> F{结束位置是否超出范围} F -->|是| G[截断读取] F -->|否| H[完成读取生成] G --> H ``` #### 3. 有效异构体 - **二进制向量表示**:对于具有表达片段 $S = \{s_1, s_2, \ldots, s_{|S|}\}$ 的基因,其异构体 $f$ 可以表示为长度为 $|S|$ 的二进制向量,当且仅当表达片段 $s_i$ 包含在 $f$ 中时,$f[i] = 1$。类似地,映射到表达片段子集 $S' \subseteq S$ 的单端或双端短读取可以表示为二进制向量 $r$,当且仅当 $s_i \in S'$ 时,$r[i] = 1$。 - **有效异构体的条件**: - **连接点信息**:连接点 $(s_i, s_
corwn 最低0.47元/天 解锁专栏
赠100次下载
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

SW_孙维

开发技术专家
知名科技公司工程师,开发技术领域拥有丰富的工作经验和专业知识。曾负责设计和开发多个复杂的软件系统,涉及到大规模数据处理、分布式系统和高性能计算等方面。
最低0.47元/天 解锁专栏
赠100次下载
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

利用Kaen实现PyTorch分布式训练及超参数优化

### 利用Kaen实现PyTorch分布式训练及超参数优化 #### 1. 启用PyTorch分布式训练支持 在进行模型训练时,我们可以使用Kaen框架来支持PyTorch的分布式训练。以下是相关代码示例: ```python train_glob = os.environ['KAEN_OSDS_TRAIN_GLOB'] if 'KAEN_OSDS_TRAIN_GLOB' in os.environ else 'https://raw.githubusercontent.com/osipov/smlbook/master/train.csv' val_glob = os.environ['

模型生产化:从本地部署到云端容器化

# 模型生产化:从本地部署到云端容器化 ## 1. 引入 FastAPI 在将模型投入生产的过程中,我们首先要安装 FastAPI。由于 FastAPI 是一个 Python 模块,我们可以使用 pip 进行安装。打开一个新的终端,运行以下命令: ```bash $ pip install fastapi uvicorn aiofiles jinja2 ``` 这里我们安装了一些 FastAPI 所需的额外依赖项。uvicorn 是一个用于设置 API 的底层服务器/应用程序接口,而 aiofiles 则使服务器能够异步处理请求,例如同时接受和响应多个独立的并行请求。这两个模块是 FastA

使用PyTorch构建电影推荐系统

### 使用 PyTorch 构建电影推荐系统 在当今数字化时代,推荐系统在各个领域都发挥着至关重要的作用,尤其是在电影推荐领域。本文将详细介绍如何使用 PyTorch 构建一个电影推荐系统,从数据处理到模型训练,再到最终的推荐生成,为你呈现一个完整的推荐系统构建流程。 #### 1. 数据探索与处理 首先,我们需要对 MovieLens 数据集进行探索和处理。该数据集包含用户对电影的评分信息,其中存在一些缺失的评分值,用 NaN 表示。我们的目标是利用非空评分训练推荐系统,并预测这些缺失的评分,从而为每个用户生成电影推荐。 以下是处理数据集的代码: ```python import p

电力电子中的Simulink应用:锁相环、静止无功补偿器与变流器建模

# 电力电子中的Simulink应用:锁相环、静止无功补偿器与变流器建模 ## 1. 锁相环(PLL) ### 1.1 锁相环原理 锁相环(PLL)是一种控制算法,用于确定正弦输入的频率和相位角。它主要用于两个系统之间的频率匹配,匹配完成后会存在一个恒定的相位差,从而实现相位“锁定”。PLL由相位检测机制、PID控制器和用于生成相位角信息的振荡器组成。此外,系统中还包含一个低通滤波器,用于获取正弦输入的频率信息。在柔性交流输电系统(FACTS)设备中,PLL增益对稳定系统性能起着至关重要的作用。 ### 1.2 Simulink环境下的PLL设置 为了直观展示PLL如何反映频率和相位的变化

利用PyTorch进行快速原型开发

### 利用 PyTorch 进行快速原型开发 在深度学习领域,快速搭建和验证模型是非常重要的。本文将介绍两个基于 PyTorch 的高级库:fast.ai 和 PyTorch Lightning,它们可以帮助我们更高效地进行模型的训练和评估。 #### 1. 使用 fast.ai 进行模型训练和评估 fast.ai 是一个基于 PyTorch 的高级库,它可以让我们在几分钟内完成模型的训练设置。下面是使用 fast.ai 训练和评估手写数字分类模型的步骤: ##### 1.1 模型训练日志分析 在训练过程中,我们可以看到冻结网络的第一个训练周期,然后是解冻网络的两个后续训练周期。日志中

二维和三维偏微分方程耦合求解及生命科学中常微分方程问题的解决

### 二维和三维偏微分方程耦合求解及生命科学中常微分方程问题的解决 #### 1. 二维和三维偏微分方程耦合求解 在求解二维和三维偏微分方程时,有几个具体的问题和解决方法值得探讨。 ##### 1.1 获取相同网格点的 v 值 要在与 u 相同的网格点上获取 v 值,可以输入以下命令: ```matlab >> T_table=tri2grid(p,t,u(length(p)+1:end,end),x,y) ``` 示例结果如下: ``` T_table = 0.6579 0.5915 0.5968 0.6582 0 0.6042 0.4892 0.5073 0.6234 0 0.543

强化学习与合成数据生成:UnityML-Agents深度解析

# 强化学习与合成数据生成:Unity ML - Agents 深度解析 ## 1. 好奇心奖励与超参数设置 在强化学习中,为了激发智能体的好奇心,可以传递与外在奖励相同的超参数。具体如下: - **好奇心奖励信号超参数**: - `reward_signals->curiosity->strength`:用于平衡好奇心奖励与其他奖励(如外在奖励)的缩放系数,取值范围在 0.0 到 1.0 之间。 - `reward_signals->curiosity->gamma`:根据奖励实现所需的时间来调整奖励感知价值的第二个缩放系数,与外在奖励的 `gamma` 类似,取值范围也在

排行榜接入全攻略:第三方SDK集成实战详解

![cocos2d-x 塔防游戏源码](https://docs.godotengine.org/en/3.1/_images/ui_mockup_break_down.png) # 1. 排行榜系统概述与应用场景 在现代互联网应用中,排行榜系统已成为增强用户参与感和提升活跃度的重要工具。无论是在游戏、社交、电商,还是内容平台中,排行榜都能有效激发用户的竞争意识与社交互动。排行榜系统不仅展示用户之间的排名关系,还承载着数据聚合、实时更新、多维度统计等复杂功能。本章将从排行榜的基本概念出发,探讨其在不同业务场景中的典型应用,并为后续技术实现打下理论基础。 # 2. 排行榜技术原理与架构设计

多视图检测与多模态数据融合实验研究

# 多视图检测与多模态数据融合实验研究 ## 1. 多视图检测实验 ### 1.1 实验数据集 实验参考了Wildtrack数据集和MultiviewX数据集,这两个数据集的特点如下表所示: | 数据集 | 相机数量 | 分辨率 | 帧数 | 区域面积 | | ---- | ---- | ---- | ---- | ---- | | Wildtrack | 7 | 1080×1920 | 400 | 12×36 m² | | MultiviewX | 6 | 1080×1920 | 400 | 16×25 m² | ### 1.2 评估指标 为了评估算法,使用了精度(Precision)、

模糊推理系统对象介绍

# 模糊推理系统对象介绍 ## 1. fistree 对象 ### 1.1 概述 fistree 对象用于表示相互连接的模糊推理系统树。通过它可以创建一个相互关联的模糊推理系统网络。 ### 1.2 创建方法 可以使用以下语法创建 fistree 对象: ```matlab fisTree = fistree(fis,connections) fisTree = fistree( ___ ,'DisableStructuralChecks',disableChecks) ``` - `fisTree = fistree(fis,connections)`:创建一个相互连接的模糊推理系统对象