数据预处理过滤低表达的基因 所有数据集将包括表达的基因和不表达的基因的组合。 虽然检查在一种条件下表达但不在另一种条件下表达的基因是有意义的,但是一些基因在所有样品中都未表达 标准化 由于不同文库测序深度不同,比较前当然要进行均一化!用总reads进行均一化可能最简单,其基于以下两个基本假设: 绝大多数的gene表达量不变; 高表达量的gene表达量不发生改变; 但在转录组中,通常一小部分极高丰度基因往往会贡献很多reads,如果这些“位高权重”的基因还是差异表达的,则会影响所有其它基因分配到的reads数,而且,两个样本总mRNA量完全相同的前提假设也过于理想了。那如何比较呢,各个方家使出浑身解数,有用中位数的,有用75分位数的,有用几何平均数的,有用TMM(trimmed mean of Mvalues)的等等,总之要找一个更稳定的参考值。 House-keeping gene(s)矫正的思路很简单,就是在变化的样本中寻找不变的量 那么在不同RNA-seq样本中,那些是不变的量呢?一个很容易想到的就是管家基因 (House-keeping gene(s)) 那么 Huma ...
深入了解snp-calling流程
GATK4流程 准备配套数据要明确你的参考基因组版本了!!! b36/b37/hg18/hg19/hg38,记住b37和hg19并不是完全一样的,有些微区别哦!!! 1、下载hg19 这个下载地址非常多,常用的就是NCBI,ensembl和UCSC了,但是这里推荐用这个脚本下载(下载源为UCSC): # 一个个地下载hg19的染色体for i in $(seq 1 22) X Y M;do echo $i;wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;donegunzip *.gz# 用cat按照染色体的顺序拼接起来,因为GATK后面的一些步骤对染色体顺序要求非常变态,如果下载整个hg19,很难保证染色体顺序是1-22,X,Y,Mfor i in $(seq 1 22) X Y M;do cat chr${i}.fa >> hg19.fasta;donerm -fr chr*.fasta BWA: Map to Referen ...
Andrew NG Coursera 课程编程作业
使用课程推荐的Octave进行编程实现,可以将Octave理解为开源版本的MATLAB Ex1: Linear Regression 读入数据 data = load('ex1data1.txt'); % 导入的数据文件为用逗号隔开的两列,第一列为x,第二列为yX = data(:, 1);y = data(:, 2);% 可以尝试绘图% figure;plot(x,y);m = length(y); 数据分布图如下: 梯度下降前的数据预处理与设置 X = [ones(m,1),data(:,1)]; % 添加x0列,都设为1theta = zeros(2,1); % 初始化θ值% 梯度下降的一些设置信息iterations = 1500; % 迭代次数alpha = 0.01; % 学习率α 计算损失函数 线性回归的损失函数为: % 定义一个函数computeCost来计算损失函数function J = computeCost(X, y, theta) m = length(y); predictions = X*theta; % 计算预测 ...
SAM/BAM相关的进阶知识
samtools和picard的排序问题samtools和picard都有对SAM/BAM文件进行排序的功能,一般都是基于坐标排序(还提供了-n选项来设定用reads名进行排序),先是对chromosome/contig进行排序,再在chromosome/contig内部基于start site从小到大排序,对start site排序很好理解,可是对chromosome/contig排序的时候是基于什么标准呢? 基于你提供的ref.fa文件中的chromosome/contig的顺序。当你使用比对工具将fastq文件中的reads比对上参考基因组后会生成SAM文件,SAM文件包含头信息,其中有以@SQ开头的头信息记录,reference中有多少条chromosome/contig就会有多少条这样的记录,而且它们的顺序与ref.fa是一致的。 SAM/BAM文件的头信息: > @HD VN:1.3 SO:coordinate> @SQ SN:chr1 LN:195471971> @SQ SN:chr2 LN:182113224> @SQ ...
Hexo + GitHub Homepage 搭建个人博客
Do not just seek happiness for yourself. Seek happiness for all. Through kindness. Through mercy. David LevithanWide Awake 实现原理看GitHub某一个页面的URL: https://github.com/Ming-Lian/NGS-analysis/blob/master/Stat-on-RNAseq.md 从它的URL里就可以看出服务器端的文件夹组织形式,https://github.com对应于其web服务器的家目录,以~表示: ~|---- User1 # 用户名 |---- repo1 # 仓库名 |---- blob # 固定文件夹,意义不明 |---- branch1 # 仓库下的分支名,默认分支为master |---- branch2 ... |---- repo2 |---- repo3 ...|---- User2|---- User3... 一般情况下,GitHub对每个仓库地下的文件是有一些限制的,对于纯文本形式的脚本文件可 ...