主题:龙星课程数学/算法类重难点精讲直播录屏已上传至B站,请点这里 用泊松分布建模评估测序量与覆盖率之间的关系 补充材料:龙星课程PPT day1:44-52页 看懂Kmer分析图 补充材料:基因组分析简介之K-mer分析 基因组拼接算法:de Bruijn 图的构建与寻找欧拉路径 补充材料:龙星课程PPT day2:38-55页 基于后验概率的变异检测方法 补充材料: (1)本人博客《深入理解基因组变异检测(variants calling)》 中的【2.1. 基于贝叶斯方法】部分 (2)Li H. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics. 2011;27(21):2987–2993. (3)龙星课程PPT day1:53-64页 注意: 请在下方评论栏里以张贴笔记(文字或 ...
《生信与机器学习兴趣小组》第六次分享讨论贴
主题:龙星课程2019干货分享直播录屏还未上传至B站,还没剪好,请稍等 课程完整PPT获取,点这里 直播分享PPT获取,点这里 参考小明的学习笔记,点这里 小伊老师的github,传送门 注意: 请在下方评论栏里以张贴笔记(文字或图片均可)的形式参与本期的讨论
《生信与机器学习兴趣小组》第五次分享讨论/打卡贴
主题:机器学习在生物信息学中的应用(一)直播录屏已上传至B站,传送门 本期内容: 上期内容回顾与补充 两个机器学习在生物信息领域应用的例子: 无监督聚类与宏基因组bining 隐马尔科夫(Hidden Markov Model, HMM)与蛋白质保守区块(Block)的识别 要求参与讨论方式: 在下面的评论栏里贴笔记打卡
《生信与机器学习兴趣小组》第四次分享讨论/打卡贴
主题:统计机器学习之分类任务入门直播录屏已上传至B站,传送门 本期内容: 机器学习概述 统计机器学习与深度学习 拟合问题与分类问题 一奶同胞的三个分类算法 感知机 SVM 逻辑回归 文字版笔记,点这里 内容包括上述的三种分类器和拉格朗日乘子法 要求参与讨论方式: 在下面的评论栏里贴笔记打卡
《生信与机器学习兴趣小组》第三次分享讨论/打卡贴
主题:入门机器学习的数学基础:线性代数(二)直播录屏已上传至B站,传送门 本期内容 线性代数的学科逻辑 分析线性方程组的解的情况而引出矩阵的秩 解的有无:对于$A\vec x=\vec b$,$\vec b$是否在值域中 $\Rightarrow \quad r([A|b]=r(A)$ 若有解,解的个数:一个or多个 $$\begin{cases}唯一解 \Leftarrow 单射 \Leftarrow 列满秩\\ \quad \\ 多个解 \Leftarrow 非单射 \Leftarrow 列不满秩\end{cases}$$ 若有多个解,求解集:特解+零空间 参与讨论位置$\Downarrow$ 请在下方评论区以张贴笔记(文字或图片均可)的形式参与本期的讨论
《生信与机器学习兴趣小组》第二次分享讨论/打卡贴
主题:入门机器学习的数学基础:线性代数(一)上期答疑 BWT算法 连特异性建库 本期内容 矩阵与矩阵乘法法制的来源 矩阵左乘向量的几何意义 矩阵的秩与映射类型的关系(大家反映这部分没听懂,所以下一期答疑部分会重讲) 注意: 请在下方评论栏里以张贴笔记(文字或图片均可)的形式参与本期的讨论
《生信与机器学习兴趣小组》第一次分享讨论贴
主题:转录组分析里的那些为什么1:RNA-seq与基因芯片相比有什么优势? 2:三种常规的建库策略 3:先打断再逆转录好,还是先逆转录再打断好? 4:Illumina测序仪给的碱基质量Phred Quality,它的P值是怎么算出来的? 5:为什么会经常出现序列两端质量偏低的现象? 6:测序仪给的碱基质量给出的碱基质量评估靠谱吗? 7:跑完FastQC,拿到若干项质控统计报告,我应该重点关注哪些? 8:那些转录组比对软件的原理是什么样的? 8.1:综述序列比对算法8.1.1:Brute force approach 8.1.2:Dynamic Programing(DP, 动态规划) 8.1.3:Hash based alignment algorithmn 8.1.4:Burrow and Wheeler Transform(BWT) 8.2:回到转录组序列比对问题8.2.1:Exon first approach 8.2.2:Seed-extend approach
计算机知识
1. 计算机发展历史计算机(computer)俗称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算,又可以进行逻辑计算,还具有存储记忆功能。是能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备 人类历史上真正意义的第一台电子计算机于1946年诞生,如今其硬件技术已经发展到第四代 第1代:电子管数字机(1946—1958年) 逻辑元件采用的是真空电子管,主存储器采用汞延迟线、阴极射线示波管静电存储器、磁鼓、磁芯;外存储器采用的是磁带。软件方面采用的是机器语言、汇编语言。应用领域以军事和科学计算为主 特点:体积大、功耗高、可靠性差。速度慢(一般为每秒数千次至数万次)、价格昂贵,但为以后的计算机发展奠定了基础 第2代:晶体管数字机(1958—1964年) 逻辑元件用晶体管代替了原先的真空电子管 晶体管不仅能实现电子管的功能,又具有尺寸小、重量轻、寿命长、效率高、发热少、功耗低等优点 使用晶体管后,电子线路的结构大大改观,制造高速电子计算机就更容易实现了 第3代:集成电路数字机(1964—1970年) 逻辑元件采用中、小规模集成电路(MSI、 ...
统计学进阶知识
1. Beta分布1.1. Beta分布及其函数公式推导如果随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布,那么它的概率由概率质量函数(对于连续随机变量,则为概率密度函数)为: $$p(x)=\begin{pmatrix} n \\ x \end{pmatrix}q^x(1-q)^{n-x}\tag{1}$$ 把 $(1)$ 表示为变量 $q$ 的函数,即只有 $q$ 这一个变量,写成如下形式 $$f(q)\varpropto q^a(1-q)^b\tag{2}$$ 其中 $a$ 和 $b$ 是常量,$q\in(0,1)$ 为了把 $(2)$ 变成一个分布,可以给它乘上一个因子,使它对 $q$ 从0到1积分为1即可,即 $$f(q) = kq^a(1-q)^b\tag{3}$$ 令其积分为1 $$\int_0^1 f(q)\mathbf dq = \int_0^1 kq^a(1-q)^b \mathbf dq=k\int_0^1 q^a(1-q)^b \mathbf dq=1 \tag{4}$$ 则 $$k=\frac{1}{\int_0^1 q^a(1-q)^b \ma ...
CNN的数学原理
1. 传统神经网络架构及其存在的问题 当我们基于一个有限的固定特征集合解决分类问题的时候,上图这种传统架构的神经网络是奏效的 但是当处理照片的时候,问题变得更加复杂: 最简单的做法是,我们把每个像素的亮度视作一个单独的特征,然后将它作为密集网络的输入传递进去 如果我们这么做,为了让它能够应付一张典型的智能手机照片,我们的网络必须包含数千万甚至上亿的神经元(尤其是神经网络的输入层的神经元数量庞大),神经网络越庞大意味着计算和存储开销就越大,别说是普通智能手机了,就是高配的PC机也hold不住 为了减小计算和存储开销,可以将照片缩小,但是我们也会在这个过程中损失有价值的信息 有没有一种方法可以在用神经网络处理图像数据时,既能尽可能多的利用数据,同时还能减少必需的计算量和参数 这就是CNN了 2. 数字照片的数据结构图像实际上就是巨大的数字矩阵,每个数字代表的是一个单独像素的亮度 在 RGB 模型中,彩色图片是由 3 个这样的矩阵组成的,每个矩阵对应着 3 个颜色通道(红、绿、蓝)中的一个,在黑白图像(专业说法为灰度模式)中,我们仅使用一个矩阵 每个矩阵都存储着 0 到 255 的数值 ...