网络知识 娱乐 2019年最后一期!你即将错过中科院大神给CNS的专属定制

2019年最后一期!你即将错过中科院大神给CNS的专属定制

一、分析平台搭建

工欲善其事必先利其器”,没有自己的分析平台,想分析大数据,那怎么能行。宏基因组数据量极大,前期原始下机的大数据想在自己本本上处理还是有难度的。好在现阶段一般的高校、科研院所、课题组都有自己的服务器,即使没有服务器,也可以租用国内的阿里云、腾讯云等服务。现在分析条件拥有了,如何把服务器变成宏基因组分析的利器呢,这是一个非常复杂的专业问题,在这里你马上可以学到!

图1. 宏基因组分析流程的搭建——系统、安装方法和主要软件

服务器推荐使用Ubuntu系统。最低配置32G内存、8核;推荐256G内存,24线程起;配置越高,分析更快更流畅。

没有软件的计算机只是一堆废铁,没有宏基因组分析系统的服务器也和你的数据分析没有半毛钱关系。想要搭建整套的宏基因组分析流程,网上的资源即零散、又稀少。易生信团队将分享多年经验摸索优秀软件和布置技巧,并分享全部源代码,让你在主流Linux服务器系统(Ubuntu 16/18.04,CentOS7等主流发行版)上快速布置宏基因组分析流程依赖的几十款常用软件、几百个依赖的R和Python包,轻松拥有专业分析平台。

图2. 易生信首创基于Win10优化的数据统计分析和可视化流程,笔记本秒变大数据分析平台

推荐使用Windows10系统,8G内存分析更快更流畅。

高通量测序所谓的大数据,都是在原始数据和分析过程中体积大,但结果不大。通常宏基因组分析会获得样品物种组成、功能组成表,这些表格是下游分析、高级分析以及个性分析的起点,绝大部分工作在我们的笔记本上是可以搞定的,只是很多人并不知道如何入手。

其实你的个人电脑就是数据表(丰度矩阵)统计分析的利器。易生信团队独创实现了跨平台的分析流程,在大家的Windows笔记本上可以轻松实现扩增子、宏基因组领域统计、可视化的绝大多数分析,第三节课带你轻松在自己的本本上搭建数据表统计分析与可视化平台,基于目前最主流的Win10进行优化和测试,让笔记本秒变数据分析可视化平台

我们也会带大家在Linux上配置整个分析可视化平台 (Mac跟Linux类似,无做区别对待,但部分软件可能安装方式不同,未做深入测试,不建议参加培训时使用)。

二、生信基础

有了生信分析平台,如何灵活运用还是要学点独门绝学的。21世纪最重要的是人才,人才最好掌握三门语言,将让你人生立于不败之地,在任何团队中都是不可或缺的人才。这三门语言就是中文、英文和计算机语言。中文每天都在用在学,英文对于博士也至少接触了10年以上并能应用于阅读和写作文献,而编程语言大家大学阶段都学过Visual Basic、Visual Foxpro、或C语言,但能在工作中应用的绝对凤毛麟角。更何况这些语言在生命科学领域是非常低效的,不提倡学习。

生信中最常用的三类语言是Shell + R + Python/Perl,前两门是基础,保证你完成项目分析。我们在课上将同时讲解生物学家必要掌握的Shell和R语言基础知识,保证你高效、稳定的使用宏基因分析平台、保证大数据分析和后期可视化至发表阶段所需的技能。

图3. Shell和R学习大纲,首创Rstuio中鼠标点击可完成Shell脚本和R语言分析,既打开生信的大门,又不会增加生物学家时间成本

当你利用几个小时,走进大数据分析和可视化的大门后,你将发现一个全新的世界。很多人会感觉相见恨晚,爱上分析,从此走向人生的快车道。即使你对编程不感兴趣,这里面用到的理念也定能让你受益终身,在今后相关分析中事半功倍,比别人更胜一筹。再说现在连小学生都学Python了,再不会,孩子都带不好了。

三、图表解读和绘制专题

针对很多老师缺少系统的生信背景,看不懂分析文章图表,更对绘制各式图表手足无措的情况, 我们推出过如下两个系列,共16篇原创文章,对8种图型和R语言绘图进行讲解。

  • 扩增子图表解读-理解文章思路
  • 扩增子统计绘图-冲击高分文章

但这些只是入门,在培训时,我们将结合发表的高水平文章,进一步讲解16种常用分析图的原理和使用范围,让你不仅读懂图,更知道如何应用于自己的研究,并亲自轻松完成绘图。

针对使用R语言绘图学习时间成本较高的问题,易生信团队针对常用16种图开发了免费绘图网站,一键出图,更可鼠标点选参数修改图形的个性样式。

图4. 16种常用图形的表达的意义、使用场景和绘制。可使用我们的在线绘图工具实现。

为了让各种统计图片实现出版级的组图,特开设了一节Adobe Illustrator修图排版课,讲述基本使用技巧,轻松掌握精髓,让你文章图版档次向CNS看齐,轻松成为实验室的修图和拼图达人。

图5. AI排版本子图为CNS出版级组图示例(Science, 2016封面文章)

四、宏基因组学概述

在第一天全面打造科研基础后之,我们将开始宏基因组大数据分析之旅。

作为专业基础知识,我们将学习以下内容。

  1. 背景:国际微生物组、中国微生物组计划
  2. 研究对象:人、动物、植物、环境
  3. 研究方法:培养组学、扩增子、宏基因组、宏转录组、宏蛋白组、宏代谢组、宏基因组关联分析、宏表观组……
  4. 宏基因组学的研究热点:培养组、肠菌与疾病、宏基因组关联分析(MWAS)、多组学联合分析……
  5. 测序发展史与原理
  6. 样品制备、实验重复和测序数据量的选择
  7. 宏基因组分析SCI文章的常用套路
  8. 宏基因组与扩增子优缺点比较
  9. 原始数据评估、组装结果好坏的判断

图6. 宏基因组学常用手段:扩增子、宏基因组、宏转录组所能回答的科学问题

五、宏基因组学有参分析流程

刚上手每个样品几G到几十G的数据,如果无从下手,还是建议立马来一套有参分析,快速获得样品的物种组成和功能组成。有参(Reference-based)方法,顾名思义,是直接使用现在的物种、功能基因注释数据库,数据只通过质控、比对而快速获得相应物种、功能基因的相对丰度矩阵。在本领域第一分析大牛Rob Knight的最新综述中对此方法也很推崇,《Nature综述 | Rob Knight等手把手教你分析菌群数据(全文翻译1.8万字)》。

此法优势明显,步骤少,速度快,省时省力,适合人类肠道、模式生物、海洋等有较好参考数据库的领域。缺点是无法识别未被报导物种的功能基因,对于植物、土壤、极端环境样本分析时,会损失很多信息。

图7. 宏基因组分析基本思路——有参分析流程。主要通过MetaPhlAn2基于己报导的所有微生物基因组获得物种组成,基于UniRef、EggNOG、KEGG等蛋白数据库确定功能组成。16S扩增子数据本身只包含物种组成,可通过PICRUSt获得KEGG/COG的功能组成。

主要知识点:

1. 实验设计的编写原则

2. KneadData流程快速质控和去宿主流程

3. 物种组成定量MetaPhlAn2

4.功能组成定量HUMAnN2

六、宏基因组无参分析流程

宏基因组无参分析,主要有两个目的:一是获得未被注释的物种和基因表达;二是通过Binning挖掘新物种的基因组。看样子很美好,但实际操作起来对计算量要求非常大。分析过程中比有参多了组装、基因预测、非冗余基因集构建和基因注释等步骤。

图8. 宏基因组无参分析流程

关键步骤及使用软件:

  1. 数据质控fastqc, Trimmomatic, MultiQC, khmer
  2. 组装拼接MEGAHIT和评估quast
  3. 基因注释Prokka
  4. 构建非冗余基因集:CD-HIT
  5. 基因丰度估计:Salmon等方法快速基因丰度定量,后续可进行PCA、PCoA、CCA等整体组间差异比较;也可进一步使用edgeR、MetaStat、LEfSe进行组间差异基因分析;
  6. 物种注释:获得非冗余基因集物种注释信息,也可在reads层面使用Kraken2进行直接物种注释,结合第6步丰度值可进行组间差异物种分析;
  7. 基因功能分类注释:代谢通路(KEGG),同源基因簇(eggNOG)注释,结合6中丰度进行组间差异功能比较;

图9. 宏转录组分析流程。宏转录组较宏基因组多一步去除rRNA基因序列的步骤。此方法缺点是无法获得真实的物种组成,但它体现的是在特定时空条件下有活性的物种和功能基因表达水平组成。

七、高级分析与可视化实战

  1. R语言统计绘图与可重复计算
  2. 宏基因组中鉴定单菌(分箱bin):MetaWRAP
  3. Bin结果评估及可视化:CheckM, VizBin
  4. 宏基因组可视化:Circos
  5. 在线流程:MEGAN、MG-RAST、EBI-metagenome
  6. 网络分析: igraph、WGCNA、Cytoscape
  7. 多基因连接树构建:RaxML、fasttree、iTOL
  8. 其它常用:GraphlanKrona

图10. 宏基因组基因组成、丰度、覆盖度等信息可视化

图11. 基于多基因连接的进化树构建和美化(Levy-2018-NatureGenetics)

学习完本课程,你能得到什么?

深彻理解生物测序数据的基本思想

宏基因组分析三种模式全面的解决方案,以及结果的统计分析

  • 16S扩增子数据PICRUST预测宏基因组
  • 宏基因组数据Humann2定量物种和功能
  • Denovo宏基因组拼接和binning

几十种软件数据库的使用经验

  • 几十款本领域软件的安装、使用教程
  • 常用功能注释数据库的理解和使用

高要求的结果可视化

  • 结果的差异比较
  • 多种可视化方案