macOS setup
终端(Terminal)为macOS使用命令行的界面,与Linux基本命令相同,但是软件安装存在一些差异。
掌握基本的grep,sed,awk操作。
我之所以推荐这三个命令是因为,它们很适合快速进行简单的文本操作,可以让很多工作直接快速地在命令行上完成,而不需要编写程序。比如抽取一个文本文件特定的几列信息、匹配相关信息、修改输出等,用awk实现起来非常简单。
掌握了这些之后,你再学习如何利用Linux命令和相关程序组建简单的shell任务流程,到这个阶段,Linux部分基本就OK了。
推荐五门比较好的生物信息学慕课。前两门是北大与山大的国家精品课程;后三门分别是中国科学院大学(UCAS)刘翟老师、华中科技大学(HUST)薛宇老师与暨南大学张弓老师的生物信息学课堂实录视频。
第三代测序技术与前两代测序技术相比,其最大的特点就是单分子测序,测序过程无需进行PCR扩增,实现了对每一条DNA分子的单独测序。其中,英国牛津纳米孔公司所开发的纳米孔(Nanopore)测序技术便是三代测序中的中流砥柱。2014年,其推出U盘大小的便携式MinION测序仪,仪器售价仅需$1000,据官网报道最长Reads可长达960Kb。从当前形势来看,一代测序因其准确度高,仍作为突变检测、单菌鉴定等的金标准而存在。以illumina HiSeq为代表的第二代短读长测序技术在测序市场上仍然占有绝对优势,主打低成本和高通量。但第三代测序技术(PacBio与Nanopore)近年来发展很快,主打长读长策略,直击二代测序短序列的软肋,已应用于基因组测序、甲基化研究和突变鉴定等多个研究领域。
很多疾病的检测结果通常是阴性(-)和阳性(+)两种情况,艾滋病(AIDS)也不例外。目前,HIV(艾滋病病毒)检测方式是做血清抗体检测。任何医学检测都不会100%准确,数据的统计结果显示,真正得了艾滋病的患者在接受HIV检测后,结果呈现阳性的概率为99.8%,而健康人群检测结果为阴性的概率为99%。总体来说,检测结果还是很可靠的,得病的人基本会被检测出来,没有得病的人也能被准确甄选出来。
本16S rRNA基因扩增子测序数据分析流程包括:首先通过R语言中DADA2包对样本测序数据进行质控与预处理;然后得到样本的ASV表与物种分类信息;最后通过MicrobiomeAnalyst可视化样本数据,查看样品中的细菌种类,并进行生物多样性(biodiversity)统计分析。
scikit-learn(简称sklearn)是基于Python语言的第三方机器学习库。scikit-learn是一个开源项目,包含目前几乎所有主流机器学习算法,其官方文档对每个算法都有详细的说明与示例,完全可以当成机器学习的教程来学习。scikit-learn的主要功能包括分类、回归、聚类、数据降维、模型选择和数据预处理六大部分。