大数据、超级计算与生命科学以及应用实践 --记夏季学期“云计算系列讲座”之三

  • 创建时间: 2014-07-08
  • 1703
7月1日,应计算机与控制学院邀请,来自华大基因研究院的王丙强老师以及中国科学院计算机网络信息中心的吴开超老师为同学们带来了精彩的演讲。
在讲座开始前,王老师对同学们的专业分布进行了初步的了解,听课的同学有的来自于计算机专业,有的来自于心理学专业等,都对王老师的演讲非常期待。在接下来的演讲中,王老师针对大数据的高性能计算以及在生命科学中的应用给同学们带来了非常专业的讲解,王老师特别建议同学们好好学算法,在高性能计算中算法起到很重要的作用,王老师举了一个Hilbert填充曲线的例子,即将数据填充在一个类似于迷宫的三维空间,当最终映射到一维空间的时候会有较高的响应度。接着,王老师为我们介绍了他们最近的关于基因序列的工作,这是一种基于图的思路,将来具有非常丰富的应用,包括人类基因组方面的应用(可以更准确对基因变异进行扫描),基因处理速度方面的应用(数十个小时就可以),宏基因组学方面应用(环境保护,高产农业,可再生能源)等。王老师还为同学们展示了一系列实验的结果,包括大肠杆菌、熊蜂、人类(炎黄一号)实验以及在天河二号上实验的早期结果,通过性能对比,在与同学的问答交互中,让同学们对王老师的实验有了非常深刻的了解。之后王老师举了很多DNA相关处理方面的例子,丰富的实验结果展示以及王老师耐心的讲解给同学们带来全新的认识。
在随后吴老师的演讲中,吴老师着重从大数据的应用与实践角度进行讲解。起初吴老师从大数据整体的角度为同学们进行简单的介绍,包括大数据时代的发展趋势,大数据特征分类,大数据来源分类,硬件技术发展趋势等。在讲到大数据时代的发展趋势的时候,吴老师为我们列举了数据发展趋势:2006年个人用户迈进TB时代,全球共新增约180EB数据。2011年,全球新增数据达到1.8ZB等。接着吴老师针对大数据的应用特点进行了详细的分析与归纳,对从HDFS到Yarn、Spark的大数据应用结构进行系统的介绍。之后从近年来DNS攻击事件引出了对DNS大数据解析处理问题的分析。通过讲座,使大家对大数据的应用有了全新的认识。
王丙强老师2000-2005年,就读于华东理工大学,攻读博士学位;2005-2010年,在上海超级计算中心从事高性能计算与应用研究工作;2010-2014年,在华大基因,负责高性能计算研究工作。目前应邀国际会议报告多次,担任Bioinformatics等国际学术期刊审稿人,参加过包括973项目在内的多个国家和地方重点项目,所在团队工作获得2012年度Bio-IT World最佳实践奖,2013年度阿里云5K计算优胜奖。
吴开超老师2008年于中国科学院研究生院获工学博士学位。1998年起在中国科学院计算机网络信息中心从事科学数据管理、海量存储环境、大数据时空可视化、数据中心运维优化等方向上的研究及应用。2010年作为高级研究学者访问美国伊利诺伊大学UIUC/国家超级计算应用中心NCSA。