大数据的昨天、今天与明天 —记夏季学期“云计算与大数据管理”系列讲座之四

  • 创建时间: 2014-07-23
  • 1644
                                            刘晟源
  7月8日,应计算机学院邀请,中国科学院计算所网络科学与技术重点实验室系统软件组组长查礼副研究员在雁栖湖校区教一002教室为同学们带来了题为“大数据的昨天、今天和明天”精彩的演讲。
查礼老师的研究方向是分布式系统及大规模数据计算,他曾经参与“网格软件”、“中国国家网格软件的研究与开发”等重大科研专题,他还是Hadoop in China开源社区的发起人以及Hadoop in China大会的组织者。
  在查礼老师的讲座中,首先给我们介绍了数据库系统的发展,讲解了数据库三级模式、二级映射的理论,并指出数据库理论的三大基石为关系模型、事务处理以及查询优化。随后又讲到了数据一致性模型,针对ACID、CAP、BASE理论依次详细展开描述,并结合当今大数据时代分析了数据库系统存在的问题与挑战。
  查礼老师随后又结合例子说明,大数据面临的主要挑战是数据存储与处理效能,并指出如何利用大数据产生价值是问题的关键所在。云计算为人们的生活带来了很多便捷,但也同时给工业界带来了许多挑战。这是因为云计算所提供的种种服务都是以大规模数据存储能力和处理能力为基础的,谁能掌握了大数据,谁就能在这个时代里独占鳌头。然后又给同学们介绍了大数据系统的创新技术,Google公司所开发的GFS是这一领域的技术先驱,在数据存储和数据处理方面有非常大的优势。查老师深入分析了GFS的应用场景和技术原理,同时他还对GFS的开源版本Apache Hadoop进行介绍,随后又结合Facebook数据处理流程深入介绍Hadoop生态圈中的其他产品如HBase、Hive等。在演讲的最后,查老师介绍了自己的研究方向以及与工业界的合作情况,介绍了行列混合式存储结构RCFile以及互补式的聚簇索引技术CCIndex、ICTBase等,这几个技术在淘宝数据魔方以及搜狐新闻客户端-个性化内容推荐引擎等应用中起着关键作用。査礼老师的研究,大大提高了数据处理的效率,也显著减少了应用对硬件设施的需求。最后査礼老师又给我们展望了大数据系统的发展趋势。同学们被查老师精彩纷呈的演讲所吸引,在演讲结束后,许多同学走上前去与査老师讨论交流技术问题。
  査礼老师的演讲涉及云计算的诸多方面,从云计算的理论基础到云计算的技术核心,从云计算终端用户直观的感受到云计算中心系统架构。在讲解过程中査老师结合了许多的运用场景,同学们仿佛身临其境,在云计算的技术世界中遨游,对云计算有了更加深入的理解。