大数据挖掘云服务挑战性问题及关键技术 ——记夏季学期“云计算与大数据管理”系列讲座之五

  • 创建时间: 2014-07-23
  • 1760

                                       刘晟源

  7月8日,应计算机学院邀请,中国科学院计算所中国科学院智能信息处理重点实验室何清研究员在雁栖湖校区教一002教室给同学们带来了题为“大数据挖掘云服务挑战性问题及关键技术”精彩的讲座。
  何老师主要研究领域为机器学习与数据挖掘、基于云计算的大数据挖掘等,是中国科学院计算技术研究所研究员,博士生导师;中国计算机学会高级会员,人工智能与模式识别专业委员会委员;中国人工智能学会副秘书长,常务理事,知识工程与分布智能专业委员会秘书长,机器学习专业委员会常务委员;中国电子学会云计算专家委员会委员。
  何老师的讲座主要从大数据挑战性问题、大数据挖掘算法、大数据挖掘云服务平台、Web大数据挖掘平台、典型案例等几个部分展开。何老师首先跟我们讲解了大数据的特征,指出处理大数据的可等待的合理时间依赖于任务的目标,并且大数据给我们在数据、科学规范以及社会问题等都带来了相应挑战。随后总结介绍了不同时期数据挖掘的技术发展,总结了大数据挖掘面临的挑战,指出大数据挖掘需要反应大数据分布的抽样方法、基于大数据分布、以及高效并行,能够反应全量特征。接着何老师又主要讲解了ETL在大数据方面的几个经典算法。指出大数据处理需要云计算并行化可以大幅度提高处理效率,何老师随后介绍了他们所做的基于云计算大数据挖掘平台PDMiner以及数据挖掘云服务平台COMS,这两个系统相比现有的系统在性能以及功能上都有大幅提高。讲座最后何老师结合实际例子具体阐述了大数据挖掘的应用。
  讲座结束后,许多同学到讲台上跟何老师讨论交流,何老师的学术功底非常扎实,在大数据挖掘领域有很高的影响力,该场讲座是同学们与科研第一线的一场亲密接触。