题目:大数据计算新范式--非MapReduce计算框架
时间:2022年11月30日周三15:00
地点:致真楼L6 1105会议室
摘要
当前,大数据分布式计算绕不过MapReduce计算框架。由于其简单、易用和广泛流行,MapReduce已经成为了大数据分布式计算的代名词。但是,面对用高度迭代的复杂智能算法对超大规模的大数据做分布式计算的任务,MapReduce分布式计算系统面临计算效率低、数据扩展性差和复杂算法无法用MapReduce编程模型实现的窘境。其核心瓶颈是重复的Reduce操作产生巨大的数据shuffle和通信开销。本报告介绍一种新的非MapReduce 计算框架来突破这一计算瓶颈。新的计算框架将分布式计算分成两个步骤:local operation 和global operation,称之为logo计算框架。局部操作用串行算法在计算节点上对局部存储的随机样本数据块做独立计算,全局操作将多个节点独立计算的随机样本的结果做集成计算,得出全局结果,作为整个大数据的近似计算结果。logo计算框架只在全局操作需要数据通信,消除了MapReduce计算中重复Reduce操作的通信开销,计算效率和数据扩展能力大幅提高;同时,在局部操作中直接运行串行算法,不再需要按MapReduce操作重写。
实现logo计算框架的核心技术是随机样本划分大数据表达模型,即RSP数据模型。该模型将大数据集表示成一组小的随机样本数据集(称作RSP数据块)做分布式存储,每个随机样本集在局部操作步骤独立计算,产生独立的估计值。全局操作将局部分布式并行计算生成的大量随机样本估计值做集成,得到大数据计算的近似结果。logo计算框架可以解决大数据计算的许多问题,包括:算法约束,内存约束,计算效率,计算成本等。同时可以实现多集群协同的分布式计算。
黄哲学简介
深圳大学特聘教授、大数据技术与应用研究所所长、大数据系统计算技术国家工程实验室副主任,瑞典皇家理工大学博士,首批广东省领军人才,深圳孔雀计划高层次人才。符号值和混合值数据快速聚类算法研究的开拓者,发表了k-modes等一系列著名聚类算法,被纳入国内外教科书和专著,进入软件产品。荣获亚太地区知识发现和数据挖掘国际会议首个最有影响论文奖。发表学术论文250多篇,主要论文被引用超万次,单篇独立作者论文最高引用超3000次,入选斯坦福大学2020年和2022年全球前2%顶尖科学家“终身科学影响力排行榜”。近年来主要研究大数据并行与分布式计算技术,提出了随机样本划分(RSP)分布式大数据表达模型,创新性地融合了分布式计算、统计抽样和近似计算方法,有效地解决了超大数据计算的内存约束问题,研究成果荣获多个创新大赛奖,成功用于实际应用。