项目背景
近年,随着互联网技术的迅猛发展和信息技术的革命性进步,人类已进入数字时代。现在,每年平均数据增长率约为60%,正处在一个数据急速膨胀的时代。与此同时,人类对数据的依赖程度也越来越高,方方面面的活动和决策越来越依赖于对已有数据的分析、处理和挖掘。而随着各种智能技术的飞速发展,尤其是近年深度学习技术取得的一系列突破,对数据分析和预测的准确度程度的进一步提升,使这种依赖进一步加深。
复旦大学是最早将大数据作为学校发展战略举措的领头高校,应国家的战略需求和上海市大数据和人工智能产业的布局,复旦大学大数据云平台力图突破大数据和人工智能领域的基础研究、应用基础研究的重大问题,建设具有战略意义的核心数据资产,面向重点行业和科学提供智能算法模型和核心技术。解决大数据和人工智能落地应用的挑战,建设大数据和人工智能技术、产品以及应用的探索、试验、创新平台。以实现为国家战略服务、为大数据相关学科服务、为大数据教学科研服务和为产学院推广服务的目标。
研究内容
大数据云平台需要解决多类用户和复杂资源的管理运维复杂、使用不便、资源利用率低难题。为此,平台主要研究内容有:一是面向用户使用视角研究高效、好用和易用方式,包括多样化的服务、可软件定义的灵活资源使用、高效部署以及智能化运维等;二是面向系统管理视角系统高效资源管理、高可靠性、高可扩展性和安全性。通过研究突破云平台核心关键技术,研发和构建服务多样、好用易用、高效、智能、安全的高可靠可扩展的云平台系统。
大数据云平台已经完成一期软硬件系统的构建,硬件系统构建了5PB的数据存储及相应计算能力。软件系统结合大数据工场的定位和相关用户的使用特点和未来发展需求,重点对相关领域的技术进行深入研究,设计和开发了作为大数据云平台的核心系统的大数据云平台管理系统,整体框架如图1所示。
图 1大数据云平台框架
大数据云平台系统已完成2.0版本的开发和测试,并已于2021年11月份成功上线运行。该系统的投入使用使大数据云平台可以提供方便、快捷和易用的多样化服务,已部署上线运行三年多,期间进行了功能丰富、系统优化、安全防护和用户服务提升等多次版本升级和迭代,功能如图2所示。系统目前已服务于超过20多家单位和用户,很好地支持了产学研应用。为金融、人类表型和电力等重点学科提供了高效服务,达到了预期效果。
图2 大数据云平台功能示意图
项目成果
在研制和开发过程中,形成多项自主知识产权,主要专利和软著有:
lCN201911303027.7:面向多租户的分布式文件系统安全访问控制方法及系统
lCN201911303119.5:一种低开销的文件操作日志采集方法
lCN202010615228.5:一种面向虚拟化的基于规则学习的二进制翻译方法
lCN202010641480.5:一种容器环境下RDMA虚拟化方法
lCN202010640423.5:一种有效提升GPU上B+树检索效率的优化方法
lCN202110058928.5:一种安全文件系统构建方法
lCN202110088751.3:一种多路监控数据传输优化方法
lCN202110103777.0:一种多路请求复制分发系统和方法
l软著2020SR0267167:面向云的可靠文件系统V1.0
l软著2020SR0267172:面向文件操作的日志系统软件V1.0