地球大数据服务全球可持续发展

郭华东,梁栋,孙中昶,陈方

可持续发展大数据国际研究中心

摘要

2015年,联合国193个会员国通过《改变我们的世界——2030年可持续发展议程》的成果文件,提出了17个可持续发展目标(Sustainable Development Goals,SDGs)和169个具体目标,以及230余个指标,旨在解决社会、经济和环境三个维度的发展问题,让全球走向可持续发展的道路。由于数据缺乏、技术障碍、资金短缺,实现SDGs面临严峻的挑战。伴随科技发展,全球数据量正呈指数级增长。计算和数据技术的进步,使得实时处理和分析大数据变成了现实,而新型数据与统计和调查数据等传统数据的结合,可创造更详细、更及时的高质量信息。充分发掘利用和创新地球大数据技术,是解决当前可持续发展面临的数据鸿沟以及信息和工具缺失问题的有效途径。中国科学院战略性先导科技专项“地球大数据科学工程”围绕6个SDGs及其指标进行研究和监测评估,取得一系列成果,促成可持续发展大数据国际研究中心成立。该研究中心致力于加强国际合作,通过科技创新和大数据为实现SDGs提供科学支撑。

关键词

地球大数据;数字地球;科学大数据;可持续发展目标

Abstract

In 2015,193 member states of the United Nations adopted the 2030 Agenda for Sustainable Development,in which,17 Sustainable Development Goals (SDGs),169 targets,and more than 230 indicators were proposed to guide the economic,social,and environmental aspects of development.However,several factors have constrained the implementation of the SDGs,including lack of data,technical obstacles,and shortage of funds.With the development of science and technology,the global data volume is growing exponentially.Advances in computing and data technologies have made real-time processing and analysis of big data a reality,while new types of data combined with traditional data,such as statistical and survey data,can create more detailed,timely,high-quality information.Big Earth Data technology,through its extensive use and further innovation,can be an effective way to address the data divide and the lack of information and tools for sustainable development.The Big Earth Data Science Engineering Program of the Chinese Academy of Sciences carried out research on improving the monitoring and evaluation of SDGs and achieved a series of goals.To this end,the International Research Center of Big Data for Sustainable Development Goals (CBAS) was established to strengthen national and international efforts through improved scientific support driven by innovative big data solutions for SDGs.

Keywords

Big Earth Data;Digital Earth;Scientific Big Data;Sustainable Development Goals

1 地球大数据发展态势

地球大数据是科技创新的核心要素,是数字经济时代的战略高地,是国家和全球的新型战略资源,正在成为人类认识地球的新钥匙、知识发现的新引擎、科学认知的新范式[1]。地球大数据是基于数字地球和科学大数据发展而来的。

1.1 数字地球

数字地球理念于1998年被提出。1999年,第一届国际数字地球会议通过了“数字地球北京宣言”[2],自此数字地球正式开启了全球发展。我国是开展数字地球研究较早的国家之一。由我国科学家发起且总部设在中国的国际数字地球学会已成为国际上该领域最重要的学术组织,创刊的《国际数字地球学报》(International Journal of Digital Earth)被SCI收录,是国际上该领域唯一的学术期刊[3]

数字地球是把有关地球的海量的、多分辨率的、三维的、动态的数据按地理位置集成起来的虚拟地球,是地球科学、空间科学、信息科学的高度综合[4]。数字地球的发展是一场意义深远的科技革命,是地球科学研究的一场纵深变革。

在20多年的发展历程中,数字地球面临着地球大数据管理、数字地球平台构建、数字地球基础研究扩展、数字地球生态系统建设、社会复杂性应对、数字地球教育开展等方面的严峻挑战。然而,随着当前大数据与云计算、人工智能、区块链与物联网等新技术的兴起及持续发展,数字地球研究在服务、应用和科学研究范式等方面面临新的发展机遇,同时也面临着新的挑战。

在地球大数据背景下,全球数字地球领域的首部国际学术著作——《数字地球手册》(Manual of Digital Earth)完成,并由斯普林格(Springer)出版社以开放获取的方式在线出版,分析了数字地球技术,梳理了数字地球多领域应用,介绍了数字地球区域及国家的发展,以及探讨了数字地球教育与伦理[5]。该书是具有前瞻性的专业性很强的学术著作,推动了数字地球在全球的积极发展,亦为我国的数字中国战略做出了学术贡献。

1.2 科学大数据

随着智能技术和网络技术的深入发展,半结构化、非结构化数据的大量涌现,数据的产生已不受时间和空间的限制,引发了数据爆发式增长,数据类型繁多且复杂,已经超越了传统数据管理系统和处理模式的能力范围,人类开启了大数据时代的征程[6]

2013年9月,科学大数据概念被提出,并以“科学大数据与数字地球”为题发表于《科学通报》。该文提出,科学大数据与互联网大数据、商业大数据等存在本质属性和特点上的区别,具有自己独特的科学内涵和特点[7]

科学大数据作为大数据的一个分支,正在成为科学发现的新型驱动力,带来了科学发现的新范式——数据密集型科研范式。首先,科研对象发生了变化。人们事实上并不用望远镜来看东西了,取而代之的是通过把数据传递到数据中心的大规模复杂仪器上来“看”。其次,科学发现的工具发生了变化。“数里淘金”是大数据时代科学工作者最重要的工作,数据挖掘成了科学发现的主要工具。再次,科学数据与知识产品发生了变化,出现了全数据模式和数据规律。科学大数据追求的不再是高精度而是海量、混杂,即“全数据模式”。最后,科学发现的分工、流程发生了变化。部分科研工作已经被社会化或自动化,许多民众在不知不觉中参与了科学数据的生产工作。

科学大数据作为少量依赖因果关系,主要依靠相关性发现新知识的新模式,已成为继经验、理论和计算模式之后的数据密集型科学范式的典型代表[8]

1.3 地球大数据

地球大数据是科学大数据的重要组成部分,正成为地球科学和信息科学交叉的新兴前沿研究领域,是面向地球科学研究形成的新型数据密集型研究方法[9]

地球大数据是具有空间属性的地球科学领域大数据,尤其指基于空间技术生成的海量对地观测数据。地球大数据主要产生于大型科学实验装置、探测设备、传感器、社会经济观测及计算机模拟过程,它一方面具有海量、多源、异构、多时相、多尺度、非平稳等大数据的一般性质,另一方面具有很强的时空关联和物理关联,具有数据生成方法和来源的可控性。地球大数据是自然科学、社会科学及工程学交叉融合的产物,基于地球大数据分析来系统研究地球系统的关联和耦合,即综合应用大数据、人工智能和云计算,将地球当作一个整体进行观测和研究,理解地球自然系统与人类社会系统间复杂的交互作用和发展演进过程,可为人类命运共同体、全球可持续发展、“一带一路”建设做出重要贡献(见图1)[10]

图1 地球大数据

中国科学院充分认识到地球大数据的重要性,2018年年初设立了战略性先导科技专项(A类)“地球大数据科学工程”(“地球大数据科学工程”先导专项),系统开展地球大数据研究,旨在促进和加速从单纯的地球数据系统和数据共享到数字地球数据集成系统的转变,促进全球范围内的数据、知识和经验共享,为科学研究、决策支持、知识传播提供支撑[11]

2 地球大数据科学

2.1 地球大数据科学概述

科学研究的进步,更多的是依赖观测或测量数据的驱动。利用这些数据,同时借助于计算科学的强大推力,科学研究才得以蓬勃发展。地球科学研究亦是如此。建立数字地球科学平台,用于管理、处理和分析对地观测数据,并综合使用大数据、人工智能、云计算等先进科技手段,对包括自然世界、物理世界及数据世界在内的地球整体进行观测与测试,即为地球大数据科学[10]

地球大数据科学是一门依赖数据驱动的科学,因此也可以视其为数据科学的子领域。地球大数据科学对于研究地球大数据生态系统的设计和架构,以及它在当今社会的数字化转型和全球可持续发展领域中的应用,具有重要意义。地球大数据科学必须建立一种基于自然科学、社会科学,以及大数据和人工智能等工程科学的集成方法。为了产生可操作和可信赖的知识,需要开展地球大数据平台生态系统研究,建立为理解地球宏观现象而设计的可操作的、程序化的有机体。

2.2 地球大数据科学的研究目标

地球大数据科学包括用来研究地球大数据分析生态系统的方法和技术活动。作为一个有机体,它支持从与地球相关的数据中系统地发现信息。如图2所示,地球大数据科学价值链框架将大数据、认知、服务相连通,通过开发和部署各种方法和技术,实现在一个有效的分析环境中收集、存储、检索和访问不同自然领域和社会领域中的数据,在提供决策支持的同时,也可提供个性化服务,使不同社区均可访问,也确保数据和信息的民主化。

图2 地球大数据科学价值链框架[10]

地球大数据科学的重要目标是对数据转化为信息的过程进行科学理解、建模与应用,并提供实现全球可持续发展所需的知识。地球大数据科学研究对解决重大社会问题至关重要[12]

2.3 地球大数据科学的技术体系

地球大数据科学旨在利用各种工具和算法,从多源、海量、复杂的地球大数据中获取知识,发展相关理论来解释社会-物理系统的运行及演变机制,以确保建立一个对保护地球至关重要的可持续发展人类社会。

地球大数据科学的主要技术体系包括:①数据泛在感知;②数据可信共享;③多元数据融合;④数字孪生及复杂模拟;⑤空间地球智能认知[10]

(1)数据泛在感知即充分利用全空间体系的数据感知与采集设施,基于统一的数据资源体系框架,实现泛在数据的高效感知与集成,并能够为数据融合、关联分析、空间统计等提供即时可用数据源。

(2)数据可信共享即通过分布式记账账本,精确记录地球空间数据在整个生命周期中经历的全部处理流程及其精度水平,保证数据可溯源、决策可信、隐私数据可保护性使用。

(3)多元数据融合是指为了充分挖掘多元数据的关联关系及其价值,通过多层次、多角度、多尺度的数据关联、转换、过滤、集成等,实现价值提升,进而为决策制定提供知识。

(4)数字孪生及复杂模拟是指采用非线性、高维度的复杂系统模拟地理、人文、社会、经济等多要素约束下的地球系统演变、发展规律,并根据多重反馈源数据进行自我学习,几乎实时地在数字世界里呈现物理实体的真实状况。

(5)空间地球智能认知是在要素提取、识别、分类等机器视觉的基本功能完成的基础上,辅以人工智能、机器学习和软件分析,使得模拟系统能够像人一样认知、理解地球系统的复杂现象和过程。

3 地球大数据支撑可持续发展目标应用研究

2015年,联合国通过17项可持续发展目标(SDGs),涵盖经济、社会、环境三大领域,其为各国全面转向可持续发展指明了方向[13]。然而,数据缺失、发展不均衡、目标间关联且相互制约等问题对SDGs实现造成了制约[14],2020年新冠病毒感染疫情的暴发更加大了各国实现SDGs的难度。

科学技术在推动实现SDGs上的重要作用已成为国际共识。《2019年全球可持续发展报告》进一步强调了科学技术是推动可持续性转型和全球发展变革的重要力量[15]。作为科技创新的重要方面,地球大数据在支撑SDGs实现中具有重要作用。为此,“地球大数据科学工程”先导专项以技术促进机制为导向,结合地球大数据的优势和特点,深入开展了地球大数据服务SDG2(零饥饿)、SDG6(清洁饮水和卫生设施)、SDG11 (可持续城市和社区)、SDG13(气候行动)、SDG14(水下生物)和SDG15(陆地生物)及SDG多指标交叉的研究工作,为实现全球跨领域、跨学科协作提供了一种解决方案,是技术促进机制支撑SDGs实现的一项创新性实践[16]

4年来,“地球大数据科学工程”先导专项针对24个具体目标汇集了64个典型案例,展示了国家、典型地区、区域和全球4个尺度在数据、方法模型和决策支持方面对相关SDGs及其指标进行的研究和监测评估成果,包括53套数据产品、33个方法模型、42个决策支持。基于已有的研究成果,针对6个可持续发展目标中的20个指标,开展了2010—2020年的中国可持续发展目标进程评估(见表1)[17]

表1 基于地球大数据的中国可持续发展目标进展评估(2010—2020年)

目前,评估的20个指标中,中国有4个指标整体已接近或达到要求,包括SDG 2.2.1 5岁以下儿童生长迟缓比例,SDG 11.2.1可便利使用公共交通的人口比例,SDG 15.3.1已退化土地占土地总面积的比例以及SDG 15.4.2山区绿化覆盖指数。然而,SDG 6.4.1用水效率和SDG 15.5.1红色名录指数,虽然近年有所改善,但仍面临较大挑战,未来需要重点关注并加大节约用水和野生动植物保护力度。结果显示,2010—2015年有2个指标变差,正在改善的有11个;2015—2020年无变差指标,正在改善的有16个。总之,中国正朝着2030年实现可持续发展迈进,尤其是2015年之后,改善幅度较大。下面重点介绍已接近或者达到目标要求的4个案例。

3.1 中国5岁以下儿童生长迟缓变化

中国历来高度重视儿童健康。儿童营养状况的改善既是SDGs的关注重点,也是推进健康中国建设的重要组成部分。近年来,中国儿童营养改善政策与项目的持续推进和落地使中国5岁以下儿童的营养状况得到极大的改善。2002—2017年,中国5岁以下儿童生长迟缓率从18.8%下降至4.8%(已达到SDG 2.2对应目标),其中,城市从7.8%下降至3.4%,农村从25.6%下降至5.8%,城乡差距大幅缩小[1]。中国政府实施的儿童营养改善工作成果突出,中国5岁以下儿童营养状况改善效果显著,城乡差距明显缩小(见图3)。

图3 2002年和2017年中国各省5岁以下儿童生长迟缓率分布

3.2 中国可便利使用公共交通的人口比例

城市公共交通是城市交通不可缺少的部分,是保证城市生产、生活正常运转的动脉,是实现与教育、粮食安全、环境有关可持续发展目标的关键因素。中国大力实施公共交通优先发展战略,出台实施多项规划以完善城市公共交通顶层设计。2020年中国可便利使用公共交通人口整体比例为90.15%。整体指标与2018年相比上升9.59%,全国约96.90%的城市出现不同程度的增长,约3%的城市出现小幅下降(见图4)[18]

图4 中国可便利使用公共交通的人口比例及变化

3.3 中国土地退化零增长跟踪评估及其全球贡献

中国在土地退化治理方面取得了举世瞩目的成就。基于联合国防治荒漠化公约(UNCCD)的框架体系与地球大数据,开展了全球一致、空间可比的国别尺度土地退化零增长基准及进展的监测评估工作(见图5)。结果表明,中国土地退化零增长趋势持续向好,与2015年相比,2018年净恢复土地面积同比增长60.30%,土地恢复净面积约占全球的1/5,对全球土地退化零增长贡献最大[19]

图5 2015—2018年全球土地退化基准与动态空间分布[19]

3.4 全球山地绿色覆盖指数高分辨率监测

中国是山地大国,山地面积比例高达64.59%,是世界第一山地大国。中国提出和践行的“绿水青山就是金山银山”山地绿色可持续发展理念现已深入人心。基于联合国环境规划署(FAO)的国别尺度山地绿色覆盖指数估算方案和地球大数据,开展了高分辨率栅格尺度的全球山地绿色覆盖指数动态监测工作(见图6)。结果表明,2020年全球山地平均绿色覆盖指数为80.56%,中国山地绿色覆盖指数达到82.05%且与2015年基本持平[17,20]。考虑到高海拔地区环境限制,中国已基本实现山地绿色覆盖指数目标,未来需重点关注地区间差异。

图6 2020年全球山地绿色覆盖指数分布

“地球大数据科学工程”先导专项组织撰写的《地球大数据支撑可持续发展目标报告》年度系列报告,连续3年由中国国家领导人发布。其中,《地球大数据支撑可持续发展目标报告(2019)》[21]被列为中国政府参加第74届联合国大会的4个正式文件之一和联合国可持续发展目标峰会的2个文件之一,为国际社会填补数据和方法论空白、加快落实《2030年可持续发展议程》提供了新视角、新支撑;在联合国成立75周年、《2030年可持续发展议程》通过5周年之际,《地球大数据支撑可持续发展目标报告(2020)》[22,23]由中国国家领导人在2020年9月26日减贫与南南合作高级别视频会议期间发布,为各国加强《2030年可持续发展议程》落实监测评估提供了借鉴;《地球大数据支撑可持续发展目标报告(2021)》由国家领导人在2021年可持续发展论坛发布,为国际社会落实2030年议程提供了有益借鉴。

4 可持续发展大数据国际研究中心

2021年9月6日,可持续发展大数据国际研究中心成立大会暨2021年可持续发展大数据国际论坛开幕,宣告可持续发展大数据国际研究中心(International Research Center of Big Data for Sustainable Development Goals,CBAS,以下简称中心)正式成立。这是全球首个以大数据服务联合国2030年可持续发展议程的国际科研机构[24]

中心秉承可持续发展技术促进机制,开拓地球大数据驱动的可持续发展研究新范式,建立全球可持续发展目标监测与评估体系,为联合国相关机构、成员国提供数据共享、科技支撑、决策支持,建设国际一流水准的科研机构。

中心五大任务包括研发和建设可持续发展大数据平台、开展可持续发展指标监测与评估科学研究、研制和运行可持续发展科学卫星、建设科技创新促进可持续发展智库、提供面向发展中国家的教育和培训。

目前,面向可持续发展目标实现的重大需求,在“地球大数据科学工程”先导专项的基础上,中心建设了多学科融合的可持续发展大数据云服务系统平台。该平台系统采用自主设计的新型超融合系统架构,融合了超级计算、大数据云、数据存储、高速网络四大子系统,具备每秒1000万亿次的双精度浮点超级计算能力、50PB数据存储能力、10000CPU核心云计算能力。该平台部署了自主研发的大数据管理、计算分析与可视化等核心软件,已汇聚数据量达到10PB。

该平台已系统整合基础地理、遥感、地面监测、社会统计等多种数据,贯通“大数据存储—管理—计算分析—可视化”流程,集成了百余种专用数据分析与人工智能算法工具,通过统一服务的中英文双语门户系统,为SDGs相关研究与决策提供数据产品按需生产、指标在线计算、交互式分析与决策支持、SDGs专用数据存储库等核心功能。科研人员只需通过一台个人计算机连上互联网,就可以实现TB量级数据交互式在线分析,按需生产所需的数据产品,以及各类指标在线计算和可视化展示。

同时,创建了面向SDGs应用的集成服务环境,实现了可持续发展科学卫星1号(SDGSAT-1)运控处理、数据共享服务管理以及SDGs指标协同分析功能,建成了世界先进的SDGs决策支持和综合分析可视化模拟平台。截至2021年9月,累计用户已超过37万(独立IP),遍及全球174个国家和地区,共享系统访问量超过6000万次,为可持续发展目标研究工作提供超过13TB的数据支撑保障。

5 建议和总结

如何利用好地球大数据,推动地球系统科学的进步,准确理解、预测复杂的可持续发展科学问题,还需要不断深入开展工作。

5.1 加强地球大数据处理基础设施建设

面向地球大数据特点,以及SDGs应用的典型需求,未来的地球大数据处理基础设施需进一步凝练和抽象典型负载和应用模式,基于基准测试的结果,开展更具针对性的系统设计和建设。以数据透明访问和高效流转为中心,实现高性能计算、高吞吐计算、智能计算和云计算等融合服务和资源按需调度,达到兼顾性能、容量、灵活性的软硬一体的融合架构。

基于高速的网络基础设施,汇集计算和存储资源,面向SDG海量数据提供安全可靠的数据存储管理服务。支持统一的标准数据接口及完善的权限管理机制,基于动态的资源供给和应用特征适配,精准满足不同规模、不同模式的计算分析需求。基础平台要实现单一系统镜像和单一服务入口,为全球可持续发展研究组织、学者提供一站式的集成化数据检索、在线分析、远程可视化及决策支持服务。

5.2 提升地球大数据分析及开放应用能力

地球大数据分析范式、算法和模型,是地球大数据应用的基础和核心。下一步需不断完善地球大数据分析范式,搭建地球大数据分析框架,实现云计算、机器学习算法、深度学习算法、数理统计方法、空间分析方法与地球大数据深度融合,开展从地球大数据基础分析到应用分析建模及模型优化的深入研究,推动地球大数据向信息和知识转化。

地球大数据方法论的建立、大数据的应用需要多学科交叉、协同分析的生态系统。未来需要基于云计算基础设施,研发智能分析算法、完善地球大数据发展政策和共享机制,以全球可持续发展指标评估等需求为牵引,构建地球大数据示范应用,推动地球大数据的科学应用,打造地球大数据获取、加工、分析、应用的相关方法和算法开源的生态系统。

5.3 推动地球大数据数据共享及知识服务

进一步加强从工程的角度理解地球大数据,以“数据—知识—服务”为主线,从地球大数据的全生命周期出发来开展数据工程建设,以提升地球大数据的治理水平。特别是过去几十年,发达国家的数据产品在支撑国际重要报告甚至重大决策中占主导地位,我国下一步应尽快通过工程化支撑,加快研发高质量的地球大数据全球公共产品,为2030年可持续发展议程,以及碳中和、碳达峰进程评估等提供中国数据方案。

同时,应进一步强化科技创新,发展地球大数据数据共享服务模式,促进学科交叉融合应用和知识发现。例如,加快将人工智能等先进技术赋能地球大数据,打造集数据、计算、服务于一体的数据共享新模式。这种模式共享的不仅仅是数据,也是算法、模型和服务,从而实现多学科数据关联分析和融合应用,驱动重大科学发现与决策支持。