在国家“高效办成一件事”的决策部署,以及广东提升“数字政府”效能的新要求下,南都大数据研究院推出“数字政府提效微记录”专栏,面对企业群众政务服务需求中的盲点、困点,搭建与办事部门沟通的桥梁,针对性展开普及与疏解。同时,聚焦政务服务具体事项和服务方式,发起主题化、动态式测评与调研,挖亮点、补短板,助力标准化、规范化、便利化。

广东提出持续提升开放数据质量,构建高质量人工智能数据集。继以“开放广东”平台省本级数据集为切口,观察高质量数据开放供给之后,本期“数字政府提效微记录”栏目将观察点投向“开放广东”平台21市的数据集。

高质量的数据供给是人工智能发展的动力,加快公共数据高质量开放和企业数据流通是必要之举。梳理“开放广东”政府数据统一开放平台信息,南都大数据研究院发现,截至今年3月15日,广东21市开放数据集共97320个,占“开放广东”平台数据集总量的99.6%。但进一步观测这些数据集的质量及利用质效发现,有19个市的开放数据集存在零下载问题,其中,茂名、珠海开放数据集零下载率超过一半。

在复旦大学国际关系与公共事务学院教授、数字与移动治理实验室主任郑磊看来,“零下载量”确实反映出一定问题,底层问题就是供需对接不足,社会需要的数据可能没开放,开放的数据又不是社会所需要的。政府部门应根据社会需求来开放数据。


“开放广东”平台21市数据集数量。

“开放广东“平台上 肇庆中山开放数据相对较多

截至今年3月15日,“开放广东”平台上21市开放的数据集共97320个,平均每市开放4634个。南都大数据研究院梳理发现,“开放广东”平台上开放数据集最多的是梅州,其次为肇庆、中山,分别开放数据集有7390个、7319个以及5830个;数据集较少的是深圳、广州,数据集分别为851个、849个。

不过,广州、深圳分别拥有市级层面数据开放平台,其中,广州市公共数据开放平台数据集有2436个,深圳市政府数据开放平台数据集共4391个。在2024年全国各城市数据开放前30名中,据郑磊教授观察,深圳数据开放水平在全国各城市中处于中上游。

数据集主题方面,21市开放的数据集以“民生服务”为主,占比为38.1%,其次是经济建设、社会发展、机构团体、城市建设、卫生健康。而在可机器读取格式方面,XLSX、XLS占比均超过84%,CSV占比仅36.2%,距离《公共信息资源开放试点工作方案》提出可下载数据集可机读率不低于90%,鼓励优先采用CSV格式还存在差距。


“开放广东”平台各市数据集更新频率占比。


“开放广东”平台去年来未更新数据集各地市占比。

21市数据集更新频率 仅12个标注为“实时”

数据更新是数据开放质量的重要组成部分,数据更新不及时会导致数据过时,影响其在实际应用中的价值与效用。对于开放数据集的更新频率,国家层面明确要求“提高实时动态数据开放比重”。而“开放广东”平台上,21市数据集更新频率仅10.8%的数据集明确每年更新,标注为“每月”“每季度”“每天”“每半年”“实时”“每周”“不更新”的占比共为0.3%,只有“广州市海珠区供销合作社下属企业物业招租服务信息”“揭阳市机动车维修企业”“潮州市企业名称信息”等12个数据集明确标注更新频率为“实时”,而标注更新频率为“其它”的数据集占比高达88.9%。

梳理21市每个数据集更新或最后修改时间还发现,只有35.9%数据集在2024年或者2025年进行了修改更新。也就是说,去年以来“开放广东”平台64.1%的数据集未修改更新过,其中以梅州、肇庆、惠州的数据集居多;而深圳只有“深圳市市场监督管理局经营异常名录”“深圳市民政局深圳市特困供养月报表”等4个数据集没有更新,是21市中更新情况较好的。

此外,还有453个数据集更新最后修改更新时间停留在2023年以前,涉及清远、汕头、阳江等15市,例如“清远市连山公安局部门三公经费预算信息”“汕头市拍卖企业信息”“阳江市农业农村局绿色食品信息”等。


“开放广东”平台各市数据集零下载率(注:广州、深圳无数据集零下载)。


19市均有数据集零下载 茂名珠海零下载率最高

“开放广东”平台哪些地市开放数据集“打卡率”较高?哪些数据集受冷落?南都大数据研究院梳理发现,数据集浏览总量前三名依次为江门、佛山、东莞,排名倒数的是揭阳、广州、深圳。而单个数据集浏览量排名前十均为江门市发布的数据集,包括“江门市政务服务事项实施清单、办理项基本信息”等,单个数据集浏览量靠后的是茂名市发布的数据集,包括“茂名市茂南区金融工作局权责清单信息”等。

数据集下载总量前三名为梅州、东莞、江门,排名倒数的是河源、清远、深圳。下载量高的单个数据集为“中山市南头镇室内固定应急庇护场所信息”,下载量为285912人次。

值得一提的是,19个市存在数据集零下载问题,共有14182个数据集下载量为零,占比为14.6%。其中,零下载的数据集数量最多的是茂名,有2263个,例如“茂名市茂南区金融工作局依申请事项清单信息”等,其次是湛江、珠海、云浮。此外,茂名、珠海开放的数据集零下载率高达53.2%、51.7%,其次为湛江、云浮、阳江。只有广州、深圳的数据集没有零下载问题出现。

在下载/访问比例(下载总量/浏览总量)方面,湛江以123%排在21市之首,开放的4611个数据集下载总量为1330478人次,浏览总量为1079553人次。此外,下载/访问比例在50%以上还有潮州、梅州。而河源开放的数据集下载/访问比例只有2.7%。

郑磊教授一直带领团队深度研究政府数据开放,其对此提到,浏览量、下载量低虽然与高质量不能完全等同,但它能反映基本需求。高质量要分两类情况:一是针对行业、产业发展高质量数据集,主要走授权运营通道;二是关系普通百姓的高质量数据集,如衣食住行,教育、医疗、交通、气象等,属于公共服务类数据,只要不涉及安全和隐私,就应该走数据开放的渠道,不应过于抬高获取门槛,尽可能让企业获取和利用。


“开放广东”平台各市数据集下载/访问比例。

数据开放供需对接 不能全靠授权运营

对于开放的数据集零下载问题,郑磊教授认为底层问题就是供需对接不够,社会需要的数据可能没开放,开放的数据又不是社会所需的。在其看来,数据开放平台是供需对接的重要窗口,不能只是展示一些功能,而要有真正的供需对接服务,要畅通需求反映机制。在平台设置需求提交功能后,要有客服及时响应,并协调有关部门,能开放的要开放,不能开放的也要给予答复并给出有说服力的理由。此外,还要定期进行需求分析,对于社会有普遍需求的数据要主动开放出来,而不能靠自己拍脑袋放出一些数据。例如,数据开放度较高的杭州,后台设有专职人员,据称该人员说自己已经成为公共数据开放的“12345”,接到需求单后就去协调委办局,然后再回复用户。

郑磊教授还提到,公共数据开放和公共数据开放授权运营,应该是两种互为补充的方式,能开放的应该首先开放,不适合开放的再去授权运营,“有些数据明明可以走开放通道,却非要走授权运营的渠道,这是有问题的”。

公共数据开放的供需对接不能完全靠授权运营来解决,授权运营主要任务是对具有敏感性的数据进行开发利用。国家信息中心公共技术服务部发展规划处处长王晓冬曾撰文表达类似观点,其建议推进需求导向型开放,优先围绕数字经济发展、产业创新等现实需求,推进各部门高质量公共数据的开放,在保证数据的可机读性基础上,向社会公众开放内容更为多样、应用价值更高的数据。在社会需求反馈上,相关部门需要进一步突出数据开放的需求导向和结果导向,定期收集社会公众的使用反馈情况,根据反馈结果明确数据开放的重点领域,提高数据开放的针对性。

南都大数据研究院还注意到,目前全省多地在推进高质量数据集建设,例如广州市政务服务和数据管理局2024年12月31日发布公告面向社会各界公开征集人工智能高质量数据集建设成果,包括结构化数据、文本、视频、音频、图形图像等。据称,广州即将在本周公布首批高质量数据集,并进行高质量数据集供需对接签约;深圳提出加快打造人工智能先锋城市行动计划,明确重点培育医疗、教育、交通等高价值垂类数据集。



出品:南都大数据研究院

采写:南都记者 袁炯贤

设计:张博

技术支持:南方智媒科技公司 南方智媒云

技术研发:占华平

ad1 webp
ad2 webp
ad1 webp
ad2 webp