科研动态 | 空天遥感与数智环境团队揭示众源影像数据代表性偏差在GeoAI与城市感知应用中的潜在危害
1、背景:大数据悖论
在数据爆炸的时代,我们是否过于偏信了大数据?
当人们日益依赖大数据、街景影像、社交媒体训练GeoAI、机器学习系统,并用来预测社会经济变量(健康、噪声、贫困)、进行城市感知(街道活力、城市身份)、开展智能问答与场景推理时,我们是否思考过:
用于训练模型的数据能够代表现实世界吗?
数据量越大、覆盖越广,预测就越可靠?
2021年发表于《Nature》的文章“Unrepresentative big surveys significantly overestimated US vaccine uptake”揭示了相反的悖论:带有偏差的大数据显著高估了新冠疫苗接种率,大样本数量缩小了置信区间,造成过度信心的假象[1]。
2、研究方法与设计
为了探究这个问题在地理信息人工智能(GeoAI)领域的影响,中山大学遥感科学与技术学院空天遥感与数智环境团队张翔教授以“城市身份识别”(City Identity Recognition, CIR)任务为透镜,通过系统设计控制变量实验,全面评估了众源影像的代表性(抽样)偏差如何影响GeoAI模型的可预测性和可复现性。

3、尚待验证的争议
以照片、视频来记录城市,可以借由Citizens as Sensors的社交媒体途径,也可以通过穿行式感知(drive-by sensing)的街景影像方式,两者似乎各有优劣。
📷 社交媒体照片:作为一种事件驱动(event-driven sensing)的观测方式(如微博、Instagram),被广泛的运用于城市感知任务,同时因其能够更好地捕捉社交与室内场景,被CIR视觉任务提出者认为在刻画城市风格与独特性上比街景影像(SVIs)有更大的优势,后者主要只能覆盖街道物理空间,缺乏对社交场景的捕捉。
🚗 街景影像(SVIs):作为一种车载传感形式(drive-by sensing),在大规模、精细化的城市感知中表现出强大潜力。一项PNAS研究证明:仅需少量搭载摄像设备的出租车,随机接送游客期间被动采集数据,便可在一天内扫描城市的大部分区域,甚至完成多次回访,可成为城市尺度对地观测的绝佳平台[2]。
有关两种感知方式优劣的争议长期停留在假想阶段,未被实证。
为了验证大数据悖论对GeoAI的影响,同时回应社交媒体与SVIs在城市感知中的争议,本研究以城市身份识别的视角出发,更全面地考虑:城市固有相似性、数据来源、相机拍摄视角和空间采样方案这4类众源影像代表性偏差对于预测性模型的影响。
4、主要发现与影响

🌍 国际都市 VS国内城市:
- 采用社交媒体照片进行城市身份识别(CIR)基本有效,但总体可预测性很弱;
- 同一国家内部城市的CIR性能相较于国际城市退化严重;
- 水体、绿化、交通场景的社交媒体照片的辨别能力更高。
👁️ 沿街道视角VS面向街面视角:
- 出人意料的是,研究发现沿街道拍摄 (0°/180°) 在刻画城市独特性方面显著优于面向街面建筑视角 (90°/270°) ,与预期完全相反;
- 视角带来的CIR性能提升在国内城市更显著。
📍 简单随机采样 VS 聚类采样:
- 地标引导的聚类采样显著地提升了CIR模型性能(对比简单随机采样);
- 更重要的是,不同空间采样可以作出完全不同的城市独特性排序预测。
🔁 街景影像VS社交媒体照片:
- 首次明确了街景影像在CIR上的表现远超社交媒体照片,与之前认知相反;
- 社交与室内场景——原本认为是社交媒体照片的优势,却在CIR任务中几乎无效,部分解释了用社交媒体照片训练的CIR不如街景CIR。
✨ 意义与影响(Implications)
- 系统揭示了众源影像代表性偏差对视觉GeoAI或预测性模型的危害:不经意的采样偏差可以完全颠覆预测结论,暗示模型结果的严谨解读及适用性讨论异常重要;
- 不同于 GeoAI 模型广泛存在的 ‘Weak Replicability’ [3],即A地样本训练的模型较难迁移/复现到B地,本研究揭示即便是同一地理区域内的可复现行也难以保证;
- 回应了Bradley等人关于“用数据量弥补数据质量在数学上证明不可行”的论断[1],本研究表明不考虑其他采样优化,数据量翻倍在CIR任务上并没有性能提升。
5、副产品:视觉语义表征作为新的城市意象地图?
为了探究城市众源影像的多样性,本研究通过UMAP(一种非线性降维算法)将提取到的视觉语义特征向量投影到2D语义空间,形成城市视觉语义的隐喻地图——新的城市意象。在语义空间大体上划分出了不同的子区域,其中绿色空间、水体景观区域清晰,而社交、室内和建筑场景混杂难分。视觉影像呈现语义上的连续统,即照片语义连续过渡(如绿色空间从郊外田野到城市绿地的渐变)、合理的多义混合效应(如水体区域中的水路交通、江景建筑语义)等。


该视觉语义表征除了可以探索一个城市的视觉语义多样性,也可以进行跨城市对比,从而进一步揭示城市间的相似性与独特性(如深圳与广州在社交媒体和街景上都对齐的很好,却与天津在街景语义相差较大,与伦敦相比无论社交媒体还是街景都有明显差别)。
6、发表信息
研究团队于2025年11月在地理信息科学领域一区Top期刊《Computers, Environment and Urban Systems》上发表题为“City identity recognition: how representation bias influences model predictability and replicability?”的论文。中山大学遥感科学与技术学院空天遥感与数智环境团队的张翔教授为第一作者,硕士研究生杨帆、贺宗泽,空天遥感与数智环境团队的李唯嘉副教授,武汉大学资源与环境科学学院的杨敏教授为文章的合作作者。本研究受国家重点研发计划(2022YFB3903402)和广东省基础与应用基础研究基金自然科学基金面上项目(2024A1515012083,2025A1515010400)的支持。
原文链接:
https://doi.org/10.1016/j.compenvurbsys.2025.102370
参考文献:
[1] Bradley, V. C., Kuriwaki, S., Isakov, M., Sejdinovic, D., Meng, X. L., & Flaxman, S. (2021). Unrepresentative big surveys significantly overestimated US vaccine uptake. Nature, 600(7890), 695-700.
[2] O’ Keeffe, K.P., Anjomshoaa, A., Strogatz, S.H., Santi, P. & Ratti, C. (2019). Quantifying the sensing power of vehicle fleets, Proc. Natl. Acad. Sci. U.S.A. 116(26), 12752-12757.
[3] Goodchild, M.F. & Li, W. (2020). Replication across space and time must be weak in the social and environmental sciences, Proc. Natl. Acad. Sci. U.S.A. 118 (35), e2015759118.
