中山大学3D团队取得大语言模型+三维点云理解城市可持续发展新进展

发布人:许粤

一、研究背景

       随着人工智能技术的蓬勃发展,大型语言模型在理解力和创造力方面的潜力日益显现。然而,作为语言模型本身,其强大的理解能力只能通过文本序列来体现。目前,虽然可以通过三维点云和大型语言模型的连接生成视频,但目前还没有通过属性计算结果直接与一维互动的提示工作。点云数据蕴含着丰富的信息,可以为城市建设的各种任务提供支持。对于场景级的点云数据,已经有很多关于语义分割、目标检测等任务的研究。然而,通常很难从感知结果中为场景构建与生态建设提供直接帮助。

二、论文介绍

       针对上述问题,本文提出了一种结合三维点云语义分割结果,将大语言模型应用于城市生态建设的方法,其目的是将大型语言模型(LLMs)在城市发展中的先验知识和创造能力与点云语义分割结果相结合。这种整合旨在建立一个交互式点云智能分析系统,为城市生态文明建设的决策过程提供帮助。首先利用大语言模型理解三维点云语义分割的初步结果,并对数据进行分析。其次,将相关的特征分布信息和地理位置信息处理成文字提示信号,作为提示输入到大型语言模型中。最后,基于数据信息和空间地理信息,结合其自身的数据库,大语言模型就能准确计算出该区域的环境指数,并对该区域潜在的生态风险进行评估,给出一份详细的城市生态建设报告。该方案打破了语言模型在高维信息上的应用局限,更好地利用了语言模型的智能性和思维链特点,通过提示工程获得准确的环境知识和详细的生态报告。

 

Chat3D的整体流程

 

       通过以中山大学珠海校区作为实验地点,本方法能够准确理解校园内的生态结构,并且为校园可持续发展提出了建设性意见,评估了实验区域的潜在生态风险。同时,该方法根据输入的数据和文本提示计算得到的实验区域环境指数与珠海市生态环境局官方发布的数据基本一致,体现了该方法强大的理解能力和计算性能。

 

不同等级提示下的生态报告对比

 

       该研究着眼于大语言模型和可持续发展结合这一科学问题,提出了高效高精度的解决方案,为后续智慧城市建设、城市可持续发展提供了良好的基础和参考。

     研究成果以《Chat3D: Interactive Understanding 3D Scene-Level Point Clouds by Chatting with Foundation Model for Urban Ecological Construction》为题于2024年4月22日被《ISPRS Journal of Photogrammetry and Remote Sensing》期刊接收,该研究得到了国家自然科学基金(No. 42371343)的支持。