
【CNMO 科技音书】据《中国经济网》报谈,近日,香港科技大学(广州)李昊昂锻练团队在机器东谈主导航本事畛域获取了伏击破裂,告成研发出视觉 - 言语导航本事开yun体育网,为机器东谈主提供了愈加当然、智能、高效的导航与交互才略。

传统的机器东谈主导航本当事者要依赖纯视觉信息,如图像或视频,来连结周围环境并计议旅途。辩论词,在复杂多变的环境中,这种导航面容每每存在局限性,导致机器东谈主导航才略不及。为了克服这一痛楚,李昊昂锻练团队究诘出了视觉 - 言语导航本事,该本事简略整合视觉信息及言语请示,达成高效的东谈主机交互。
在处事机器东谈主的垄断中,该本事使得机器东谈主简略连结东谈主类的言语请示,如"走到客厅,把餐桌上的苹果拿给我",并通过视觉数据识别重要信息,如"客厅"、"餐桌"、"苹果"等,从而准确地完成任务。这一本事的达成,不仅拓展了机器东谈主的垄断场景,还莳植了机器东谈主的使命成果和安全性。
此外,针对现存视觉 - 言语大模子在信息保险方面存在的问题,如对数据质地和覆按场景的敏锐性、难以连结平缓言语请示等,李昊昂锻练团队提议了面向视觉 - 言语导航垄断的大模子调优战略。通过在机器东谈主室表里导航数据上进行视觉数据抽取和言语请示标注,并对模子进行拟合,机器东谈主不错笔据索求的环境视觉特征和东谈主类言语请示来决定其导航线径。

在数据基础方面,团队还通过仿真数据合成的面容处置了现存导航覆按数据存在的问题。他们狡计了新颖的生成式扩散模子,不错合成精深、各样化、高质地的视觉数据和有关的言语形色开yun体育网,从而灵验加多覆按数据的各样性,莳植模子在处理复杂、未见场景时的鲁棒性。





