新闻首页 / “2024年05月27日”的新闻
0
0
港大字节提出多模态大模型新范式,模拟人类先感知后认知
允中发自凹非寺 量子位公众号 QbitAI 当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态大模