随着围绕人工智能聊天机器人的战争愈演愈烈,微软推出了一款新的人工智能模型Kosmos-1,除了文本提示或消息外,它还可以对视觉线索或图像做出反应。
多模态大语言模型(MLLM)可以帮助完成一系列新任务,包括图像配图、可视化问题回答等。
Kosmos-1可以为ChatGPT文本提示之外的下一阶段铺平道路。“语言、多模态感知、动作和世界建模的大融合是迈向人工通用智能的关键一步。在这项工作中,我们介绍了komos -1,这是一种多模态大型语言模型(MLLM),可以感知一般模式,在上下文中学习并遵循指令,”微软人工智能研究人员在一篇论文中表示。
据ZDNet报道,这篇论文表明,需要多模态感知,或知识获取和现实世界中的“接地”,才能超越chatgpt之类的功能,实现人工通用智能(AGI)。
论文写道:“更重要的是,解锁多模态输入极大地拓宽了语言模型在更多高价值领域的应用,如多模态机器学习、文档智能和机器人技术。”
目标是将感知与llm对齐,以便模型能够看到和交谈。
实验结果表明,Kosmos-1在语言理解、生成,甚至直接输入文档图像方面都取得了令人印象深刻的性能。
它在感知语言任务中也表现出良好的结果,包括多模态对话、图像字幕、视觉问题回答和视觉任务,如带有描述的图像识别(通过文本指令指定分类)。
“我们还表明,mllm可以从跨模态迁移中受益,即将知识从语言转移到多模态,以及从多模态转移到语言。此外,我们还引入了Raven IQ测试数据集,用于诊断mllm的非语言推理能力。”