MS正在研究以图像为线索的AI模型_综合

　　随着围绕人工智能聊天机器人的战争愈演愈烈，微软推出了一款新的人工智能模型Kosmos-1，除了文本提示或消息外，它还可以对视觉线索或图像做出反应。

　　多模态大语言模型(MLLM)可以帮助完成一系列新任务，包括图像配图、可视化问题回答等。

　　Kosmos-1可以为ChatGPT文本提示之外的下一阶段铺平道路。“语言、多模态感知、动作和世界建模的大融合是迈向人工通用智能的关键一步。在这项工作中，我们介绍了komos -1，这是一种多模态大型语言模型(MLLM)，可以感知一般模式，在上下文中学习并遵循指令，”微软人工智能研究人员在一篇论文中表示。

　　据ZDNet报道，这篇论文表明，需要多模态感知，或知识获取和现实世界中的“接地”，才能超越chatgpt之类的功能，实现人工通用智能(AGI)。

　　论文写道:“更重要的是，解锁多模态输入极大地拓宽了语言模型在更多高价值领域的应用，如多模态机器学习、文档智能和机器人技术。”

　　目标是将感知与llm对齐，以便模型能够看到和交谈。

　　实验结果表明，Kosmos-1在语言理解、生成，甚至直接输入文档图像方面都取得了令人印象深刻的性能。

　　它在感知语言任务中也表现出良好的结果，包括多模态对话、图像字幕、视觉问题回答和视觉任务，如带有描述的图像识别(通过文本指令指定分类)。

　　“我们还表明，mllm可以从跨模态迁移中受益，即将知识从语言转移到多模态，以及从多模态转移到语言。此外，我们还引入了Raven IQ测试数据集，用于诊断mllm的非语言推理能力。”

• 坂本龙一	• 在皇马红牌风波后，裘德·贝灵汉被禁赛两场并罚
• 参议员鲍勃·梅内德斯用巴西裸体击败腐败案	• 伦敦金融科技公司steadpay与俄罗斯的关系
• 卑诗省一名乘客描述闪电击中直升机后从数千英尺	• 孩提时代的利物浦球迷林德斯特伦透露了他拒绝30