这个人工智能从录音中创建街景图像

2025-04-23 14:51来源:本站

  

  德克萨斯大学奥斯汀分校(University of Texas at Austin)的研究人员利用生成式人工智能(generative artificial intelligence),将街头录制的声音转化为街景图像,令人惊讶地接近现实。

  研究人员能够以惊人的精度将音频记录中的声音转换为街景图像。他们的研究报告发表在《计算机、环境和城市系统》上,报告了使用从各种城市和农村景观收集的声音数据来训练声音到图像转换的人工智能模型。这个模型现在可以用来生成新的图像。

  他们的研究表明,声音环境包含足够的视觉线索,能够相对准确地重现环境的现实。这意味着科学家们可以将声音环境转化为这些地方的视觉表现。

  为了实现这一目标,他们从YouTube上拍摄了北美、亚洲和欧洲城市和乡村道路的视频和声音。这使得团队能够创建成对的10秒音频片段和相应位置的图像来训练他们的模型。

  然后,该模型能够通过简单的音频输入创建高分辨率图像。然后将这些图像与声音对应的实际图像进行比较,并根据绿色植物、建筑物和天空的比例进行评估。初步结果显示,真实图像和人工智能生成的图像在天空和绿色植物的比例上有相当强的相关性。

  当涉及到建筑时,结果就不那么令人印象深刻了。值得注意的是,人工智能甚至能够通过城市交通噪音或农村昆虫噪音等线索,识别出这些声音是在白天还是晚上录制的。

  这项研究的目的是研究人工智能的潜力,以捕捉赋予城市独特身份的特征,更广泛地说,研究人类如何与环境相互作用。ta charset="UTF-8" /> - AFP Relaxnews

一物网声明:未经许可,不得转载。