人工智能 · ChatGPT 加入语音和图像交互，进入“多模态”新纪元_学术资讯_万维学术！

服务教育科研，促进学术发展! 老站:万维书刊网
登录注册专门发布期刊官方征稿信息

	—— 要投稿，上万维，轻松学术交流	严正声明本站非期刊官网，非中介代理，不向作者收取任何费用！举报微信：13140028228 冯老师
态度公正、信息求实、投稿自助、使用免费

您的位置：学术资讯 » 正文

人工智能 · ChatGPT 加入语音和图像交互，进入“多模态”新纪元

阅读： 2023/9/27 10:20:44

当地时间 9 月 25 日，OpenAI 宣布对 ChatGPT 进行重大更新，使基于 GPT-3.5 和 GPT-4 的 AI 模型能够具备图像和语音交互功能。这意味着，ChatGPT 能够看图、听声音和说话了。
OpenAI 表示，在图像交互方面，更新后的 ChatGPT 能够通过识别冰箱储藏室的照片来提出晚餐吃什么的建议，也可以根据一张自行车图像指导用户如何调整座椅高度；在语音交互方面，ChatGPT 将能够利用语音合成功能与用户进行对话，用户还可以根据自己的喜好选择不同的声音类型。尽管 OpenAI 尚未发布关于这种多模态功能的技术细节，但有业内人士推测，由于多模态 AI 模型通常会将文本和图像转换为共享编码空间，这将使他们能够通过同一个神经网络处理各种类型的数据，例如使用 CLIP 来弥合视觉和文本数据之间的差异，来在同一潜在空间内将图像和文本对齐，形成一种矢量化的数据关系网络。不过，OpenAI 也指出了 ChatGPT 扩展功能仍存在限制，承认可能出现视觉幻觉（对图像的错误识别）等问题，建议用户谨慎使用，特别是在高风险或科学研究等专业环境中。（Ars Technica）
转自：“科研圈”微信公众号
如有侵权，请联系本站删除！

浏览(208)

点赞(0)

收藏(0)

上一篇：地球科学 · 2.5 亿年后地球 7 大洲或将合并成一块超级大陆，90% 以上区域令哺乳动物无法存活

下一篇：能源科学 · 新技术可利用海水-淡水的盐差能源发电

期刊动态更多

最新点评

期刊分类

哲学政法社会科学经济财政教科文艺基础科学医卫综合医卫科学农业科学工业科技1 工业科技2 停刊期刊