一图胜千言,再也不怕视频会议说不明白了!
最近几年,「视频会议」在工作中的占比逐渐增加,厂商也开发了各种诸如实时字幕等技术以方便会议中不同语言的人之间交流。
但还有一个痛点,要是对话中提到了一些对方很陌生的名词,并且很难用语言描述出来,比如食物「寿喜烧」,或是说「上周去了某个公园度假」,很难用语言给对方描述出的美景;甚至是指出「东京位于日本关东地区」,需要一张地图来展示等,如果只用语言可能会让对方越来越迷茫。
Visual Captions 系统基于一个微调后的大型语言模型,可以在开放词汇的对话中主动推荐相关的视觉元素,并已融入开源项目 ARChat 中。
在用户调研中,研究人员邀请了实验室内的 26 位参与者,与实验室外的 10 位参与者对系统进行评估,超过 80% 的用户基本都认同 Video Captions 可以在各种场景下能提供有用、有意义的视觉推荐,并可以提升交流体验。
设计思路
在开发之前,研究人员首先邀请了 10 位内部参与者,包括软件工程师、研究人员、UX 设计师、视觉艺术家、学生等技术与非技术背景的从业者,讨论对实时视觉增强服务的特定需求和期望。
两次会议后,根据现有的文本转图像系统,确立了预期原型系统的基本设计,主要包括八个维度。
D1:时序,视觉增强系统可与对话同步或异步展现
D2:主题,可用于表达和理解语音内容
D3:视觉,可使用广泛的视觉内容、视觉类型和视觉源
D4:规模,根据会议规模的不同,视觉增强效果可能有所不同
D5:空间,视频会议是在同一地点还是在远程设置中
D6:隐私,这些因素还影响视觉效果是否应该私下显示、在参与者之间共享或向所有人公开
D7:初始状态,参与者还确定了他们希望在进行对话时与系统交互的不同方式,例如,不同级别的「主动性」,即用户可以自主确定系统何时介入聊天 D8:交互,参与者设想了不同的交互方法,例如,使用语音或手势进行输入
虽然在探索性会议中的想法大多关注于一对一远程对话的形式,Video Caption 同样也可以用于一对多的和多对多场景(多人会议讨论)的部署。
除此之外,最能补充对话的视觉效果在很大程度上取决于讨论的上下文,所以需要一个专门制作的训练集。
比如用户说「我很想看看!」对应于「面部微笑」(face smiling)的视觉内容、「表情符号」(emoji)的视觉类型和「公共搜索」(public search)的视觉源。
「她有没有告诉你我们去墨西哥的事?」对应于「来自墨西哥之旅的照片」的视觉内容、「照片」的视觉类型以及「个人相册」的视觉源。
该数据集 VC 1.5K 目前已开源。
为了预测哪些视觉效果可以补充对话,研究人员使用 VC1.5K 数据集基于大型语言模型训练了一个视觉意图预测模型。
在训练阶段,每个视觉意图解析为「 lt;Visual Typegt; of lt;Visual Contentgt; from lt;Visual Sourcegt; 」的格式。
基于该格式,系统可以处理开放词汇会话和上下文预测视觉内容、视觉源和视觉类型。
研究人员使用 VC1.5K 数据集中的 1276 个样本来微调大型语言模型,其余 319 个(20%)示例作为测试数据,并使用 token 准确率指标来度量微调模型的性能,即模型正确预测的样本中 token 正确的百分比。
最终模型可以实现 97% 的训练 token 准确率和 87% 的验证 token 准确率。
实用性调研
为了评估训练的视觉字幕模型的实用性,研究团队邀请了 89 名参与者执行 846 项任务,要求对效果进行打分,1 为非常不同意、7 为非常同意(strongly agree)。
实验结果显示,大多数参与者更喜欢在对话中看到视觉效果,83% 给出了 5-有些同意(somewhat agree)以上的评价。
此外,参与者认为显示的视觉效果是有用的且信息丰富的,82% 给出了高于 5 分的评价;高质量的(Q3),82% 给出了高于 5 分的评价;并与原始语音相关(Q4,84%)。
基于该微调的视觉意图预测模型,研究人员在 ARChat 平台上开发了 Visual Captions,可以直接在视频会议平台的摄像头流上添加新的交互式小部件。
在系统工作流程中,Video Captions 可以自动捕获用户的语音、检索最后的句子、每隔 100 毫秒将数据输入到视觉意图预测模型中、检索相关视觉效果,然后提供推荐的视觉效果。
Visual Captions 在推荐视觉效果时提供三个级别的可选主动性:
自动显示:系统自主搜索并向所有会议参与者公开显示视觉效果,无需用户交互。
自动推荐:推荐的视觉效果显示在私人滚动视图中,然后用户点击一个视觉对象可以进行公开展示;在这种模式下,系统会主动推荐视觉效果,但用户决定何时显示以及显示什么。
按需建议:用户按下空格键后,系统才会推荐视觉效果。
研究人员在对照实验室研究和测试阶段部署研究(n = 10)中评估了 Visual Captions 系统,参与者发现,实时视觉效果有助于解释不熟悉的概念、解决语言歧义,并使对话更具吸引力,从而促进了现场对话。
与会者还报告了在现场进行交互中的不同的系统偏好,即在不同的会议场景中使用不同程度的 VC 主动性
参考资料: