返回事件流

语义动态锚点:连接共同语言手势中的动作与语义

研究论文提出,目前在共同语言手势的合成与理解任务中,要建立口语文字与手势动作之间的共通表征是一大挑战,尤其对于那些传达意图超越单纯动作本身的语义性手势。传统方法直接对文字与连续动作嵌入进行对比对齐,常过分侧重底层运动学,而忽略了手势的符号性内容。为此,研究者提出了「语义动态锚点」方法,其核心是将三维手势离散化为身体与手部的基本动作单元,并将其口语化为结构化的自然语言描述。这些描述不仅捕捉物理形式,也涵盖了传达意图,随后与原始口语文字内容进行关联,提供辅助性的对比监督信号。在BEAT2数据集上的实验显示,该方法在文字到手势的检索任务中,R@1指标比直接对齐基线提升了8.2%,并在双向检索中超越了先前的方法。更重要的是,语义动态锚点的监督能帮助检索到与口语查询在语义上真正相关、而非仅符合通用动作模式的手势。一项下游的检索增强手势生成研究也表明,用户显著偏好由本方法检索到的手势,证明了语义层面的精确检索能转化为在生成任务中更能传达沟通意图的手势。

來源

來源:Hugging Face / 論文來源