DocHero AI
DocHero AI
  • 润色
  • 翻译
  • 文献翻译永久免费
  • 文档翻译
  • 文献搜索
  • 生词本
  • Echo
  • 插件
  • 均摊会员
  • 邀友领会员NEW
  • 帮助
润色
翻译
文献翻译
文档翻译
文献搜索
生词本
Echo
插件

CapeNext: Rethinking and Refining Dynamic Support Information for Category-Agnostic Pose Estimation

Yu Zhu, Dan Zeng, Shuiwang Li et al. (6 total)

2025-11-17

ArXiv Vol. abs/2511.13102

10.48550/arxiv.2511.13102

摘要

Recent research in Category-Agnostic Pose Estimation (CAPE) has adopted fixed textual keypoint description as semantic prior for two-stage pose matching frameworks. While this paradigm enhances robustness and flexibility by disentangling the dependency of support images, our critical analysis reveals two inherent limitations of static joint embedding: (1) polysemy-induced cross-category ambiguity during the matching process(e.g., the concept "leg" exhibiting divergent visual manifestations acros...

查看文献

问题

该研究旨在探索一种新的姿态提议任务,即模型无需任何支持,直接为类别无关的对象提议关键点和链接,同时保证结构适应性和语义一致性,从而解决现有方法对标注和分类的依赖问题。

方法

本文提出了一种基于协同匹配监督的姿态细化框架,该框架联合学习来自基础类别的可迁移关键点和链接,从而为类别无关的对象提议姿态。该框架包含多个细化层,逐步获得精确的姿态。

关键发现

在大型多类别姿态数据集MP-100上的大量实验和深入分析表明,该方法是有效的。与现有方法相比,该方法在点 mAP 和链接 mAP 方面均取得了显著提升,表明了姿态细化框架和协同匹配监督的有效性。

3个要点

  • 本文提出了姿态提议任务,模型无需支持即可直接提议类别无关对象的关键点和链接。
  • 提出的姿态细化框架能够联合学习可迁移的关键点和链接,从而提议姿态。
  • 大量实验表明,该模型在各种数据集分割上具有鲁棒的性能,且优于现有基线方法。
学术详情点击展开
干预措施:姿态细化框架,包含结构感知关键点解码器和位置感知链接解码器,通过协同匹配监督进行训练。
研究设计:实验研究,在MP-100数据集上进行定量和定性评估,并进行消融研究和泛化分析。
结果指标:点 mAP (mAPp) 和 链接 mAP (mAPl)
统计方法:L1损失,二元交叉熵损失
局限性:由于篇幅限制,补充材料中介绍了更多细节、超参数和配置分析、类和图像数量的泛化分析、效率分析、局限性讨论以及更多可视化。
未来研究方向:作为一项开创性的工作,我们希望在未来的工作中探索更多的下游应用。
关键发现:该模型能够自适应地学习来自基础类别的通用关键点和链接,并且能够适当地将它们迁移到新的类别。
临床意义:姿态提议在下游任务中具有广泛的潜力,例如表示对象结构或作为高级任务的主要表示,例如人与对象的交互。所提出的姿势在图像之间保持一致性,这类似于稀疏光流,可以促进活动理解或行为分析等高级任务。
生成于 3/27/2026