DocHero AI - 专业免费润色翻译工具，助您快速准确翻译英文学术论文 | DocHero AI - 专业免费AI润色翻译工具，助您快速准确翻译英文学术论文

CapeNext: Rethinking and Refining Dynamic Support Information for Category-Agnostic Pose Estimation

Yu Zhu, Dan Zeng, Shuiwang Li et al. (6 total)

2025-11-17

ArXiv Vol. abs/2511.13102

10.48550/arxiv.2511.13102

摘要

Recent research in Category-Agnostic Pose Estimation (CAPE) has adopted fixed textual keypoint description as semantic prior for two-stage pose matching frameworks. While this paradigm enhances robustness and flexibility by disentangling the dependency of support images, our critical analysis reveals two inherent limitations of static joint embedding: (1) polysemy-induced cross-category ambiguity during the matching process(e.g., the concept "leg" exhibiting divergent visual manifestations acros...

查看文献

问题

该研究旨在探索一种新的姿态提议任务，即模型无需任何支持，直接为类别无关的对象提议关键点和链接，同时保证结构适应性和语义一致性，从而解决现有方法对标注和分类的依赖问题。

方法

本文提出了一种基于协同匹配监督的姿态细化框架，该框架联合学习来自基础类别的可迁移关键点和链接，从而为类别无关的对象提议姿态。该框架包含多个细化层，逐步获得精确的姿态。

关键发现

在大型多类别姿态数据集MP-100上的大量实验和深入分析表明，该方法是有效的。与现有方法相比，该方法在点 mAP 和链接 mAP 方面均取得了显著提升，表明了姿态细化框架和协同匹配监督的有效性。

3个要点

本文提出了姿态提议任务，模型无需支持即可直接提议类别无关对象的关键点和链接。
提出的姿态细化框架能够联合学习可迁移的关键点和链接，从而提议姿态。
大量实验表明，该模型在各种数据集分割上具有鲁棒的性能，且优于现有基线方法。

学术详情点击展开

干预措施:姿态细化框架，包含结构感知关键点解码器和位置感知链接解码器，通过协同匹配监督进行训练。

研究设计:实验研究，在MP-100数据集上进行定量和定性评估，并进行消融研究和泛化分析。

结果指标:点 mAP (mAPp) 和链接 mAP (mAPl)

统计方法:L1损失，二元交叉熵损失

局限性:由于篇幅限制，补充材料中介绍了更多细节、超参数和配置分析、类和图像数量的泛化分析、效率分析、局限性讨论以及更多可视化。

未来研究方向:作为一项开创性的工作，我们希望在未来的工作中探索更多的下游应用。

关键发现:该模型能够自适应地学习来自基础类别的通用关键点和链接，并且能够适当地将它们迁移到新的类别。

临床意义:姿态提议在下游任务中具有广泛的潜力，例如表示对象结构或作为高级任务的主要表示，例如人与对象的交互。所提出的姿势在图像之间保持一致性，这类似于稀疏光流，可以促进活动理解或行为分析等高级任务。

生成于 3/27/2026