
这是您可以“思考”的客观检测模型!这个想法提出了Rex-Pender:基于思想链的参考对象检测模型,具有精确 +可解释性的双重提前
传说:在雷克斯·菲纳(Rex-Phinker)在日常生活中的思维过程中,我们经常通过语言描述找到某些对象:“使用蓝色衬衫的人”和“桌子左侧的杯子”。 AI如何准确理解这种方向和位置目标一直是计算机视觉中的核心挑战。现有方法通常存在两个主要问题的问题:不透明决策 - 制作过程(“黑匣子”预测)和识别较差的能力(不存在的对象的输出错误结果)。图1:最近示例用于参考检测的示例,该想法提出了一个新解决方案,请参考。 Rex-Inkinkerhe在视觉参考任务中首次引入了人类思想的“逻辑推理链”,从而使AI变薄K并在人类等阶段验证证据。享有声望的评论不仅显着提高了精度,而且还表现出强大的“知道您知道的知识”的能力!项目主页:https://rexthinker.github.io/online演示:https://huggingface.co/spaces/mountchicken/rex-thinkerdemo纪录片地址:https://arxiv.org.org/arxiv.org/abs/2506.0406.04034contributor:qing jiange jian jian jian jian jian brekeft brekefthekouch? IA训练直接在“ 13个步骤”上直接生成传统模型以直接生成对象检测框架,创新是指构造可解释的推理框架。候选目标(作为“人1”或“人2”),分析的每个步骤都结合到图的特定区域(如“人1”和“人2”)3。摘要结果摘要验证,“退出或宣言坐标”和“旋转坐标”和“梅尔奇目标”与坐标或坐标或输出目标坐标。图3显示了Rex prepator模型的结构。 rex-theinker是基于搜索的策略模型的设计采用。也就是说,所有候选框首先通过打开的整个检测提取,然后在模型中输入候选框,并将模型用于每个候选人的每个候选框。做出推理并最终产生答案。具体而言,每个步骤均为:1。候选框生成:使用开放的词汇探测器(例如陆地上的Dino)将所有先入为主的目标区域视为现金建议输入。 2。cot推理:给定候选人,模型比较了一个人的比较和原因,生成结构化的思维过程...以及最终的响应...整个过程的指示indutationInput DOR如下:图4。 3。输出格式:标准化JSON格式中的最终坐标目标。该设计不仅避免了坐标直接回归的难度,而且还允许每个推论步骤具有图像基础,从而改善解释推理的能力和可靠性。培训过程:SFT冷启动 + GRPO后的培训。为了创造强大的推理能力并赋予人类的推理能力,关键是教他们如何逐步思考。为此,Rex-Thinker使用了两阶段的训练策略,从建造高质量的推理数据集开始。图5:HumanRef-Cot数据集构建过程1。基于现有的HumanRef数据集(集中在多个字符上)的建筑物推理数据构建第一构建,该设备将使用GPT-4O和HumanRef-Cot构建的设备自动生成90,000个链条推理示例。主要特征是一个完整的推理链:每个样本都是在“计划(性能) - 摘要(摘要)”过程中严格生成的。几种推论方案:它们涵盖了个人目标,多功能,属性组合,空间关系和互动行为的复杂解释。此数据集INT第一次对推理链的注释,并引入了两个阶段训练策略。最终,GRPO不仅提高了模型推理的准确性,而且还显着提高了针对未知类别和复杂解释的鲁棒性和反融合。意识。如下图所示,该模型还具有对以前没有看到的类别(热狗)进行推理的能力。图7。雷克斯(Rex)思考在训练后训练后将其推广到任何对象:SFT提供模型功能,而GRPO提高了模型的概括功能。在参考文献中,REX-THENINGER显示出绩效的显着改善。团队测试了三个型号版本。 rex-shinker-plain:仅转移FINAL检测结果,没有监督。 rex-phinker-cot:它将参与思想链(COT)的监督并学会思考。 Rex-phinker-grpo:基于COT,我们使用GPO增强学习来进一步优化推理质量。表1:LA TABTHE 1显示了在HumanRef参考点处的REX固定评估结果。结果表明,在参加COT监督之后,该模型超过了各种指标的基本版本,DF1指标平均为0.9分,尤其是改善“识别”性能。排斥评分增加了13.8个百分点,表明推理链的引入显着改善了模型的模型,以识别“非目标”。此外,GRPO培训还提供了CRIB形式的进一步改进,平均DF1为83.5。与单个推理途径的监视学习相比,探索组诱导的模型是通过奖励机制进行推理路线,从而显着提高了复杂场景中判断的鲁棒性和精度。表2除了reccocog数据集的Gene ResulteRex-chinker误差外,Rex-Thinker还显示了Refcocog数据集的交叉类别评估中出色的迁移功能。没有定向的精细调整,该模型可以准确猜测客观位置并反映出色的概括功能。通过调整Refcocog中的少量GPO,ESSE模型的性能采用了现有的主要方法,甚至可以检查新任务的新类别和方法的可扩展性。可视化的结果,然后可视化Rexymer推理过程,包括条件的验证步骤和最终决策的输出。该数字清楚地表明了该模型如何逐渐找到图像中的目标,如何确定是否满足条件并最终生成一个result或拒绝预测。这些可视化不仅反映了良好的能力模型目标,而且还强调了推理途径的清晰度和解释性。尤其是在有多种干扰术语或没有目标的情况下,雷克斯 - 企业可以提供详细的负面推断,并证明“知道您知道的知识,但您不知道自己不知道什么”的能力。在传统的视觉模型中,这种能力极为罕见,并强调了应用程序价值中思想链的实际机制。