论文精读-SegAgent¶

论文链接：

Formulation¶

定义一个MDP \(\left(\textit{S}, \textit{A}, \textit{R}, \textit{T}, \gamma \right)\)：

状态空间: \(s_t \in \textit{S}, s_t = \left(M_t, a_{0:t-1}\right)\)，其中 \(M_t\) 表示时间步 \(t\) 的mask
动作空间: \(a_t = (\alpha_t, c_t) \in \textit{A}\)，其中 \(\alpha_t \in \{+1, -1\}\)，\(c_t \in [0, 1]^2\)，表示在特定坐标的正/负点
转移函数: \(\textit{T} : \textit{S} \times \textit{A} \rightarrow \textit{S}\)，映射为 \(M_{t+1} = F_{iter}\left(I, s_t, a_t\right)\)，其中 \(s_{t+1} = (M_{t+1}, a_{0:t})\)
奖励函数: \(\textit{R} : \textit{S} \rightarrow \mathbb{R}\)，具体为 \(R(s_t) = IoU(M_t, M_{target})\)

目标： 训练一个策略 \(\pi_{\theta} \left(a_t | s_t, \text{Image}, \text{Prompt}\right)\) 最大化最终步奖励期望 \(R(s_T)\)（最终mask质量），因此忽略 \(\gamma\)。

进一步地，在mask refinement这样的场景我们常常不知道之前的points，因此策略进一步简化成 \(\pi_{\theta} \left(a_t | M_t, I, P\right)\)。

为了使用StaR优化算法，我们需要一系列标注的轨迹。

现有数据： referring segmentation数据集 \(D_{seg} = \{(I, M_{target}, P) \}\)

目标数据： 标注轨迹数据集 \(D_{traj} = \{(I, M_{target}, P, [s_0, a_0, \cdots, s_T, a_T])\}\)

算法如下，简单来说就是在FN和FP region的中间分别点positive point和negative point，这个函数称为 \(F_{sim}\)。

三个原则：

这个算法和原来的StaR算法有两个区别（修改基于assuming \(F_{sim}\) 相对较优）：

原来的算法通过overall correctness filter轨迹，而这个算法在filter环节采取：保留增加reward的action，对于减少reward的action，换成 \(F_{sim}\) 对应的action
每次训练模型使用的数据是当前优化的数据和最初的数据的并，而非单纯是更新的数据

Inference环节使用PRM，这个PRM就是大模型，在输出坐标之外，还让他输出当前的mIOU，每一步K个candidate action里面贪心选择最佳的，迭代T步。

作者认为RefCOCO系列质量不高（GT mask质量不高/expression简单/不要多步标注/场景简单），因此重新从已有数据集里收集了High-quality RES数据集，并证明这个HRES更适合这个setting。

实验结果：

注意： 采用了哪些数据生成轨迹等训练细节没有说。

如果要做video版本的：

这个image的SegAgent事实上可复现性是比较差的，最关键的data generation和train的细节很多遗漏
难以将整个流程完全复制过来：
引入时间维度，\(F_{sim}\) 难以设计
MLLM窗口问题，MLLM spatial-temporal grounding的能力够不够输出(x, y, t)的坐标（这个可以优化，比如用frame tokens的last hidden states投影一个分布softmax到t，或者引入special tokens）
这个做法很大的缺点是不可撤销，人类标注的经验来说，video上不让我撤销是比较难标的