论文笔记 - Active Learning by Acquiring Contrastive Examples

2022-12-15,,,,

Motivation

最常用来在 Active Learning 中作为样本检索的两个指标分别是:

    基于不确定性(给模型上难度);
    基于多样性(扩大模型的推理空间)。

指标一可能会导致总是选到不提供有效信息的重复数据(例如模棱两可的、毫无价值的样本);而指标二会导致选择到的样本虽然具有多样性,但是太过于简单(你以为是选择个对于模型来说很陌生的样本,但模型说这种难度早就掌握了),不能有效增强模型能力。

Analysis

某些样本在模型特征空间中距离很近,但是模型推理的似然概率却差异很大,称为对比样本(样本距离很近,但分类的结果却不同,那么决策边界就在其中!作者认为这种样本很重要)。

在特征空间中的 Embedding 很相近,但是推理的结果差异老大了。

Algorithm

对于每个样本点,利用 KNN 选择 它的最临近的 k 个样本,计算被选择的 k 个样本的似然概率,与最开始的样本求 KL 散度后平均,作为 这个样本点的 CAL 得分,CAL 越高,证明自己越特殊(身边的邻居跟自己的分类结果都不一样)。

论文笔记 - Active Learning by Acquiring Contrastive Examples的相关教程结束。

《论文笔记 - Active Learning by Acquiring Contrastive Examples.doc》

下载本文的Word格式文档,以方便收藏与打印。