Skip to main content

词汇记录 (Vocab)

SGG

  • long-tail problem 在实际的视觉相关问题中,数据都存在长尾分布:少量类别占据绝大多数样本,大量的类别仅有少量的样本,比如 open-images,ImageNet 等。Long-Tail(长尾)问题的解决方案
  • head/tail categories 指的是数据的分布,head 表示数量较多的那一堆类别,tail 表示数量较少的那一堆类别。
  • bias 指的是某种偏差,有偏差的 sth。e.g. biased prediction, biased distribution

Classification

  • intra-class 类别内的特征之间的区别,以人脸举例,同一个人不同状态下脸的特征之间的差异
  • inter-class 类别间的特征之间的区别,以人脸举例,不同人的人脸特征之间的差异
对于人脸识别任务来说,肯定是希望inter-class很大,intra-class很小,这样我们的模型才能更好的识别不同的类
  • logits 表示的是神经网络最后一层输出的内容,一般是全连接层的输出。一般也会将 logits 用于 softmax 得到最后的概率。

Unsupervied Learning

  • hypothesis space
  • Zeroshot Learning 详情请见 [[2022-11-09-21-47-11-Zero_Shot_Learning]]
  • Emergent zero-shot 与 zero-shot 的区别在于方法的训练方式。像 CLIP [59]、AudioCLIP [26]等方法是通过模态配对(图像,文本)和(音频,文本)进行训练,以展示使用文本提示进行同一模态的零样本分类。相反,IMAGEBIND仅使用图像配对数据将模态绑定在一起。因此,仅通过在(图像,文本)和(图像,音频)上进行训练,IMAGEBIND可以使用文本提示进行音频的零样本分类。由于我们并没有直接训练这种能力,我们将其称为Emergent zero-shot分类,以区别于那些针对所有模态特定训练的方法,这些方法使用了配对的文本监督。
  • Inductive Learning
    1. 根据已有的数据归纳出已有数据共通的模式,应用新的数据或任务(从特定场景到一般场景)。训练模型过程中只有训练集对模型可见,测试集对模型不可见,目的是使得模型具有通用性和泛化性。
    2. 在一个域上学习,模型可以根据训练集学习到的 pattern 应对未知的数据。(特定场景 --> 一般场景)
    3. 只管 training set,只关注于应对 test data
    4. 复用性较好,新数据不需要重新训练
    5. 计算量小,但效果不确定
    6. 对应 Meta Learning 要求从诸多给定的任务和数据中学习通用的模式,迁移到未知的任务和数据上。
  • Transdutive Learning
    1. 当前学习的知识能够直接应用到新的数据或任务(从特定场景到特定场景)。训练模型过程中训练集(带标签)和测试集(不带标签)都对模型可见,除测试集标签以外的所有信息都对模型可见,所以可以利用额外的信息给模型带来增益。
    2. 在同一个域上学习,一个模型只能应对同一个域上学习的数据。(特定场景 --> 特定场景)
    3. 不管 test set,只关注于应对 unseen data
    4. 复用性较差,新数据加入需要重新训练
    5. 计算量较大,但效果好
    6. 对应 Domain Adaptation 给定训练的数据包含了目标域数据,要求训练一个对目标域数据有最小误差的模型。
  • out-of-distribution 预测训练数据以外的数据,叫做 OOD 数据。将训练好的模型部署应用的时候,尝试 预测当前画面上没出现过的东西,叫做 OOD 检测。
  • Imbalanced Learning 一种应对 Long-tailed 问题的学习任务,以保持少数类别的多样性和平衡预测。
  • Few-shot
    • Meta-Learning
      1. metric-based
      2. optimization-based
  • Agnostic 指某样事物是不可见的,不是针对特定的某个事物。(与 specific 是反义词) e.g. 第一个阶段不涉及任何下游任务,就是拿着一堆无标签的数据去预训练,没有特定的任务,这个话用官方语言表达叫做:in a task-agnostic way。第二个阶段涉及下游任务,就是拿着一堆带标签的数据去在下游任务上 Fine-tune,这个话用官方语言表达叫做:in a task-specific way

Domain Adaptation

  • Label 所谓的 label 就是我们在进行网络训练时候的监督信息,比如在分类任务中就是一个个 one-hot 编码。
  • Soft Label 比如相比人来说,猫和狗的共同之处还是蛮多的,也就是在预测一张“狗图”的时候,可能会产生“0.09-0.9-0.01”这个结果的,这个“0.09-0.9”与“0.9-0.01”其实是不同的,这说明“猫狗”之间的近似度可能是远大于“狗人”的。这个“0.09-0.9-0.01”其实就包含了一定的类别关系,故这种表示形式就是软标签(soft label)。
  • Hard Label 比如猫狗人三分类任务中,我们可以用 “001” 表示猫,“010” 表示狗,“100” 表示人。当然了,这种 one-hot 标签显然就是硬标签(hard label),因为它无法反映类别之间的关系。
  • [[2022-11-28-22-01-99-Domain_Adaptation]]

Multi-Modal

  • Grounding
    1. 将语言和视觉两种模态进行对齐和融合,使得模型能够理解语言中指定的目标物体,并将其定位在图像中。(不同模态的结合)
    2. 利用大量的图像-文本对数据来学习视觉表示,而不需要额外的对象类别标注。这使得模型能够覆盖更多的视觉概念,并提高了模型在不同任务和领域上的迁移能力。在视觉任务中利用 text/phrase 等信息作为特征一起使用。
    3. 可以理解为将 image 中的 region 对应到地面上的 phrase。
    4. 将对应 text 的描述从 image 上进行匹配(UniIVAL)
  • Grounding Task 可以理解为将本来单模态的任务转换成多个模态融合的任务。
  • Visual Grounding 根据指令检测符合 text 描述的 image 上的物体。也就是按照 text 的要求匹配 image 上的物体。

Others

  • Online Learning 训练过程中一次只能看到一部分数据,根据当前状态动态调整,数据以流式的方式进行更新。(类似于边训练边更新训练数据) 第一次输入是数据 A,第二次输入是数据 B,....
  • Offline Learning 一次看到所有的数据,先学习所有情况再根据情况做判断。(直接训练)
  • Consistency Check 一致性检查是为确定数据是否存在任何内部冲突而执行的测试。更具体地说,为数据编写的规则是否有矛盾的陈述。
  • Proxy Task 代理任务,指将预训练好的模型用在其他的下游任务,用来反映模型的性能。

未归类

  • 自回归(auto-regressive) 第 ii 个位置的预测结果是根据前 i1i-1 特征或者预测结果来决定的。
  • Inductive Bias 归纳(Induction)指的是我们从例子中发现共性的能力,而 Bias 即偏差,两个词连在一起就是我们总结某一类事物的时候,出现了偏差,不能反映事物的真实全貌。普遍存在的刻板印象就是归纳偏差的一个最好现实例子。 ![[Pasted image 20230922170036.png]]
    • 我们原来认识的太少了,并不是真正的了解真实的世界(数据和真实分布不同导致的偏差,或者说数据量太少);
    • 我们原来归纳的方式是有问题的,可能用了不适合的特征和思路来判断这个世界(模型结构本身的偏差)。
    • 模型学习到的数据分布只是局部的,和真实的数据分布仍然有差距,这种偏差叫做 Inductive Bias。
    • 如何理解Inductive bias? - 知乎 (zhihu.com)