词汇记录 (Vocab)
SGG
- long-tail problem 在实际的视觉相关问题中,数据都存在长尾分布:少量类别占据绝大多数样本,大量的类别仅有少量的样本,比如 open-images,ImageNet 等。Long-Tail(长尾)问题的解决方案
- head/tail categories 指的是数据的分布,head 表示数量较多的那一堆类别,tail 表示数量较少的那一堆类别。
- bias 指的是某种偏差,有偏差的 sth。e.g. biased prediction, biased distribution
Classification
- intra-class 类别内的特征之间的区别,以人脸举例,同一个人不同状态下脸的特征之间的差异
- inter-class 类别间的特征之间的区别,以人脸举例,不同人的人脸特征之间的差异
- logits 表示的是神经网络最后一层输出的内容,一般是全连接层的输出。一般也会将 logits 用于 softmax 得到最后的概率。
Unsupervied Learning
- hypothesis space
- Zeroshot Learning 详情请见 [[2022-11-09-21-47-11-Zero_Shot_Learning]]
- Emergent zero-shot 与 zero-shot 的区别在于方法的训练方式。像 CLIP [59]、AudioCLIP [26]等方法是通过模态配对(图像,文本)和(音频,文本)进行训练,以展示使用文本提示进行同一模态的零样本分类。相反,IMAGEBIND仅使用图像配对数据将模态绑定在一起。因此,仅通过在(图像,文本)和(图像,音频)上进行训练,IMAGEBIND可以使用文本提示进行音频的零样本分类。由于我们并没有直接训练这种能力,我们将其称为Emergent zero-shot分类,以区别于那些针对所有模态特定训练的方法,这些方法使用了配对的文本监督。
- Inductive Learning
- 根据已有的数据归纳出已有数据共通的模式,应用新的数据或任务(从特定场景到一般场景)。训练模型过程中只有训练集对模型可见,测试集对模型不可见,目的是使得模型具有通用性和泛化性。
- 在一个域上学习,模型可以根据训练集学习到的 pattern 应对未知的数据。(特定场景 --> 一般场景)
- 只管 training set,只关注于应对 test data
- 复用性较好,新数据不需要重新训练
- 计算量小,但效果不确定
- 对应 Meta Learning 要求从诸多给定的任务和数据中学习通用的模式,迁移到未知的任务和数据上。
- Transdutive Learning
- 当前学习的知识能够直接应用到新的数据或任务(从特定场景到特定场景)。训练模型过程中训练集(带标签)和测试集(不带标签)都对模型可见,除测试集标签以外的所有信息都对模型可见,所以可以利用额外的信息给模型带来增益。
- 在同一个域上学习,一个模型只能应对同一个域上学习的数据。(特定场景 --> 特定场景)
- 不管 test set,只关注于应对 unseen data
- 复用性较差,新数据加入需要重新训练
- 计算量较大,但效果好
- 对应 Domain Adaptation 给定训练的数据包含了目标域数据,要求训练一个对目标域数据有最小误差的模型。
- out-of-distribution 预测训练数据以外的数据,叫做 OOD 数据。将训练好的模型部署应用的时候,尝试 预测当前画面上没出现过的东西,叫做 OOD 检测。
- Imbalanced Learning 一种应对 Long-tailed 问题的学习任务,以保持少数类别的多样性和平衡预测。
- Few-shot
- Meta-Learning
- metric-based
- optimization-based
- Meta-Learning
- Agnostic 指某样事物是不可见的,不是针对特定的某个事物。(与 specific 是反义词) e.g. 第一个阶段不涉及任何下游任务,就是拿着一堆无标签的数据去预训练,没有特定的任务,这个话用官方语言表达叫做:in a task-agnostic way。第二个阶段涉及下游任务,就是拿着一堆带标签的数据去在下游任务上 Fine-tune,这个话用官方语言表达叫做:in a task-specific way。
Domain Adaptation
- Label 所谓的 label 就是我们在进行网络训练时候的监督信息,比如在分类任务中就是一个个 one-hot 编码。
- Soft Label 比如相比人来说,猫和狗的共同之处还是蛮多的,也就是在预测一张“狗图”的时候,可能会产生“0.09-0.9-0.01”这个结果的,这个“0.09-0.9”与“0.9-0.01”其实是不同的,这说明“猫狗”之间的近似度可能是远大于“狗人”的。这个“0.09-0.9-0.01”其实就包含了一定的类别关系,故这种表示形式就是软标签(soft label)。
- Hard Label 比如猫狗人三分类任务中,我们可以用 “001” 表示猫,“010” 表示狗,“100” 表示人。当然了,这种 one-hot 标签显然就是硬标签(hard label),因为它无法反映类别之间的关系。
- [[2022-11-28-22-01-99-Domain_Adaptation]]
Multi-Modal
- Grounding
- 将语言和视觉两种模态进行对齐和融合,使得模型能够理解语言中指定的目标物体,并将其定位在图像中。(不同模态的结合)
- 利用大量的图像-文本对数据来学习视觉表示,而不需要额外的对象类别标注。这使得模型能够覆盖更多的视觉概念,并提高了模型在不同任务和领域上的迁移能力。在视觉任务中利用 text/phrase 等信息作为特征一起使用。
- 可以理解为将 image 中的 region 对应到地面上的 phrase。
- 将对应 text 的描述从 image 上进行匹配(UniIVAL)
- Grounding Task 可以理解为将本来单模态的任务转换成多个模态融合的任务。
- Visual Grounding 根据指令检测符合 text 描述的 image 上的物体。也就是按照 text 的要求匹配 image 上的物体。
Others
- Online Learning 训练过程中一次只能看到一部分数据,根据当前状态动态调整,数据以流式的方式进行更新。(类似于边训练边更新训练数据) 第一次输入是数据 A,第二次输入是数据 B,....
- Offline Learning 一次看到所有的数据,先学习所有情况再根据情况做判断。(直接训练)
- Consistency Check 一致性检查是为确定数据是否存在任何内部冲突而执行的测试。更具体地说,为数据编写的规则是否有矛盾的陈述。
- Proxy Task 代理任务,指将预训练好的模型用在其他的下游任务,用来反映模型的性能。
未归类
- 自回归(auto-regressive) 第 个位置的预测结果是根据前 特征或者预测结果来决定的。
- Inductive Bias
归纳(Induction)指的是我们从例子中发现共性的能力,而 Bias 即偏差,两个词连在一起就是我们总结某一类事物的时候,出现了偏差,不能反映事物的真实全貌。普遍存在的刻板印象就是归纳偏差的一个最好现实例子。
![[Pasted image 20230922170036.png]]
- 我们原来认识的太少了,并不是真正的了解真实的世界(数据和真实分布不同导致的偏差,或者说数据量太少);
- 我们原来归纳的方式是有问题的,可能用了不适合的特征和思路来判断这个世界(模型结构本身的偏差)。
- 模型学习到的数据分布只是局部的,和真实的数据分布仍然有差距,这种偏差叫做 Inductive Bias。
- 如何理解Inductive bias? - 知乎 (zhihu.com)