Skip to main content

ML Glossary

abbr.stand forcn
DCGANDeep Convolutional Generative Adversarial Networks深度卷积生成对抗网络
GANGenerative Adversarial Networks生成对抗网络
NLGNatural Language Generation自然语言生成
NLPNatural Language Processing自然语言处理
NLUNatural Language Understanding自然语言理解
SOTAState of the Art当前最先进技术
DiTDiffusion Transformer扩散变压器
CISCComplex Instruction Set Computer复杂指令集计算机
RISCReduced Instruction Set Computer精简指令集计算机
XLAAccelerated Linear Algebra加速线性代数
HSAHeterogeneous System Architecture异构系统架构
CUDACompute Unified Device Architecture统一计算设备架构
GPGPUGeneral-purpose computing on graphics processing units通用图形处理单元计算
FLOPsFloating Point Operations per Second每秒浮点运算次数
TOPSTera Operations per Second每秒万亿次运算
TFLOPsTera Floating Point Operations per Second每秒万亿次浮点运算
NPUNeural Processing Unit神经处理单元
mAPMean Average Precision平均精度
FMAFused Multiply-Add融合乘加
MADMultiply-Add乘加
MILMultiple Instance Learning多实例学习
UAVUnmanned Aerial Vehicle无人机, 无人驾驶飞行器
LoRALow-Rank Adaptation低秩适应
FSDPFully Sharded Data Parallel完全分片数据并行
TRLTransformer Reinforcement Learning
PEFTPerformance Energy Footprint Trade-off性能能耗权衡
DINOself-DIstillation with No Labels无标签自我蒸馏
XCiTCross-Covariance Image Transformer交叉协方差图像变压器
ViTVision Transformer视觉变压器
DISCDiscriminator判别器
PILPython Imaging LibraryPython 图像处理库
BERTBidirectional Encoder Representations from Transformers双向编码器表示转换器
MPCMulti-Party Computation多方计算
FBPCSFacebook Private Computation ServiceFacebook 私有计算服务
FIDFréchet Inception Distance弗雷歇特 Inception 距离
LCMLatent Consistency Model潜在一致性模型
LaMDALanguage Model for Dialogue Applications对话应用的语言模型
TensorRT
OpenVINO
MNN
TNN
NCNN
CRNNConvolutional Recurrent Neural Network卷积循环神经网络
DTRBDeep Transformer Reinforcement Learning深度变压器强化学习

Voice

abbr.stand forcn
ASRAutomatic Speech Recognition自动语音识别
TTSText-to-speech文本转语音
SESpeech enhancement/separation语音增强/分离
STSpeech Translation语音翻译
MTMachine Translation机器翻译
VCVoice conversion语音转换
HWCHeight Width Channel高度 宽度 通道
CHWChannel Height Width通道 高度 宽度
DBDifferentiable Binarization可微分二值化
EASTEfficient Accurate Scene Text Detector高效准确的场景文本检测器
SASTSegmentation-based Scene Text Detector基于分割的场景文本检测器
NMSNon-Maximum Suppression非极大值抑制
IoUIntersection over Union交并比
mAPMean Average Precision平均精度
SRNSemantic Reasoning Network语义推理网络
STRscene text recognition场景文本识别
SERStructured Entity Recognition结构化实体识别
RERelation Extraction关系抽取
KIEKey Information Extraction关键信息提取
PSE
  • 文本检测算法
    • DB, EAST, SAST, PSE, DB++, FCE
  • 文本识别算法
    • CRNN, SRN, RARE, NETR, SAR, ViTSTR, ABINet, VisionLAN, SPIN, RobustScanner, SVTR, SVTR_LCNet
  • 端到端文本检测算法
    • PGNet

Visual

abbr.stand forcn
MIMMasked Image Modeling掩码图像建模
CLIPContrastive Language-Image Pre-training对比语言图像预训练
OOBOriented Object Detection有向物体检测
COCOCommon Objects in Context上下文中的通用对象
OKSObject Keypoint Similarity对象关键点相似度
encn
Contrastive Learning对比学习
Inpainting局部重绘
Outpainting扩展绘制
  • CLIP - 具有良好的通用性和可扩展性 - modular, reusable, scalable
  • MIM - 适合具体的视觉任务 - 如分类、检测、分割

  • ClassicML
    • Regression
    • Classification
  • FLOPs - 浮点数运算次数
    • 衡量模型的计算复杂度和硬件的浮点运算性能
  • TOPS - 所有类型的运算次数
    • 全面地反映硬件的整体计算能力
  • MAD - Multiply-Add - 乘加运算
    • 先乘后加,用于加速向量和矩阵计算。
  • FMA - Fused Multiply-Add - 融合乘加运算
    • 单指令完成乘加,提供更高的效率和精度。
    • Intel Haswell+, AVX2
  • Half precision Tensor Core FP32 Accumulate
  • Single precision (MAD or FMA)
  • Double precision (FMA)
  • Average Precision (mAP)
  • TrackerMIL
    • MIL - Multiple Instance Learning
    • Bag
    • OpenCV TrackerMIL
  • CNN - Convolutional Neural Network - 卷积神经网络
  • region-based algorithms
    • R-CNN - 2014
      • selective search to cluster similar pixels into regions and generate a set of region proposals
      • -> CNN
    • Fast R-CNN
      • ROI pooling to extract the region proposals
      • -> several fully connected layers for classification and bounding box regression
    • Faster R-CNN
      • selective search
      • Region Proposal Network
    • RFCN
    • Mask R-CNN
    • Cascade R-CNN
    • Hybrid Task Cascade (HTC)
  • VAE - Variational Autoencoder
  • PixelCNN
  • 2 steps to detect objects
    • Detect the object regions
    • Classify the objects in those regions
  • YOLO - by Joseph Redmond et al in 2015
    • 单步骤、不需要 regions
  • panoptic segmentation
  • Densepose
  • Cascade R-CNN
  • rotated bounding boxes
  • PointRend
  • DeepLab
  • ViTDet - Vision Transformer Detector
  • MViTv2 - Mobile Video Transformer v2
  • f-BRS - Feature backpropagating refinement scheme
  • SAM - Segment Anything Model
  • DEXTR - Deep extreme cut
  • HRNet - High Resolution Net
  • foolwood/SiamMask
    • Fast Online Object Tracking and Segmentation: A Unifying Approach
    • CVPR2019
  • Conv2d - 2D Convolution Layer - 2D 卷积层
  • LeakyReLU - Leaky Rectified Linear Unit - 泄漏整流线性单元
  • BatchNorm2d - 2D Batch Normalization - 2D 批量归一化
  • Sigmoid - Sigmoid Activation Function - Sigmoid 激活函数
  • ReLU - Rectified Linear Unit - 线性整流单元
  • ConvTranspose2d - 2D Transposed Convolution Layer - 2D 转置卷积层
  • Accelerator
  • 参考

Types of AI Agents

  • Simple Reflex Agent
  • Model-based reflex agent
  • Goal-based agents
  • Utility-based agent
  • Learning agent

损失函数

  • loss function - 损失函数
  • 评估模型性能
  • 衡量模型预测的输出与真实值之间的差异。通过 **最小化损失函数的值,模型的性能得到优化。
  • 常见
    • MSE - Mean Squared Error - 均方误差
      • 回归问题
    • Cross Entropy Loss - 交叉熵损失
      • 分类问题
    • BCE Loss - Binary Cross-Entropy Loss - 二元交叉熵损失
      • GAN

均方误差(Mean Squared Error, MSE)

主要用于回归问题,计算预测值与真实值之间差的平方和的平均值。

MSE=1ni=1n(yiy^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

其中,yiy_i 是真实值,y^i\hat{y}_i 是预测值。

交叉熵损失(Cross Entropy Loss)

主要用于分类问题,衡量两个概率分布之间的差异。

Cross Entropy=1ni=1n[yilog(y^i)+(1yi)log(1y^i)]\text{Cross Entropy} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]

其中,yiy_i 是真实标签,y^i\hat{y}_i 是预测概率。

优化器

  • 调整模型参数(例如神经网络中的权重和偏置),来最小化(或最大化)损失函数,从而提高模型的性能。
  • 优化算法
    • Gradient Descent - 梯度下降
  • 常见的优化器
    • SDG - Stochastic Gradient Descent - 随机梯度下降
    • SGD with Momentum - 带动量的随机梯度下降
    • RMSprop - Root Mean Square Propagation - 均方根传播
    • Adam - Adaptive Moment Estimation - 自适应矩估计
      • 目前最流行的优化器之一,它结合了动量法和RMSprop的优点,具有较快的收敛速度和较好的性能

ascending similarity score

Automatic Mixed Precision

  • AMP - Automatic Mixed Precision - 自动混合精度

Fréchet Inception Distance

  • FID -> Fréchet Inception Distance
  • FID score
    • 越低越好
    • 0 表示生成图像和真实图像完全相同
    • 优秀的模型 - 1-10 - 几乎无法区分,图像质量非常高
    • 一般的模型 - 10-30 - 有一定的差异,但仍能生成较高质量的图像。
    • 30-50 - 生成图像质量一般,与真实图像有明显的差异。
    • 差的模型 > 30 - 生成图像质量较差,与真实图像的分布有较大的差距。
  • 评估分数
  • pip:cleanfid
  • 用于评估生成模型(如生成对抗网络,GAN)生成图像质量的指标。
  • 计算生成图像和真实图像在特征空间中的距离,衡量生成图像与真实图像的相似性。
FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID} = \|\mu_r - \mu_g\|^2 + \text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})
  • μr\mu_rΣr\Sigma_r 是真实图像的均值和协方差矩阵
  • μg\mu_gΣg\Sigma_g 是生成图像的均值和协方差矩阵
  • Tr\text{Tr} 表示矩阵的迹(trace)

ViT Register

Differentiable Binarization

  • DB - Differentiable Binarization - 可微分二值化
  • 一种 基于深度学习的文本检测算法
  • 它通过学习预测文本区域的概率图,并对该概率图应用二值化(binarization)操作来生成文本框。
  • 主要解决了传统二值化方法(如 Otsu)在复杂场景下效果不佳的问题。
  • 特点:
    • 使用 Unclip 算法扩展文本区域,以生成更精确的文本框。
    • 速度快,适合实时应用。
    • 能处理多种字体和密集文本场景。

Efficient and Accurate Scene Text Detector

  • EAST - Efficient and Accurate Scene Text Detector - 高效准确的场景文本检测器
  • 一种 快速准确的场景文本检测算法
  • 直接回归文本框的几何形状,而不是依赖复杂的候选区域生成过程。
  • 特点:
    • 支持两种文本框输出:水平矩形框和旋转框。
    • 使用全卷积网络(FCN)和分离的特征图进行几何信息预测。
    • 没有使用传统的候选区域生成过程,简化了检测流程。

Segmentation-based Scene Text Detector

  • SAST - Segmentation-based Scene Text Detector - 基于分割的场景文本检测器
  • 一种基于分割的场景文本检测算法
  • 通过像素级别的分割来生成文本区域,并在后处理时进行边框提取。
  • 特点:
    • 能处理复杂的场景文本(如不规则形状、弯曲文本)。
    • 提供多边形框(polygon)的输出以适应不同形状的文本。
  • 优点:
    • 对于复杂场景(如街景、广告牌上的文字)表现优异。
    • 支持检测多边形边界,更灵活。

Non-Maximum Suppression

  • NMS - Non-Maximum Suppression - 非极大值抑制
  • 一种后处理方法,常用于目标检测任务中,用于去除重叠过多的检测框。
  • 通过保留置信度最高的检测框,并抑制其他与之重叠的检测框来优化结果。
  • 工作原理:
    1. 根据预测分数(如置信度)对检测框排序。
    2. 选出置信度最高的框,将与它有较大重叠的其他框抑制(删除)。
    3. 重复上述过程直到没有检测框剩余。
  • 参数:
    • IoU(Intersection over Union)阈值:决定是否将两个框视为重叠。
    • 置信度分数:用于排序。
  • 应用场景:
    • 常用于目标检测(如文本检测、物体检测)以减少重复检测。
    • 例如,在检测场景文本时,NMS 可以去除检测框的冗余重叠。

score vs confidence

  • score
    • 原始分值
    • 值范围取决于模型设计
    • 用于 排序、对比
  • confidence
    • 置信度
    • 通常是经过归一化的分值
    • 例如 softmax 或 sigmoid 后的值
    • 为 0 到 1 的值
    • 且所有类别的 confidence 和为 1
    • 用于 判断可信度、决策阈值