Skip to main content

ML Glossary

abbr.stand forcn
DCGANDeep Convolutional Generative Adversarial Networks深度卷积生成对抗网络
GANGenerative Adversarial Networks生成对抗网络
NLGNatural Language Generation自然语言生成
NLPNatural Language Processing自然语言处理
NLUNatural Language Understanding自然语言理解
SOTAState of the Art当前最先进技术
DiTDiffusion Transformer扩散变压器
CISCComplex Instruction Set Computer复杂指令集计算机
RISCReduced Instruction Set Computer精简指令集计算机
XLAAccelerated Linear Algebra加速线性代数
HSAHeterogeneous System Architecture异构系统架构
CUDACompute Unified Device Architecture统一计算设备架构
GPGPUGeneral-purpose computing on graphics processing units通用图形处理单元计算
FLOPsFloating Point Operations per Second每秒浮点运算次数
TOPSTera Operations per Second每秒万亿次运算
TFLOPsTera Floating Point Operations per Second每秒万亿次浮点运算
NPUNeural Processing Unit神经处理单元
mAPMean Average Precision平均精度
FMAFused Multiply-Add融合乘加
MADMultiply-Add乘加
MILMultiple Instance Learning多实例学习
UAVUnmanned Aerial Vehicle无人机, 无人驾驶飞行器
LoRALow-Rank Adaptation低秩适应
FSDPFully Sharded Data Parallel完全分片数据并行
TRLTransformer Reinforcement Learning
PEFTPerformance Energy Footprint Trade-off性能能耗权衡
DINOself-DIstillation with No Labels无标签自我蒸馏
XCiTCross-Covariance Image Transformer交叉协方差图像变压器
ViTVision Transformer视觉变压器
DISCDiscriminator判别器
PILPython Imaging LibraryPython 图像处理库
BERTBidirectional Encoder Representations from Transformers双向编码器表示转换器
MPCMulti-Party Computation多方计算
FBPCSFacebook Private Computation ServiceFacebook 私有计算服务
FIDFréchet Inception Distance弗雷歇特 Inception 距离
LCMLatent Consistency Model潜在一致性模型
LaMDALanguage Model for Dialogue Applications对话应用的语言模型
abbr.stand forcn
ASRAutomatic Speech Recognition自动语音识别
TTSText-to-speech文本转语音
SESpeech enhancement/separation语音增强/分离
STSpeech Translation语音翻译
MTMachine Translation机器翻译
VCVoice conversion语音转换
encn
Contrastive Learning对比学习
Inpainting局部重绘
Outpainting扩展绘制
  • ClassicML
    • Regression
    • Classification
  • FLOPs - 浮点数运算次数
    • 衡量模型的计算复杂度和硬件的浮点运算性能
  • TOPS - 所有类型的运算次数
    • 全面地反映硬件的整体计算能力
  • MAD - Multiply-Add - 乘加运算
    • 先乘后加,用于加速向量和矩阵计算。
  • FMA - Fused Multiply-Add - 融合乘加运算
    • 单指令完成乘加,提供更高的效率和精度。
    • Intel Haswell+, AVX2
  • Half precision Tensor Core FP32 Accumulate
  • Single precision (MAD or FMA)
  • Double precision (FMA)
  • Average Precision (mAP)
  • TrackerMIL
    • MIL - Multiple Instance Learning
    • Bag
    • OpenCV TrackerMIL
  • CNN - Convolutional Neural Network - 卷积神经网络
  • region-based algorithms
    • R-CNN - 2014
      • selective search to cluster similar pixels into regions and generate a set of region proposals
      • -> CNN
    • Fast R-CNN
      • ROI pooling to extract the region proposals
      • -> several fully connected layers for classification and bounding box regression
    • Faster R-CNN
      • selective search
      • Region Proposal Network
    • RFCN
    • Mask R-CNN
    • Cascade R-CNN
    • Hybrid Task Cascade (HTC)
  • VAE - Variational Autoencoder
  • PixelCNN
  • 2 steps to detect objects
    • Detect the object regions
    • Classify the objects in those regions
  • YOLO - by Joseph Redmond et al in 2015
    • 单步骤、不需要 regions
  • panoptic segmentation
  • Densepose
  • Cascade R-CNN
  • rotated bounding boxes
  • PointRend
  • DeepLab
  • ViTDet - Vision Transformer Detector
  • MViTv2 - Mobile Video Transformer v2
  • f-BRS - Feature backpropagating refinement scheme
  • SAM - Segment Anything Model
  • DEXTR - Deep extreme cut
  • HRNet - High Resolution Net
  • foolwood/SiamMask
    • Fast Online Object Tracking and Segmentation: A Unifying Approach
    • CVPR2019
  • Conv2d - 2D Convolution Layer - 2D 卷积层
  • LeakyReLU - Leaky Rectified Linear Unit - 泄漏整流线性单元
  • BatchNorm2d - 2D Batch Normalization - 2D 批量归一化
  • Sigmoid - Sigmoid Activation Function - Sigmoid 激活函数
  • ReLU - Rectified Linear Unit - 线性整流单元
  • ConvTranspose2d - 2D Transposed Convolution Layer - 2D 转置卷积层
  • Accelerator
  • 参考

Types of AI Agents

  • Simple Reflex Agent
  • Model-based reflex agent
  • Goal-based agents
  • Utility-based agent
  • Learning agent

损失函数

  • loss function - 损失函数
  • 评估模型性能
  • 衡量模型预测的输出与真实值之间的差异。通过 **最小化损失函数的值,模型的性能得到优化。
  • 常见
    • MSE - Mean Squared Error - 均方误差
      • 回归问题
    • Cross Entropy Loss - 交叉熵损失
      • 分类问题
    • BCE Loss - Binary Cross-Entropy Loss - 二元交叉熵损失
      • GAN

均方误差(Mean Squared Error, MSE)

主要用于回归问题,计算预测值与真实值之间差的平方和的平均值。

MSE=1ni=1n(yiy^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

其中,yiy_i 是真实值,y^i\hat{y}_i 是预测值。

交叉熵损失(Cross Entropy Loss)

主要用于分类问题,衡量两个概率分布之间的差异。

Cross Entropy=1ni=1n[yilog(y^i)+(1yi)log(1y^i)]\text{Cross Entropy} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]

其中,yiy_i 是真实标签,y^i\hat{y}_i 是预测概率。

优化器

  • 调整模型参数(例如神经网络中的权重和偏置),来最小化(或最大化)损失函数,从而提高模型的性能。
  • 优化算法
    • Gradient Descent - 梯度下降
  • 常见的优化器
    • SDG - Stochastic Gradient Descent - 随机梯度下降
    • SGD with Momentum - 带动量的随机梯度下降
    • RMSprop - Root Mean Square Propagation - 均方根传播
    • Adam - Adaptive Moment Estimation - 自适应矩估计
      • 目前最流行的优化器之一,它结合了动量法和RMSprop的优点,具有较快的收敛速度和较好的性能

ascending similarity score

Automatic Mixed Precision

  • AMP - Automatic Mixed Precision - 自动混合精度

Fréchet Inception Distance

  • FID -> Fréchet Inception Distance
  • FID score
    • 越低越好
    • 0 表示生成图像和真实图像完全相同
    • 优秀的模型 - 1-10 - 几乎无法区分,图像质量非常高
    • 一般的模型 - 10-30 - 有一定的差异,但仍能生成较高质量的图像。
    • 30-50 - 生成图像质量一般,与真实图像有明显的差异。
    • 差的模型 > 30 - 生成图像质量较差,与真实图像的分布有较大的差距。
  • 评估分数
  • pip:cleanfid
  • 用于评估生成模型(如生成对抗网络,GAN)生成图像质量的指标。
  • 计算生成图像和真实图像在特征空间中的距离,衡量生成图像与真实图像的相似性。
FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID} = \|\mu_r - \mu_g\|^2 + \text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})
  • μr\mu_rΣr\Sigma_r 是真实图像的均值和协方差矩阵
  • μg\mu_gΣg\Sigma_g 是生成图像的均值和协方差矩阵
  • Tr\text{Tr} 表示矩阵的迹(trace)

ViT Register