Skip to main content

AI Glossary

abbr.forcn
AEDAutomatic Emotion Detection自动情感检测
AIArtificial Intelligence人工智能
ASRAutomatic Speech Recognition自动语音识别
CECross Entropy交叉熵
CLIPContrastive Language-Image Pretraining对比语言-图像预训练
ERPerotic role playing情色角色扮演
FLCEFused Linear Cross Entropy融合线性交叉熵
FSDPFully Sharded Data Parallel完全分片数据并行
GeGLUGated Linear Unit门控线性单元
GELANGeneralized Efficient Layer Aggregation Network通用高效层聚合网络
GMEGeneralized Multimodal Encoder通用多模态编码器
GPTGenerative Pre-trained Transformer生成型预训练变换模型
GTEGeneralized Text Encoder通用文本编码器
ITNInverse Text Normalization逆文本规范化
LayerNormLayer Normalization层归一化
LIDLanguage Identification语言识别
LLaMaLarge Language Model for Machine Translation机器翻译的大语言模型
LLMLarge Language Model大语言模型
LoRALanguage of Rules and Actions语言规则与行动语言
LRMLarge Reasoning Models大型推理模型
MLPMulti-Layer Perceptron多层感知机
MRoPEMultimodal Rotary Position Embedding多模态旋转位置嵌入
PGIProgrammable Gradient Information可编程梯度信息
QLoRAQuantized Low-Rank Adaptation量化低秩适配
RLHFReinforcement Learning from Human Feedback人类反馈强化学习
RMReward / preference modeling奖励/偏好建模
RMSNormRoot Mean Square Normalization均方根归一化
RoPERotary Position Embedding旋转位置嵌入
RTFReal-Time Factor实时因子
SDXLStable Diffusion XL稳定扩散 XL
SERSpeech Emotion Recognition语音情感识别
SFTSupervised Fine-tuning监督微调
SOTAState of the Art最新技术
STTSpeech to Text语音转文本
SwiGLUSwish-Gated Linear UnitSwish 门控线性单元
TTSText to Speech文本转语音
VADVoice Activity Detection语音活动检测
ViTVision Transformer视觉变换器
WFSTWeighted Finite-State Transducer加权有限状态转换器
YaRNYet another RoPE extensioN method另一种 RoPE 扩展方法
YOLOYou Only Look Once
  • ITN
    • 口语 -> 书面语 - 符合 自然书写习惯
  • RTF - Real-Time Factor - 实时因子
    • 语音识别中的速度指标,表示每秒识别的时间长度,RTF 越小越好,1 表示实时识别,0.5 表示 2 倍速识别
  • Embodied AI - 具身人工智能
    • 智能系统需要一个“身体”(物理实体)来与世界进行直接的交互
    • 通过这种交互来感知、行动、学习和理解世界
    • 不仅仅是处理抽象数据,而是将AI算法植入到能够感知和行动的物理系统中
    • 这个“身体”可以是机器人,也可以是自动驾驶汽车,甚至是智能建筑中的传感器和执行器网络。
  • Embodied Robotics - 具身机器人学/具身机器人
  • Embodied
    • Embodiment - 物理实体
    • Perception and Action - 感知与行动
    • Interaction with Environment - 环境交互
    • Situated Learning - 情境学习
  • open-vocabulary detection
    • 开放词汇检测
    • 识别和处理未在训练数据中出现过的词汇或短语的能力
encn
Stable Diffusion稳定扩散
Speech Synthesis语音合成
Voice Synthesis语音合成

LLM 参数

  • temperature
    • 可以控制词元选择的随机性。较低的温度适合希望获得真实或正确回复的提示,而较高的温度可能会引发更加多样化或意想不到的结果。
    • 温度为 0 表示回复是确定的:系统始终会选择概率最高的词元。对于大多数应用场景,不妨先试着将温度设为 0.2。
  • top-k
    • 可更改模型选择输出词元的方式。
    • 如果 Top-k 设为 1,表示所选词元是模型词汇表的所有词元中概率最高的词元(也称为贪心解码)。
    • 如果 Top-k 设为 3,则表示系统将从 3 个概率最高的词元(通过温度确定)中选择下一个词元。
  • top-p
    • 可更改模型选择输出词元的方式。系统会按照概率从最高到最低的顺序选择词元,直到所选词元的概率总和等于 Top-p 的值。
    • 例如,如果词元 A、B 和 C 的概率分别是 0.3、0.2 和 0.1,并且 Top-p 的值为 0.5,则模型将选择 A 或 B 作为下一个词元(通过温度确定)。Top-p 的默认值为 0.8。
  • presence_penalty
  • frequency_penalty
  • logit_bias
  • max_tokens
    • 限制最大 token 数量,1 token 大约 4 字母,0.5 个汉字
  • stop
    • 停止序列
  • n
    • 生成 n 个结果