Skip to main content

LLM Models

DateModelSizeContext WindowCreatorAbility
2025-05-28DeepSeek R1 0528
2025-05-20Gemma3n8b-e2b, 8b-e4bGoogleEdge, PLE
2025-04-29Qwen30.6b, 1.7b, 4b, 8b, 14b, 30b, 32b, 235b, 30b-a3b, 235b-a22b40KAlibabaMoE, Thinking
2025-04-05Llama 4scout 109b-a17b ,marverik 400b-a17b, 2T1M, 10MMetaMoE, Vision
2025-03-26Qwen2.5-Omni3B, 7BAlibabatext, audio, image, video, speech
2025-03-12Gemma31b, 4b, 12b, 27b128KGoogle DeepMindVision
2025-02-26Wan 2.1AlibabaVideo
2025-02-24smollm2135m, 360m, 1.7b8KHuggingFaceTB
2025-01-28Qwen2.5-VL3b, 7b, 32b, 72b125KAlibabaVision
2025-01-28Qwen2.50.5b, 1.5b, 3b, 7b, 14b, 32b, 72b32K,1MAlibaba
2025-01-20DeepSeek R11.5b, 7b, 8b, 14b, 32b, 70b, 671b128KDeepSeek AI
2024-12-07Llama 3.370B128KMeta
2024-10-05LLaVA7b, 13b, 34b4K, 32K
2024-09-25Llama 3.21B, 3B, 11B, 90B128KMeta
2024-07-23Llama 3.18B, 70.6B, 405B128KMeta
2024-06-27Gemma 29b, 27.2b8KGoogle DeepMind
2024-06-07Qwen20.5b, 1.5b, 7b, 57b (A14b), 72b32K, 64K, 128KAlibaba
2024-04-23Phi-33.8b , 7b , 14b4K, 128KMicrosoft
2024-04-18Llama 38b, 70.6b8K, 128KMeta
2024-02-21Gemma2b, 7b8KGoogle DeepMind
2023-12-11Mistral7b, 46.7b (8x7B MoE)33KMistral AI
2023-07-18Llama 26.7b, 13b, 69b4KMeta
2023-02-24LLaMA6.7B, 13B, 32.5B, 65.2B2KMeta
2020-06-11GPT-3175b2KOpenAI
2019-02-14GPT-21.5b1KOpenAI
2018-06-11GPT-1117m512OpenAI

Proprietary Models

modeldatenotes
GPT-3.5-turbo20224K
GPT-3.5-16k202216K
GPT-3.52022ChatGPT,570GB Text
GPT-42023
GPT-4-32k2023
GPT-4V2023
GPT-4o2023
Gemini
Gemini 2.0
Gemini 2.5
  • *-pt - Pre-Training - 预训练模型
    • 在大规模数据集上进行初始训练,学习语言模式和结构。
    • 该模型适合作为基础模型,供开发者在特定任务上进行进一步的微调。
  • *-ft
    • Fine-tuned
  • *-it - Instruction Tuning - 经过指令微调的模型
    • 在预训练模型的基础上,进一步针对特定任务或指令进行了微调。
    • 此版本更适合直接应用于实际任务,因为它已经针对特定用途进行了优化。
  • https://ollama.com/library
  • 内存占用计算方式
  • 7B - 8GB 内存
  • 13B - 16GB 内存
  • 70B - 32GB/48G 内存
  • 小 context window 适用于 RAG
  • Context Window

按照 商业公司分类 模型之间关联性高,模型有连续性。虽然会扩展调整各种能力,但是 Base 模型的发展和用到的技术会相对连续。

# AVX = 1 | AVX2 = 0 | AVX512 = 0 | FMA = 0 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | VSX = 0 |
grep avx /proc/cpuinfo --color # x86_64

中文

Fine-tuning

Voice

MLLM

  • Multimodal Large Language Model - 多模态大语言模型
  • 结构: 视觉编码器 + 投影器 + 语言模型
  • Vision Model
    • ViT
  • Language Model
  • Projector / Vision-Language Adapter
    • 将视觉模型提取出的图像特征与语言模型的表示空间对齐
    • Cross-Attention Module - 交叉注意力模块

Vision

  • Document OCR - 文档 OCR
  • Handwriting OCR - 手写 OCR
  • Visual QA / Image QA - 图片 QA
  • Visual Reasoning - 图像推理
  • Image Classification - 图片分类
  • Document Understanding - 文档理解
  • Video Understanding - 视频理解
  • Object Detection - 对象识别
  • Object Counting - 对象计数
  • Agent - 屏幕理解操作
  • Object Grounding - 物体定位

Coding

Video

Generation

问题领域

  • Prompt adherence(提示词遵循度)
  • Generation quality(生成质量)
  • Instructiveness(可指导性)
  • Consistency of styles, characters, settings, etc.(风格、角色、设置的一致性)
  • Deliberate and exact intentional posing of characters and set pieces(角色和场景元素的精确姿态和故意摆放)
  • Compositing different images or layers together(将不同图像或图层组合在一起)
  • Relighting(重新打光)
  • Posing built into the model. No ControlNet hacks.(姿态控制内置于模型中,无需ControlNet等“黑科技”)
  • References built into the model. No IPAdapter, no required character/style LoRAs, etc.(参考功能内置于模型中,无需IPAdapter、角色/风格LoRA等)
  • Ability to address objects, characters, mannequins, etc. for deletion / insertion.(能够针对物体、角色、人体模型等进行删除/插入操作) Ability to pull sources from across multiple images with or without "innovation" / change to their pixels.(能够从多张图片中提取来源,无论是否对其像素进行“创新”/更改) Fine-tunable (so we can get higher quality and precision)(可微调,以获得更高的质量和精度)