经典模型介绍与资源汇总
DeepSeek 推出的推理增强大语言模型,通过强化学习训练,在数学、编程和推理任务上表现优异。
阿里云通义千问 Qwen2.5 系列模型,包含多种尺寸的基座模型和指令微调模型,支持多语言和长上下文。
Meta 发布的开源大语言模型系列,以卓越的性能和开放性成为开源 LLM 的重要标杆。
深度残差网络,通过引入残差连接解决了深层网络退化问题,是计算机视觉领域的里程碑式模型。
将 Transformer 架构应用于图像分类,展示了纯注意力机制在视觉任务上的强大能力。
Google 提出的预训练语言表示模型,通过双向 Transformer 在大量无标注文本上进行预训练。
OpenAI 开源的通用语音识别模型,支持多语言语音识别、翻译和语言识别。
Stability AI 发布的文本到图像生成模型,采用扩散 Transformer 架构,生成质量显著提升。