首页/文章/ 详情

好书推荐-《DeepSeek源码深度解析》

5天前浏览17

本书是一本系统讲解DeepSeek源码及其核心实现原理的技术指南,内容覆盖了从基础概念到高级应用的全流程知识。全书共7章,结构层层递进。第1章对DeepSeek进行了全面概述,帮助读者构建对DeepSeek系统的整体认知。第2章聚焦于环境搭建、代码获取与模型部署接入,为后续深入研究提供基础。第3章深入探讨了MoE(混合专家模型)的基本原理、功能模块与优化技术。第4章详细解析了DeepSeek-V3模型的架构知识,并通过测试验证展示了系统的实际效果。第5章围绕统一多模态大模型展开,介绍了Janus系列架构、核心技术及工具模块。第6章针对高分辨率图像场景,探讨了结合MoE、细粒度特征提取与视觉/语言适配器的多模态模型的知识。第7章聚焦DeepSeek-R1推理大模型,展示了DeepSeek在推理性能与自我进化方面的探索。 

本书适合人工智能工程师、深度学习研究者、AI产品开发人员及高校师生阅读。无论您是希望夯实开源模型基础,还是寻找前沿实战案例,本书都将为您提供全面而深入的参考与指导。


目录

第1章DeepSeek概述

1.1 DeepSeek简介2

1.1.1 DeepSeek介绍2

1.1.2 DeepSeek的背景与目标2

1.1.3 DeepSeek的产品3

1.1.4 DeepSeek的应用场景5

1.1.5 DeepSeek的核心功能6

1.2 DeepSeek的架构概览7

1.2.1 DeepSeek的整体架构设计8

1.2.2 DeepSeek的模块划分8

1.2.3 DeepSeek与其他模型的技术对比9

第2章环境搭建、代码获取与模型部署接入

2.1 环境准备14

2.1.1 硬件环境要求14

2.1.2 软件环境配置15

2.2 源码获取与管理16

2.2.1 开源项目简介16

2.2.2 获取源码18

2.2.3 代码分支管理19

2.2.4 代码 新与同步20

2.3 DeepSeek模型的本地部署与接入21

2.3.1 安装Ollama 21

2.3.2 部署DeepSeek模型22

2.3.3 Chatbox部署可视化23

2.3.4 DeepSeek接入整合25

第3章混合专家模型(MoE)初探

3.1 项目介绍28

3.2 功能模块30

3.3 ZeRO配置30

3.4 模型微调34

3.4.1 微调原理34

3.4.2 生成提示文本35

3.4.3 配置模型微调参数36

3.4.4 设置训练数据37

3.4.5 配置超参数37

3.4.6 保存模型38

3.4.7 获取 检查点39

3.4.8 安全保存模型39

3.4.9 分词处理40

3.4.10 文本预处理40

3.4.11 数据收集器41

3.4.12 训练数据的分词和预处理42

3.4.13 构建和配置模型42

3.4.14 训练模型44

3.4.15 微调模型47

3.5 调用模型48

3.5.1 下载模型48

3.5.2 调用模型50

第4章基于DeepSeekMoE架构的DeepSeek-V3

4.1 项目介绍54

4.1.1 核心特点54

4.1.2 训练流程54

4.1.3 与DeepSeekMoE项目的区别56

4.2 开源信息介绍57

4.3 模型权重58

4.3.1 权重结构58

4.3.2 加载规则59

4.3.3 FP8权重60

4.4 超参数配置61

4.4.1 小规模版本(16B)的配置61

4.4.2 中规模版本(236B)的配置63

4.4.3 大规模版本(671B)的配置64

4.5 模型架构64

4.5.1 DeepSeek-V3模型架构介绍65

4.5.2 配置信息66

4.5.3 并行嵌入68

4.5.4 线性变换69

4.5.5 线性层70

4.5.6 RMSNorm(均方根层归一化)73

4.5.7 RoPE计算74

4.5.8 多头注意力层77

4.5.9 多层感知器80

4.5.10 DeepSeek-V3中的MoE架构实现81

4.5.11 Transformer模型86

4.5.12 验证和测试88

4.6 量化计算88

4.6.1 输入张量进行量化处理89

4.6.2 块级量化处理89

4.6.3 权重矩阵的反量化90

4.6.4 对激活值和权重的量化与反量化91

4.6.5 调优参数92

4.6.6 FP8矩阵乘法内核92

4.6.7 FP8矩阵乘法实现94

4.7 权重转换95

4.8 测试模型102

4.9 DeepSeek-V3模型总结108

第5章统一多模态大模型?

5.1 项目介绍112

5.2 架构原理与核心技术112

5.3 开源信息介绍118

5.4 工具模块119

5.4.1 对话管理120

5.4.2 数据加载129

5.5 构建多模态模型131

5.6 JanusFlow模型架构185

5.6.3 U-ViT模型190

5.7 模型推理212

5.8 Web交互测试219

第6章适用于高分辨率图像的多模态模型

6.1 项目介绍228

6.2 开源模型233

6.3 开源信息介绍234

6.4 配置文件235

6.5 模型架构237

6.6 模型部署和在线服务359

6.7 图文对话推理384

6.8 Web测试387

第7章DeepSeek-R1推理大模型

7.1 背景介绍406

7.2 项目介绍406

7.3 DeepSeek-R1-Zero训练方案411

7.4 DeepSeek-R1训练方案416

7.5 蒸馏处理419

来源:数值分析与有限元编程
试验人工智能
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2025-06-07
最近编辑:5天前
太白金星
本科 慢慢来
获赞 12粉丝 24文章 346课程 0
点赞
收藏
作者推荐

力学概念| 柔性加强层

▲图1超高层结构体系中,塔楼外围的巨柱必须与核心筒相连才能发挥它的整体刚度的作用。在高烈度地震区,传统的刚性加强层存在的问题:(1)结构刚度增大,导致周期变短、地震作用增大。(2)加强层引起结构抗剪承载力和刚度突变,形成薄弱层。(3)加强层刚性构件耗能效果很小,主要的耗能依靠核心筒连梁和墙肢。▲图2针对上述问题,工程师又提出柔性加强层概念。马尼拉Shangri-La 双塔首次将伸臂结构与黏滞阻尼器相结合,设计人员在伸臂桁架与外框架柱之间竖向设置了16个黏滞阻尼器,如图2所示。计算结果表明该体系能有效控制结构地震作用下的反应。利用伸臂桁架的杠杆原理将核心筒和外框架柱间的垂直变形放大并转换为阻尼器变形,进而充分发挥阻尼器耗能能力。因此适用于以弯曲变形为主的结构,如图3所示▲图3柔性加强层的优点(1)黏滞阻尼伸臂通过提供附加阻尼与使主体结构周期增大,降低结构地震作用(2)可以避免结构刚度突变、形成薄弱层的问题(3) 可以利用柔性加强层进行耗能,减少核心筒连梁和墙肢的耗能负担。来源:数值分析与有限元编程

未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈