封面
版权信息
内容简介
作者简介
FOREWORD序
PREFACE前言
基础篇
第1章 导论
1.1 机器学习应用
1.2 机器学习框架的设计目标
1.3 机器学习框架的基本组成原理
1.4 机器学习系统生态
1.5 本书结构和读者对象
第2章 编程模型
2.1 机器学习系统编程模型的演进
2.2 机器学习工作流
2.2.1 环境配置
2.2.2 数据处理
2.2.3 模型定义
2.2.4 损失函数和优化器
2.2.5 训练及保存模型
2.2.6 测试和验证
2.3 定义深度神经网络
2.3.1 以层为核心定义神经网络
2.3.2 神经网络层的实现原理
2.3.3 自定义神经网络层
2.3.4 自定义神经网络模型
2.4 C/C++编程接口
2.4.1 在Python中调用C/C++函数的原理
2.4.2 添加C++编写的自定义算子
2.5 机器学习框架的编程范式
2.5.1 机器学习框架编程需求
2.5.2 机器学习框架编程范式现状
2.5.3 函数式编程案例
2.6 总结
2.7 拓展阅读
第3章 计算图
3.1 设计背景和作用
3.2 计算图的基本构成
3.2.1 张量和算子
3.2.2 计算依赖
3.2.3 控制流
3.2.4 基于链式法则计算梯度
3.3 计算图的生成
3.3.1 静态生成
3.3.2 动态生成
3.3.3 动态图和静态图生成的比较
3.3.4 动态图与静态图的转换和融合
3.4 计算图的调度
3.4.1 算子调度执行
3.4.2 串行与并行
3.4.3 数据载入同步与异步机制
3.5 总结
3.6 拓展阅读
进阶篇
第4章 AI编译器和前端技术
4.1 AI编译器设计原理
4.2 AI编译器前端技术概述
4.3 中间表示
4.3.1 中间表示的基本概念
4.3.2 中间表示的种类
4.3.3 机器学习框架的中间表示
4.4 自动微分
4.4.1 自动微分的基本概念
4.4.2 前向与反向自动微分
4.4.3 自动微分的实现
4.5 类型系统和静态分析
4.5.1 类型系统概述
4.5.2 静态分析概述
4.6 常见前端编译优化方法
4.6.1 前端编译优化简介
4.6.2 常见编译优化方法介绍及实现
4.7 总结
第5章 AI编译器后端和运行时
5.1 概述
5.2 计算图优化
5.2.1 通用硬件优化
5.2.2 特定硬件优化
5.3 算子选择
5.3.1 算子选择的基础概念
5.3.2 算子选择的过程
5.4 内存分配
5.4.1 Device内存概念
5.4.2 内存分配
5.4.3 内存复用
5.4.4 常见的内存分配优化手段
5.5 计算调度与执行
5.5.1 单算子调度
5.5.2 计算图调度
5.5.3 交互式执行
5.5.4 下沉式执行
5.6 算子编译器
5.6.1 算子调度策略
5.6.2 子策略组合优化
5.6.3 调度空间算法优化
5.6.4 芯片指令集适配
5.6.5 算子表达能力
5.6.6 相关编译优化技术
5.7 总结
5.8 拓展阅读
第6章 硬件加速器
6.1 概述
6.1.1 硬件加速器设计的意义
6.1.2 硬件加速器设计的思路
6.2 硬件加速器基本组成原理
6.2.1 硬件加速器的架构
6.2.2 硬件加速器的存储单元
6.2.3 硬件加速器的计算单元
6.2.4 DSA芯片架构
6.3 加速器基本编程原理
6.3.1 硬件加速器的可编程性
6.3.2 硬件加速器的多样化编程方法
6.4 加速器实践
6.4.1 环境
6.4.2 广义矩阵乘法的朴素实现
6.4.3 提高计算强度
6.4.4 使用共享内存缓存复用数据
6.4.5 减少寄存器使用
6.4.6 隐藏共享内存读取延迟
6.4.7 隐藏全局内存读取延迟
6.4.8 与cuBLAS对比
6.4.9 小结
6.5 总结
6.6 拓展阅读
第7章 数据处理
7.1 概述
7.1.1 易用性
7.1.2 高效性
7.1.3 保序性
7.2 易用性设计
7.2.1 编程抽象与接口
7.2.2 自定义算子支持
7.3 高效性设计
7.3.1 数据读取的高效性
7.3.2 数据计算的高效性
7.4 保序性设计
7.5 单机数据处理性能的扩展
7.5.1 基于异构计算的数据预处理
7.5.2 基于分布式的数据预处理
7.6 总结
第8章 模型部署
8.1 概述
8.2 训练模型到推理模型的转换及优化
8.2.1 模型转换
8.2.2 算子融合
8.2.3 算子替换
8.2.4 算子重排
8.3 模型压缩
8.3.1 量化
8.3.2 模型稀疏
8.3.3 知识蒸馏
8.4 模型推理
8.4.1 前处理与后处理
8.4.2 并行计算
8.4.3 算子优化
8.5 模型的安全保护
8.5.1 概述
8.5.2 模型混淆
8.6 总结
8.7 拓展阅读
第9章 分布式训练
9.1 设计概述
9.1.1 设计动机
9.1.2 系统架构
9.1.3 用户益处
9.2 实现方法
9.2.1 方法分类
9.2.2 数据并行
9.2.3 模型并行
9.2.4 混合并行
9.3 流水线并行
9.4 机器学习集群架构
9.5 集合通信
9.5.1 常见集合通信算子
9.5.2 基于AllReduce的梯度平均算法
9.5.3 集合通信算法性能分析
9.5.4 利用集合通信优化模型训练的实践
9.5.5 集合通信在数据并行的实践
9.5.6 集合通信在混合并行的实践
9.6 参数服务器
9.6.1 系统架构
9.6.2 异步训练
9.6.3 数据副本
9.7 总结
9.8 拓展阅读
拓展篇
第10章 联邦学习系统
10.1 概述
10.1.1 定义
10.1.2 应用场景
10.1.3 部署场景
10.1.4 常用框架
10.2 横向联邦学习
10.2.1 云云场景中的横向联邦
10.2.2 端云场景中的横向联邦
10.3 纵向联邦学习
10.3.1 纵向联邦架构
10.3.2 样本对齐
10.3.3 联合训练
10.4 隐私加密算法
10.4.1 基于LDP算法的安全聚合
10.4.2 基于MPC算法的安全聚合
10.4.3 基于LDP-SignDS算法的安全聚合
10.5 展望
10.5.1 异构场景下的联邦学习
10.5.2 通信效率提升
10.5.3 联邦生态
10.6 总结
第11章 推荐系统
11.1 系统基本组成
11.1.1 消息队列
11.1.2 特征存储
11.1.3 稠密神经网络
11.1.4 嵌入表
11.1.5 训练服务器
11.1.6 参数服务器
11.1.7 推理服务器
11.2 多阶段推荐系统
11.2.1 推荐流水线概述
11.2.2 召回
11.2.3 排序
11.3 模型更新
11.3.1 持续更新模型的需求
11.3.2 离线更新
11.4 案例分析:支持在线模型更新的大型推荐系统
11.4.1 系统设计挑战
11.4.2 系统架构
11.4.3 点对点模型更新传播算法
11.4.4 模型更新调度器
11.4.5 模型状态管理器
11.4.6 小结
11.5 总结
11.6 扩展阅读
第12章 强化学习系统
12.1 强化学习介绍
12.2 单节点强化学习系统
12.3 分布式强化学习系统
12.4 多智能体强化学习
12.5 多智能体强化学习系统
12.6 总结
第13章 可解释AI系统
13.1 背景
13.2 可解释AI定义
13.3 可解释AI算法现状介绍
13.3.1 数据驱动的解释
13.3.2 知识感知的解释
13.4 常见可解释AI系统
13.5 案例分析:MindSpore XAI
13.5.1 为图片分类场景提供解释
13.5.2 为表格数据场景提供解释
13.5.3 白盒模型
13.6 未来研究方向
13.7 总结
第14章 机器人系统
14.1 机器人系统概述
14.1.1 感知系统
14.1.2 规划系统
14.1.3 控制系统
14.1.4 机器人安全
14.2 机器人操作系统
14.2.1 ROS2节点
14.2.2 ROS2主题
14.2.3 ROS2服务
14.2.4 ROS2参数
14.2.5 ROS2动作
14.3 案例分析:使用机器人操作系统
14.3.1 创建节点
14.3.2 读取参数
14.3.3 服务端-客户端服务模式
14.3.4 客户端
14.3.5 动作模式
14.3.6 动作客户端
14.4 总结
参考文献
更新时间:2024-12-27 20:31:37