×
思维导图备注
CUDA专家手册:GPU编程权威指南
首页
收藏书籍
阅读记录
书签管理
我的书签
添加书签
移除书签
5.6 共享内存
浏览
2
扫码
小字体
中字体
大字体
2022-01-24 10:21:00
请
登录
再阅读
上一篇:
下一篇:
中文版序
推荐序
译者序
前言
第一部分 基础知识
1.1 方法
1.2 代码
第2章 硬件架构
2.1 CPU配置
2.2 集成GPU
2.3 多GPU
2.4 CUDA中的地址空间
2.5 CPU/GPU交互
2.6 GPU架构
2.7 延伸阅读
1.3 资源
第3章 软件架构
3.1 软件层
3.2 设备与初始化
3.3 上下文
3.4 模块与函数
3.5 内核(函数)
3.6 设备内存
3.7 流与事件
3.8 主机内存
3.9 CUDA数组与纹理操作
3.10 图形互操作性
3.11 CUDA运行时与CUDA驱动程序API
1.4 结构
第4章 软件环境
4.1 nvcc——CUDA编译器驱动程序
4.2 ptxas——PTX汇编工具
4.3 cuobjdump
4.4 nvidia-smi
4.5 亚马逊Web服务
第二部分 CUDA编程
第5章 内存
5.1 主机内存
5.2 全局内存
5.3 常量内存
5.4 本地内存
5.5 纹理内存
5.6 共享内存
5.7 内存复制
第6章 流与事件
6.1 CPU/GPU的并发:隐藏驱动程序开销
6.2 异步的内存复制
6.3 CUDA事件:CPU/GPU同步
6.4 CUDA事件:计时
6.5 并发复制和内核处理
6.6 映射锁页内存
6.7 并发内核处理
6.8 GPU/GPU同步:cudaStreamWaitEvent()
6.9 源代码参考
第7章 内核执行
7.1 概况
7.2 语法
7.3 线程块、线程、线程束、束内线程
7.4 占用率
7.5 动态并行
第8章 流处理器簇
8.1 内存
8.2 整型支持
8.3 浮点支持
8.4 条件代码
8.5 纹理与表面操作
8.6 其他指令
8.7 指令集
第9章 多GPU
9.1 概述
9.2 点对点机制
9.3 UVA:从地址推断设备
9.4 多GPU间同步
9.5 单线程多GPU方案
9.6 多线程多GPU方案
第10章 纹理操作
10.2 纹理内存
10.3 一维纹理操作
10.4 纹理作为数据读取方式
10.5 使用非归一化坐标的纹理操作
10.6 使用归一化坐标的纹理操作
10.7 一维表面内存的读写
10.8 二维纹理操作
10.9 二维纹理操作:避免复制
10.10 三维纹理操作
10.11 分层纹理
10.12 最优线程块大小选择以及性能
10.13 纹理操作快速参考
第三部分 实例
第11章 流式负载
11.1 设备内存
11.2 异步内存复制
11.3 流
11.4 映射锁页内存
11.5 性能评价与本章小结
第12章 归约算法
12.1 概述
12.2 两遍归约
12.3 单遍归约
12.4 使用原子操作的归约
12.5 任意线程块大小的归约
12.6 适应任意数据类型的归约
12.7 基于断定的归约
12.8 基于洗牌指令的线程束归约
第13章 扫描算法
13.1 定义与变形
13.2 概述
13.3 扫描和电路设计
13.4 CUDA实现
13.5 线程束扫描
13.6 流压缩
13.7 参考文献(并行扫描算法)
13.8 延伸阅读(并行前缀求和电路)
第14章 N-体问题
14.1 概述
14.2 简单实现
14.3 基于共享内存实现
14.4 基于常量内存实现
14.5 基于线程束洗牌实现
14.6 多GPU及其扩展性
14.7 CPU的优化
14.8 小结
14.9 参考文献与延伸阅读
第15章 图像处理的归一化相关系数计算
15.1 概述
15.2 简单的纹理实现
15.3 常量内存中的模板
15.4 共享内存中的图像
15.5 进一步优化
15.6 源代码
15.7 性能评价
15.8 延伸阅读
附录A CUDA专家手册库
术语表
暂无相关搜索结果!
×
二维码
手机扫一扫,轻松掌上学
×
《CUDA专家手册:GPU编程权威指南》电子书下载
请下载您需要的格式的电子书,随时随地,享受学习的乐趣!
EPUB 电子书
×
书签列表
×
阅读记录
阅读进度:
0.00%
(
0/0
)
重置阅读进度