图书介绍

科学计算与企业级应用的并行优化PDF|Epub|txt|kindle电子书版本网盘下载

科学计算与企业级应用的并行优化
  • 刘文志著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111506287
  • 出版时间:2015
  • 标注页数:190页
  • 文件大小:82MB
  • 文件页数:206页
  • 主题词:科学计算-研究;并行算法-算法设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

科学计算与企业级应用的并行优化PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 多核向量处理器架构1

1.1 众核系统结构2

1.2 众核架构的一致性3

1.3 多核向量处理器架构5

1.3.1 Intel Haswell CPU架构6

1.3.2 ARMA15多核向量处理器架构10

1.3.3 AMD GCN GPU架构12

1.3.4 NVIDIA Kepler和Maxwell GPU架构15

1.4 Intel MIC架构21

1.4.1 整体架构22

1.4.2 计算单元22

1.4.3 存储器单元24

1.4.4 MIC架构上一些容易成为瓶颈的设计25

1.5 OpenCL程序在多核向量处理器上的映射26

1.5.1 OpenCL程序在多核向量CPU上的映射26

1.5.2 OpenCL程序在NVIDIA GPU上的映射28

1.5.3 OpenCL程序在AMD GCN上的映射34

1.6 OpenCL程序在各众核硬件上执行的区别39

1.7 众核编程模式42

1.8 众核性能优化42

1.9 MIC和GPU编程比较43

1.10 本章小结43

第2章 常见线性代数算法优化44

2.1 稀疏矩阵与向量乘法44

2.1.1 稀疏矩阵的存储格式45

2.1.2 CSR格式稀疏矩阵与向量乘法46

2.1.3 ELL格式稀疏矩阵与向量乘56

2.2 对称矩阵与向量乘积58

2.2.1 串行代码59

2.2.2 向量化对称矩阵与向量乘积60

2.2.3 OpenMP并行化60

2.2.4 CUDA代码60

2.3 三角线性方程组的解法63

2.3.1 串行算法64

2.3.2 串行算法优化65

2.3.3 AVX优化实现65

2.3.4 NEON优化实现66

2.3.5 如何提高并行度67

2.3.6 CUDA算法实现68

2.4 矩阵乘法71

2.4.1 AVX指令计算矩阵乘法72

2.4.2 NEON指令计算矩阵乘法75

2.4.3 GPU计算矩阵乘法77

2.5 本章小结81

第3章 优化偏微分方程的数值解法82

3.1 热传递问题83

3.1.1 C代码及性能84

3.1.2 OpenMP代码及性能85

3.1.3 OpenACC代码及性能87

3.1.4 CUDA代码88

3.2 简单三维Stencil91

3.2.1 串行实现92

3.2.2 Stencil在X86处理器上实现的困境93

3.2.3 CUDA实现93

3.3 本章小结96

第4章 优化分子动力学算法97

4.1 简单搜索的实现98

4.1.1 串行代码99

4.1.2 向量化实现分析100

4.1.3 OpenMP实现101

4.1.4 CUDA实现102

4.2 范德华力计算104

4.2.1 串行实现104

4.2.2 向量化实现分析105

4.2.3 OpenMP实现106

4.2.4 CUDA实现106

4.2.5 如何提高缓存的利用108

4.3 键长伸缩力计算108

4.3.1 串行实现109

4.3.2 向量化实现111

4.3.3 OpenMP实现111

4.3.4 CUDA实现114

4.4 径向分布函数计算116

4.4.1 串行实现117

4.4.2 向量化实现118

4.4.3 OpenMP实现118

4.4.4 CUDA实现121

4.5 本章小结126

第5章 机器学习算法127

5.1 k-means算法128

5.1.1 计算流程128

5.1.2 计算元素所属分类129

5.1.3 更新分类中心136

5.1.4 入口函数140

5.2 KNN算法142

5.2.1 计算步骤142

5.2.2 相似度计算143

5.2.3 求前k个相似度最大元素144

5.2.4 统计所属分类145

5.3 二维卷积146

5.3.1 X86实现147

5.3.2 ARM实现152

5.3.3 CUDA实现155

5.4 四维卷积162

5.4.1 X86实现163

5.4.2 ARM实现169

5.4.3 CUDA实现172

5.5 多GPU并行优化深度学习软件Caffe176

5.5.1 为什么要使用多GPU并行Caffe177

5.5.2 AlexNet示例177

5.5.3 Caffe的主要计算流程180

5.5.4 多GPU并行卷积神经网络的方式185

5.5.5 多GPU并行Caffe实践187

5.6 本章小结190

热门推荐