商品簡介
作者簡介
目次
相關商品
商品簡介
大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入講解,并基于TOGAF方法論,剖析業界知名案例的設計方案。 全書總計13章。第1章講解AI與大模型時代對基礎架構的需求;第2章講解軟件程序與專用硬件的結合,涉及GPU并行運算庫、機器學習程序的開發框架和分布式AI訓練;第3章剖析GPU的硬件架構,涉及GPU的總體設計、Nvidia GH100芯片架構和擁有其他Hopper架構的GPU;第4章講解GPU服務器的設計與實現;第5章講解機器學習所依托的I/O框架體系;第6章講解GPU集群的網絡設計與實現;第7章講解GPU板卡算力調度技術;第8章講解GPU虛擬化調度方案;第9章講解GPU集群的網絡虛擬化設計與實現;第10章講解GPU集群的存儲設計與實現;第11章講解如何基于云原生技術為機器學習應用設計與實現更好的開發和運行平臺;第12章講解基于云平臺的GPU集群的管理與運營,涉及云運維平臺、云運營平臺和云審計平臺;第13章基于一個服務機器學習的GPU計算平臺落地案例,展示如何針對機器學習應用進行需求分析、設計與實現。 無論是高等院校計算機與人工智能等相關專業的本科生或研究生,還是對并行計算技術、云計算技術、高性能存儲及高性能網絡技術感興趣的研究人員或工程技術人員,都可以參考和閱讀本書。
作者簡介
方天戟騰訊專有云與智算平臺shou席架構師,本科畢業于北京航空航天大學自動控制專業,碩士研究生畢業于中國科學院研究生院計算機科學與技術專業。從業近20年,從事過硬件開發、內核與驅動開發、協議棧開發、網絡與云計算解決方案設計等工作,曾在華為、新華三、Juniper等企業任職,為航天科技、中國建筑、BMW及環球影城等國內外知名客戶設計且落地過云計算與網絡解決方案。“云鑒”叢書編寫組核心成員。微信公眾號:帥云霓的技術小屋
目次
第1章 AI與大模型時代對基礎架構的需求
1.1 我們在談論AI時,到底在談論什么
1.2 機器學習算法初窺
1.3 一元線性回歸算法剖析
1.4 機器學習算法對計算機硬件的特殊需求
1.4.1 機器學習算法的核心運算特征
1.4.2 使用CPU實現機器學習算法和并行加速
1.4.3 機器學習算法的主力引擎——GPU
1.4.4 機器學習算法的新引擎——TPU和NPU
1.5 本章小結
第2章 軟件程序與專用硬件的結合
2.1 GPU并行運算庫
2.2 機器學習程序的開發框架
2.3 分布式AI訓練
2.4 本章小結
第3章 GPU硬件架構剖析
3.1 GPU的總體設計
3.2 Nvidia GH100芯片架構剖析
3.3 其他Hopper架構的GPU
3.4 本章小結
第4章 GPU服務器的設計與實現
4.1 初識Nvidia DGX
4.2 Nvidia DGX A100的總體設計
4.3 Nvidia DGX A100 CPU與內存子系統的設計
4.4 Nvidia DGX A100 PCI-E子系統的設計
4.5 Nvidia DGX A100 NVLink子系統的設計
4.6 其他輔助子系統的設計
4.7 本章小結
第5章 機器學習所依托的I/O框架體系
5.1 Magnum IO的需求來源
5.2 Magnum IO的核心組件
5.3 服務器內部的GPU互通
5.4 跨服務器節點的GPU通信
5.5 RDMA的兩種實現
5.6 GPU對存儲的訪問
5.7 Magnum IO所依賴的其他支撐技術
5.7.1 DPDK( Data Plane Development Kit,數據平面開發套件)
5.7.2 DPU(Data Processing Unit,數據處理器)
5.7.3 MPI Tag Matching
5.8 本章小結
第6章 GPU集群的網絡設計與實現
6.1 GPU集群中RoCE計算網絡的設計與實現
6.2 GPU集群中存儲與業務網絡的設計與實現
6.3 GPU集群中帶外管理監控網絡的設計與實現
6.4 GPU集群中網絡邊界的設計與實現
6.5 本章小結
第7章 GPU板卡級算力調度技術
7.1 基于虛擬化技術的GPU調度
7.2 基于容器技術的GPU調度
7.3 本章小結
第8章 GPU虛擬化調度方案
8.1 Nvidia的GPU虛擬化調度方案
8.1.1 API Remoting與vCUDA
8.1.2 GRID vGPU
8.1.3 Nvidia MIG
8.2 其他硬件廠商的GPU虛擬化調度方案
8.2.1 AMD的SRIOV方案
8.2.2 Intel的GVT-G方案
8.3 云廠商與開源社區基于容器的GPU虛擬化調度方案
8.3.1 TKE vCUDA+GPU Manager
8.3.2 阿里云的cGPU
8.3.3 騰訊云的qGPU
8.4 本章小結
第9章 GPU集群的網絡虛擬化設計與實現
9.1 基于SDN的VPC技術:網絡虛擬化技術的基石
9.2 云負載均衡:機器學習網絡的中流砥柱
9.3 專線接入、對等連接與VPC網關
9.4 SDN NFV網關的實現與部署
9.4.1 基于virtio-net/vhost的虛擬機部署NFV
9.4.2 基于SRIOV的虛擬機部署NFV
9.4.3 使用DPDK技術對NFV加速
9.5 本章小結
第10章 GPU集群的存儲設計與實現
10.1 程序與系統存儲——分布式塊存儲
10.1.1 塊存儲的業務需求
10.1.2 集中式塊存儲與分布式塊存儲
10.1.3 分布式塊存儲的故障恢復
10.1.4 分布式塊存儲的性能優化
10.1.5 分布式塊存儲的快照與回滾
10.2 海量非結構化數據存儲——分布式對象存儲
10.2.1 入門級對象存儲的首選:Ceph
10.2.2 開源海量對象存儲:Swift
10.2.3 商業化對象存儲:大型公有云對象存儲私有化
10.2.4 未來之星:Minio
10.3 AI訓練素材存儲——分布式并發高性能存儲
10.3.1 開源大數據存儲鼻祖:HDFS
10.3.2 業界對HDFS的改進
10.3.3 長青松柏:Lustre
10.4 本章小結
第11章 機器學習應用開發與運行平臺的設計與實現
11.1 微服務平臺
11.1.1 Kubernetes:微服務基礎能力平臺
11.1.2 Spring Cloud:Java系專屬微服務平臺
11.1.3 Istio:不挑開發語言,只挑部署架構
11.1.4 商業化微服務平臺:兼顧各類需求的選擇
11.2 中間件服務
11.2.1 消息中間件
11.2.2 緩存中間件
11.2.3 數據庫(數據中間件)
11.3 應用日志服務
11.4 本章小結
第12章 基于云平臺的GPU集群的管理與運營
12.1 云運維平臺
12.1.1 硬件基礎設施管理
12.1.2 系統監控與告警平臺
12.1.3 CMDB
12.2 云運營平臺
12.3 云審計平臺
12.4 本章小結
第13章 服務機器學習的GPU計算平臺落地案例
13.1 需求來源:自動駕駛模型訓練
13.2 總體設計——基于云原生的高性能計算
13.3 計算需求分析與設計實現
13.4 存儲需求分析與設計實現
13.5 網絡需求分析與設計實現
13.6 本章小結
后記
1.1 我們在談論AI時,到底在談論什么
1.2 機器學習算法初窺
1.3 一元線性回歸算法剖析
1.4 機器學習算法對計算機硬件的特殊需求
1.4.1 機器學習算法的核心運算特征
1.4.2 使用CPU實現機器學習算法和并行加速
1.4.3 機器學習算法的主力引擎——GPU
1.4.4 機器學習算法的新引擎——TPU和NPU
1.5 本章小結
第2章 軟件程序與專用硬件的結合
2.1 GPU并行運算庫
2.2 機器學習程序的開發框架
2.3 分布式AI訓練
2.4 本章小結
第3章 GPU硬件架構剖析
3.1 GPU的總體設計
3.2 Nvidia GH100芯片架構剖析
3.3 其他Hopper架構的GPU
3.4 本章小結
第4章 GPU服務器的設計與實現
4.1 初識Nvidia DGX
4.2 Nvidia DGX A100的總體設計
4.3 Nvidia DGX A100 CPU與內存子系統的設計
4.4 Nvidia DGX A100 PCI-E子系統的設計
4.5 Nvidia DGX A100 NVLink子系統的設計
4.6 其他輔助子系統的設計
4.7 本章小結
第5章 機器學習所依托的I/O框架體系
5.1 Magnum IO的需求來源
5.2 Magnum IO的核心組件
5.3 服務器內部的GPU互通
5.4 跨服務器節點的GPU通信
5.5 RDMA的兩種實現
5.6 GPU對存儲的訪問
5.7 Magnum IO所依賴的其他支撐技術
5.7.1 DPDK( Data Plane Development Kit,數據平面開發套件)
5.7.2 DPU(Data Processing Unit,數據處理器)
5.7.3 MPI Tag Matching
5.8 本章小結
第6章 GPU集群的網絡設計與實現
6.1 GPU集群中RoCE計算網絡的設計與實現
6.2 GPU集群中存儲與業務網絡的設計與實現
6.3 GPU集群中帶外管理監控網絡的設計與實現
6.4 GPU集群中網絡邊界的設計與實現
6.5 本章小結
第7章 GPU板卡級算力調度技術
7.1 基于虛擬化技術的GPU調度
7.2 基于容器技術的GPU調度
7.3 本章小結
第8章 GPU虛擬化調度方案
8.1 Nvidia的GPU虛擬化調度方案
8.1.1 API Remoting與vCUDA
8.1.2 GRID vGPU
8.1.3 Nvidia MIG
8.2 其他硬件廠商的GPU虛擬化調度方案
8.2.1 AMD的SRIOV方案
8.2.2 Intel的GVT-G方案
8.3 云廠商與開源社區基于容器的GPU虛擬化調度方案
8.3.1 TKE vCUDA+GPU Manager
8.3.2 阿里云的cGPU
8.3.3 騰訊云的qGPU
8.4 本章小結
第9章 GPU集群的網絡虛擬化設計與實現
9.1 基于SDN的VPC技術:網絡虛擬化技術的基石
9.2 云負載均衡:機器學習網絡的中流砥柱
9.3 專線接入、對等連接與VPC網關
9.4 SDN NFV網關的實現與部署
9.4.1 基于virtio-net/vhost的虛擬機部署NFV
9.4.2 基于SRIOV的虛擬機部署NFV
9.4.3 使用DPDK技術對NFV加速
9.5 本章小結
第10章 GPU集群的存儲設計與實現
10.1 程序與系統存儲——分布式塊存儲
10.1.1 塊存儲的業務需求
10.1.2 集中式塊存儲與分布式塊存儲
10.1.3 分布式塊存儲的故障恢復
10.1.4 分布式塊存儲的性能優化
10.1.5 分布式塊存儲的快照與回滾
10.2 海量非結構化數據存儲——分布式對象存儲
10.2.1 入門級對象存儲的首選:Ceph
10.2.2 開源海量對象存儲:Swift
10.2.3 商業化對象存儲:大型公有云對象存儲私有化
10.2.4 未來之星:Minio
10.3 AI訓練素材存儲——分布式并發高性能存儲
10.3.1 開源大數據存儲鼻祖:HDFS
10.3.2 業界對HDFS的改進
10.3.3 長青松柏:Lustre
10.4 本章小結
第11章 機器學習應用開發與運行平臺的設計與實現
11.1 微服務平臺
11.1.1 Kubernetes:微服務基礎能力平臺
11.1.2 Spring Cloud:Java系專屬微服務平臺
11.1.3 Istio:不挑開發語言,只挑部署架構
11.1.4 商業化微服務平臺:兼顧各類需求的選擇
11.2 中間件服務
11.2.1 消息中間件
11.2.2 緩存中間件
11.2.3 數據庫(數據中間件)
11.3 應用日志服務
11.4 本章小結
第12章 基于云平臺的GPU集群的管理與運營
12.1 云運維平臺
12.1.1 硬件基礎設施管理
12.1.2 系統監控與告警平臺
12.1.3 CMDB
12.2 云運營平臺
12.3 云審計平臺
12.4 本章小結
第13章 服務機器學習的GPU計算平臺落地案例
13.1 需求來源:自動駕駛模型訓練
13.2 總體設計——基于云原生的高性能計算
13.3 計算需求分析與設計實現
13.4 存儲需求分析與設計實現
13.5 網絡需求分析與設計實現
13.6 本章小結
后記
主題書展
更多
主題書展
更多書展今日66折
您曾經瀏覽過的商品
購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。