浅谈NVIDIA-H100白皮书

忙完手头工作，就赶紧来过了一遍 H100 白皮书。下面我就以框架开发和炼丹师的角度谈谈 H100 的一些新特性，如有说错的地方还望指正。

硬件层级¶

相较于A100的108个SM，H100 提升到了132个SM，每个SM里一共有 128个FP32 CUDA Core，并配备了第四代 TensorCore。每个 GPU 一共有16896个 FP32 CUDA Core，528个Tensor Core。

我还留意了下其他文章所提及的，这次 FP32 CUDA Core是独立的，而在安培架构，是有复用 INT32 部分。相较A100，这次是在没复用的情况下把 FP32 CUDA Core数量翻倍。

第四代TensorCore¶

TensorCore对矩阵乘法有着高度优化，这一次发布了第四代，在FP16矩阵乘法下有3倍的提升

FP8 数据格式¶

NV也发布了一款全新的数据格式 Float8，具体而言分两种模式，E5M2是 5个指数位，2个尾数位，1个符号位；另一个 E4M3 是 4个指数位置，3个尾数位，一个符号位。需要比较大的范围，则用 E5M2，对精度有一定要求可以使用 E4M3

并且支持多种精度类型的累加：

前面 TensorCore 在 FP16 已经有3倍提升了，对应的在 FP8 情况则有6倍提升

Transformer Engine¶

一开始我以为只是名字恰好取的是Transformer，但看他意思是专为Transformer模型而生的一个组件

随着 GPT-3 等模型发展，Transformer类的模型越来越大，训练时间也越来越长，以Megatron Turing NLG为例，需要 2048张 A100 训8周。而自动混合精度训练逐渐成熟，能够以更小，更快的数据格式（FP16）训练，同时也能保证模型准确率，Transformer Engine也应运而生了。

我理解 NV 这里是通过硬件+软件的方式来实现了自动混合精度训练，我们常说的自动混合精度训练都是fp16为主，而Transformer Engine支持了 FP8 数据格式。Transformer Engine会对 TensorCore 的计算结果进行统计分析，并决定是否要转换精度，并会搭配scale来进行缩放。

看上去Transformer Engine专门为Transformer模型而生，很好奇后续应该通过什么专用工具库来调用Transformer Engine。