建设银行安徽分行招聘网站,北京网络排名优化,dw个人简历网页制作,校园门户网站开发需求计算资源消耗
计算资源的消耗分成:
模型参数本身的存储。模型参数的梯度以及梯度momentum的存储。token的传播过程
例如以llama3-7b为例:
模型参数存储: 模型参数量 * fp32 例如llama3-70b为例,7 * 10^9 * 4 模型参数的梯度以…计算资源消耗
计算资源的消耗分成:
- 模型参数本身的存储。
- 模型参数的梯度以及梯度momentum的存储。
- token的传播过程
例如以llama3-7b为例:
- 模型参数存储: 模型参数量 * fp32
- 例如llama3-70b为例,7 * 10^9 * 4
- 模型参数的梯度以及momentum存储:模型参数量 * fp32 ; 模型参数量 * fp32
- activition : 一个batch的token数量* embed维度 * 传播层数 * fp32