指标 含义
token token是文本的最小单位。

在英文中,token 往往代表一个单词或一个标点符号;

在中文中,token 往往代表一个字或词。

samples per second 每秒样本数,是指模型在训练或推理过程中每秒处理的样本数量,即训练时实际吞吐量。

计算公式为:samples/s = BS * N / step time

其中,BS为batch size,N为GPU/NPU的数量,step time是在分布式集群中执行完一个BS的时间(秒)。

tokens per second NLP中常用的吞吐量指标,表示在单位时间内模型能够处理的token数量。用于评估模型的推理或训练性能。

计算公式为:tokens/s = token len / cost time

其中,token len为处理的文本中token的数量,cost time 为处理时间。

TFLOPs FLOPs是Floating-point Operations Per Second的缩写,代表每秒所执行的浮点运算次数。

往往用TFLOPs衡量计算能力,即每秒执行万亿次浮点运算。

TP 大模型训练时的并行策略,张量并行。

可以将大模型的张量拆分为多个小块,分散到多个设备上,从而加快训练和推理的速度。

详细可参考:张量并行

PP 大模型训练时的并行策略,流水线并行。

可以将模型的层或模块划分为多个阶段,并在不同的设备上并行执行这些阶段,从而提高计算效率和吞吐量。

详细可参考:流水线并行

prompt Prompt是一种由模型使用方提供的文本片段,用于在推理时引导大模型生成特定的输出。
cost time (或Inference time) 推理时间,指完成一次推理过程所需的总时间。

包括加载模型、预处理输入、模型推理计算和后处理等步骤。

耗时越短,意味着模型推理速度越快。

原文


Python 代码示例

关注后解锁

输出结果

{'samples/s': 0.14, 'tokens/s': 41, 'step_time': 7.2, 'cost_time': 7.2, 'N': 1, 'BS': 1, 'output_token_count': 297}


    "samples/s": 0.14/秒,
    "tokens/s": 41/秒,
    "N": 1,
    "BS": 1,
    "step_time": 7.2/秒,
    "cost_time": 7.2/秒,
    "output_token_count": 297,

有一个叫小明的男孩,他很喜欢看书。有一天,他走进了一个图书馆,里面有各种各样的书。小明看着这些书,感到非常兴奋。

他开始挑选自己喜欢的书,然后坐下来开始阅读。他看了一会儿,突然听到了一个声音,好像是从一本书里传出来的。

小明好奇地走到书架旁,发现是一本魔法书。他打开魔法书,发现里面写着:“只要你念出咒语,就可以变成任何东西。”

小明非常兴奋,他开始念咒语:“变身,变身,变身!”

突然,小明变成了一个巨大的老虎。他跑出了图书馆,开始在街上寻找猎物。

他遇到了一只小鸟,问它:“你愿意和我一起玩吗?”小鸟吓坏了,飞走了。

小明又遇到了一只兔子,问它:“你愿意和我一起玩吗?”兔子也吓坏了,逃跑了。

小明感到非常孤单,他不知道该怎么办。他想变回原来的样子,但他不知道该念什么咒语。

他开始四处寻找,最终找到了魔法书。他念出了咒语:“解除变身,解除变身,解除变身!”

突然,小明变回了原来的样子,他感到非常高兴。他决定以后不再玩魔法书了,因为他知道魔法书是有危险的。

小明回家后,把魔法书放在了自己的书架上,从此再也没有看过它。

分类: 人工智能

毛巳煜

高级软件开发全栈架构师

工信部备案号:辽ICP备17016257号-2