指标 | 含义 |
---|---|
token | token是文本的最小单位。
在英文中,token 往往代表一个单词或一个标点符号; 在中文中,token 往往代表一个字或词。 |
samples per second | 每秒样本数,是指模型在训练或推理过程中每秒处理的样本数量,即训练时实际吞吐量。
计算公式为: 其中,BS为batch size,N为GPU/NPU的数量,step time是在分布式集群中执行完一个BS的时间(秒)。 |
tokens per second | NLP中常用的吞吐量指标,表示在单位时间内模型能够处理的token数量。用于评估模型的推理或训练性能。
计算公式为: 其中,token len为处理的文本中token的数量,cost time 为处理时间。 |
TFLOPs | FLOPs是Floating-point Operations Per Second的缩写,代表每秒所执行的浮点运算次数。
往往用TFLOPs衡量计算能力,即每秒执行万亿次浮点运算。 |
TP | 大模型训练时的并行策略,张量并行。
可以将大模型的张量拆分为多个小块,分散到多个设备上,从而加快训练和推理的速度。 详细可参考:张量并行。 |
PP | 大模型训练时的并行策略,流水线并行。
可以将模型的层或模块划分为多个阶段,并在不同的设备上并行执行这些阶段,从而提高计算效率和吞吐量。 详细可参考:流水线并行。 |
prompt | Prompt是一种由模型使用方提供的文本片段,用于在推理时引导大模型生成特定的输出。 |
cost time (或Inference time) | 推理时间,指完成一次推理过程所需的总时间。
包括加载模型、预处理输入、模型推理计算和后处理等步骤。 耗时越短,意味着模型推理速度越快。 |
Python 代码示例
关注后解锁
输出结果
{'samples/s': 0.14, 'tokens/s': 41, 'step_time': 7.2, 'cost_time': 7.2, 'N': 1, 'BS': 1, 'output_token_count': 297}
"samples/s": 0.14/秒,
"tokens/s": 41/秒,
"N": 1,
"BS": 1,
"step_time": 7.2/秒,
"cost_time": 7.2/秒,
"output_token_count": 297,
有一个叫小明的男孩,他很喜欢看书。有一天,他走进了一个图书馆,里面有各种各样的书。小明看着这些书,感到非常兴奋。
他开始挑选自己喜欢的书,然后坐下来开始阅读。他看了一会儿,突然听到了一个声音,好像是从一本书里传出来的。
小明好奇地走到书架旁,发现是一本魔法书。他打开魔法书,发现里面写着:“只要你念出咒语,就可以变成任何东西。”
小明非常兴奋,他开始念咒语:“变身,变身,变身!”
突然,小明变成了一个巨大的老虎。他跑出了图书馆,开始在街上寻找猎物。
他遇到了一只小鸟,问它:“你愿意和我一起玩吗?”小鸟吓坏了,飞走了。
小明又遇到了一只兔子,问它:“你愿意和我一起玩吗?”兔子也吓坏了,逃跑了。
小明感到非常孤单,他不知道该怎么办。他想变回原来的样子,但他不知道该念什么咒语。
他开始四处寻找,最终找到了魔法书。他念出了咒语:“解除变身,解除变身,解除变身!”
突然,小明变回了原来的样子,他感到非常高兴。他决定以后不再玩魔法书了,因为他知道魔法书是有危险的。
小明回家后,把魔法书放在了自己的书架上,从此再也没有看过它。