你可能没听说过“词元”这个词,但你几乎一定用过它。你或许对它的英文名更熟悉——Token。今天上午,国务院新闻办公室举行新闻发布会,介绍第九届数字中国建设峰会有关情况
你可能没听说过“词元”这个词,但你几乎一定用过它。你或许对它的英文名更熟悉——Token。

今天上午,国务院新闻办公室举行新闻发布会,介绍第九届数字中国建设峰会有关情况。国家数据局局长刘烈宏透露,截至今年3月,我国日均Token调用量已超过140万亿。他特意补充了一句——“也就是词元的调用量”。

这被不少业内人士解读为一个标志性时刻:Token这个AI领域最核心的技术术语,终于有了官方认可的中文名字。

140万亿是什么概念?Token又是什么?为什么它的调用量会被官方当作一个关键指标来发布?这些问题正悄悄揭开一个属于普通人的新世界。
词元(Token)是大模型处理信息的“最小信息单元”,具备可计量、可定价、可交易的核心特征。对于不常接触AI领域的人来说,这段话还是有些抽象。几位AI大模型给出了通俗易懂的解释:
千问将大模型比作超级大厨,把信息比作食材,词元则是大厨眼中“一口能吃掉的最小单位”。词元是AI理解和生成信息的最小计量单位。你问AI一个问题,它“吃”进去多少个词元,又“吐”出来多少个词元,就是它的工作量。
元宝则把Token想象成AI世界里的“字”或“词”,是对文字、符号甚至图片的一小段信息的切分结果。例如,“今天天气不错。”在AI内部会被拆成几个词元:“今”“天”“天气”“不”“错”“。”这些词元是AI用来理解和生成内容的“最小砖块”。