开云官网入口 - 开云kaiyun(中国)官网 AI 大模子的「汉文税」：汉文比英文更费 Token，为什么？

发布日期：2026-05-09 02:57 来源：未知作者：admin 浏览次数：

作家｜汤一涛

剪辑｜靖宇

Opus 4.7 刚发布那几天，X 上人言啧啧。有东谈主说一次对话就把她的 session 额度用光了，有东谈主说并吞段代码跑完的老本比上周翻了一倍多；还有东谈主晒出我方 200 好意思元 Max 订阅不到两小时就触顶的截图。

寥寂设备者 BridgeMind 承认 Claude 是宇宙上最佳的模子，但同期亦然最贵的模子。他的 Max 订阅用不到两小时就名额了，但幸好——他买了两份。｜图片来源：X@bridgemindai

Anthropic 官方价钱没变，每百万输入 token 仍是 5 好意思元，输出 25 好意思元。但这个版块引入了新 tokenizer，同期 Claude Code 把默许 effort 从 high 提到了 xhigh。两件事重复，并吞份服务花消的 token 变成了往时的 2 到 2.7 倍。

我在这些计议里看到两个和汉文相关的说法。一个是：汉文在新 tokenizer 下险些没涨，汉文用户躲过了此次加价。另一个更挑升念念：古文比当代汉语还省 token，用文言文跟 AI 对话不错省俭老本。

第一个说法暗意 Claude 对汉文作念了某种优化，但 Anthropic 的发布文档里，没提过任何和汉文考虑的周折。

第二个说法例更深奥释。古文对东谈主类读者来说赫然比当代汉语难解，一个对东谈主类更复杂的文本，若何会对 AI 更容易？

于是我作念了一次测试，用 22 段平行文本（包含买卖新闻、期间文档、古文、日常对话等类型），同期送进 5 个 tokenizer（Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3），读取每段文本在每个模子下的 token 数，作念横向对比。

测试文本：

1、日常对话中英文（旅行、论坛乞助、写稿央求）

2、期间文档中英文（python 文档、Anthropic 文档）

3、新闻中英文（NYT 时政新闻、NYT 买卖新闻、苹果公司官方声明）

4、体裁选段中英古汉语（《发兵表》《谈德经》）

测完之后，两个说法齐得到了部分考证，但事实会比传言更复杂一些。

汉文税

先说论断：

1、在 Claude 和 GPT 上，汉文一直比英文贵

2、在 Qwen 和 DeepSeek 上，汉文反而比英文低廉

3、 Opus 4.7 此次激发轰动的 tokenizer 升级，通胀险些只发生在英文上，汉文葫芦依样

看具体数字。Claude Opus 4.7 之前的全系列模子（包括 Opus 4.6、Sonnet、Haiku），使用的是并吞个 tokenizer。在这个 tokenizer 下，汉文的 token 花消全线高于等量英文骨子，cn/en 比值范围在 1.11× 到 1.64× 之间。

最顶点的场景出咫尺 NYT 作风的买卖新闻：并吞段骨子，汉文版要多花消 64% 的 token，等于多付 64% 的钱。

Opus 4.6 过头之前的 Claude 模子，汉文 token 的花消量权贵高于其它模子（红框）

最顶点的场景出咫尺 NYT 作风的买卖新闻：并吞段骨子，汉文版要多花消 64% 的 token（绿框）

GPT-4o 的 o200k tokenizer 好一些，cn/en 比值多申斥在 1.0 到 1.35× 之间，部分场景低于 1。汉文仍然全体偏贵，但差距比 Claude 小得多。

国产模子 Qwen 3.6 和 DeepSeek-V3 的数据则统统反了过来。两者的 cn/en 比值大面积低于 1，这意味着不异的骨子，汉文版反而比英文版省 token。 DeepSeek 最低作念到了 0.65×，并吞段话汉文版比英文版低廉三分之一。

Opus 4.7 的新 tokenizer 通胀险些只发生在英文上。英文 token 数推广了 1.24× 到 1.63×，汉文大宗保管在 1.000×，险些莫得变化。起原那些英文设备者的账单轰动，汉文用户照实没感受到。原因可能是汉文在旧版上还是被切到了单字颗粒度，可拆分的空间极小。

Opus 4.7 对比 4.6，英文花消的 token 更多了，汉文反而没变

测试经过中我还留意到一件事。token 花消的互异不仅仅账单问题，它径直影响服务空间的大小。不异 200k 高下文窗口，用旧版 Claude tokenizer 装汉文贵府，能塞进去的骨子量比英文少 40% 到 70%。

并吞类服务，比如让 AI 分析一份长文档或者是追究一组会议记录，汉文用户能喂给模子的材料更少，模子能参考的高下文更短。收尾即是付了更多的钱，但得到的是更小的服务空间。

四组数据放在沿路看，一个问题自然浮出来：

为什么并吞段骨子换个讲话，token 数就不一样？为什么 Claude 和 GPT 的汉文贵，Qwen 和 DeepSeek 的汉文反而低廉？

谜底藏在上文屡次提到的主张 tokenizer（分词器）上。

一个汉字，不错切成几块？

模子在读到任何笔墨之前，和会过 tokenizer 把输入切成一个个 token。你不错把 tokenizer 设想成 AI 的「积木切割机」。你输入一句话，它风雅把这句话拆成一块块标准化的积木（也即是 token）。AI 模子不看笔墨，只认积木的编号。你用几许块积木，就付几许钱。

英文的切法比拟合适直观，比如「intelligence」好像率是一个 token，「information」亦然一个 token，一个单词对应一个计费单元。

但汉文到了这一步就出问题了。把并吞句话「东谈主工智能正在重塑大家的信息基础重要」别离送进 GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer，切出来的收尾统统不同。

GPT-4 基本把每一个汉字齐拆成了一个 token；Qwen 则会把词语识别成一个 token，举例「东谈主工智能」这 4 个字在千问只算一个 token。

并吞句 16 个汉字的话，GPT-4 切出来 19 个 token，Qwen 切出来唯独 6 个。

为什么会切成这么？原因在一个叫 BPE（Byte Pair Encoding）的算法。

BPE 的服务样式，是统计测验语料里哪些字符组合出现频率最高，然后把高频组合合并成一个 token，纳入词表。

GPT-2 期间，测验语料的绝大多数是英文。英笔墨母组合（th、ing、tion）反复出现，很快就被合并成 token。中笔墨符在阿谁语料池里出现的频率太低，排不进词表，只可被看成原始字节来处理，一个汉字占 3 个字节，就变成了 3 个 token。

BPE 按测验语料中的字符频率决定合并。英文语料主导下，汉文 UTF-8 字节无法合并为整字

其后 GPT-4 的 cl100k 词表扩大了，常用汉字初始被纳入，一个字平方缩到 1 到 2 个 token，但全体成果仍然不如英文。

到了 GPT-4o 的 o200k 词表，汉文成果再进了一步。这也讲明了为什么第一段的数据里 GPT-4o 的 cn/en 比值比 Claude 低。

Qwen 和 DeepSeek 作为国产模子，从一初始就把大宗常用汉字和高频词组作为整字、整词纳入词表。一个字一个 token，成果径直翻倍以致更多。

并吞句话在不同 tokenizer 下的拆分收尾示意图

这即是为什么它们的 cn/en 比值能低于 1，中笔墨均信息密度原本就高于英文单词，当 tokenizer 不再东谈主为拆碎汉字，这个自然上风就炫耀出来了。

是以上一节那四组数据的互异，根源不在模子的技艺，而在 tokenizer 的词内外，给汉文留了几许位置。

Claude 和早期 GPT 的词表是以英文为默许值构建的，汉文是其后被「塞进去」的；Qwen 和 DeepSeek 的词表从遐想之初就把汉文看成默许讲话对待。这个起原的互异，一齐传导到 token 数、账单、高下文窗口大小。

古文果然更低廉吗？

再看起原的第二个传言：古文比当代汉语更省 token 。

数据阐发了这个说法。在测试里，古文样本的 cn/en 比值全线低于 1，在所有这个词五个 tokenizer 上齐一致。并吞段骨子的古文版块，token 数比对应英文翻译还少。

在所有这个词模子中，古文花消的 token 数不但比当代汉文少，以致比英文还少

原因也不复杂，古文用字十分精熟。「学而不念念则罔，念念而不学则殆」是 12 个字。翻译成当代汉语即是「仅仅学习而不念念考就会诱骗，仅仅念念考而不学习就会堕入窘境」，字数径直翻倍，token 数自然也随着翻倍。

而况古文的常用字（之、也、者、而、不）齐是高频字符，在职何 tokenizer 的词内外齐有寥寂位置，不会被拆成字节。是以古文在编码层面照实是高效的。

但这里藏着一个陷坑。

古文的 token 省在编码端，但模子的推理使命莫得减弱。「罔」一个字，模子需要判断它在这个语境里是「诱骗」「被蒙蔽」照旧「莫得」。当代汉语不错用 26 个字把这层道理说认识，用古文等于把铺开的部分压了且归，把推理的活留给了模子。打个譬如，一份压缩成 zip 的文献体积更小，但解压它需要更多计较。

token 省了，推理的花消反而高潮了，交融准确度还着落了。这笔账算不外来。

古文这个例子让我坚忍到，token 数目自己不成说明太多问题。但顺着这个方针想下去，还有一层我之前忽略了的东西。

上头说过，GPT-2 期间的 tokenizer 会把「东谈主」这个字拆成三个 UTF-8 字节 token，其后 GPT-4 的词表扩大，常用汉字变成了一个字一个 token，Qwen 更进一步，把「东谈主工智能」四个字合成一个 token。

直观上这是一个连续修订的经过：合并得越多，成果越高，模子应该也交融得越好。

但果然是这么吗？咱们不妨回忆一下，咱们是若何领悟汉字的。

汉字是表意笔墨，当代汉字里非凡 80% 是形声字，开云官网入口 - 开云kaiyun(中国)官网由一个表义的偏旁和一个表音的部件组合而成。「氵」旁的字多和液体相关，「木」旁的字多和植物相关，「火」旁的字多和热量相关。偏旁部首即是东谈主类识字时最基础的语义思路，一个不领悟「焱」字的东谈主，看到 3 个「火」也能猜到它和火相关。

因为偏旁部首是东谈主类识字时最基础的语义思路，东谈主会先从结构揣摸道理界限，再汇注语境交融具体含义。

火花、火焰、光焰，书面语与东谈主名中多见，寓意光明、燥热。

可是在 tokenizer 的词内外，「焱」这个字对应的是一个编号。咱们假定它是 38721 号，它代表的是词内外的一个索引位置，模子通过它查找到一组数字向量，用这组向量来表征「焱」这个字。

编号自己不佩戴任何干于这个字里面结构的信息。38721 和 38722 的关系，对模子来说和 1 和 10000 的关系莫得区别。于是，「汉字的结构」这一层信息，就被封装起来了。三个「火」叠在沿路这件事，在编号里不存在。

模子自然不错通过大宗测验数据蜿蜒学到「焱」「炎」「灼」时常出咫尺相似的语境里，但这条路比径直行使偏旁信息要更蜿蜒一些。

是以模子能不成从断绝的字节里，「看到」某些雷同偏旁的结构思路，然后在后续的计较层里再行组合呢？这条路固然 token 数多、老本高，但有莫得可能在语义交融上，反而比径直吞下一个不透明的编号更灵验？

2025 年发表在 MIT Press《Computational Linguistics》上的一篇论文（《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》），恢复了这个问题。

碎屑里长出偏旁

论文作家 David Haslett 留意到一个历史巧合。

1990 年代，Unicode 定约在给汉字分派 UTF-8 编码时，摆设方法是按部首归类排的。并吞个部首下的汉字，UTF-8 编码是相邻的。「茶」和「茎」齐含有「艹」部（草字头），它们的 UTF-8 字节序列以换取的字节起原。「河」和「海」齐含有「氵」部，字节序列不异分享起原。

UTF-8 按照部分部首方法给汉文排序，部首换取的字，编码邻近｜图片来源：Github

这意味着，当 tokenizer 把汉字拆成三个 UTF-8 字节 token 的时辰，分享部首的汉字会分享第一个 token。模子在测验经过中反复看到这些分享的字节风景，有可能从中学到「第一个 token 换取的字，频频属于并吞个道理界限」。这在功能上就接近于东谈主类通过偏旁判断语义的经过。

Haslett 遐想了三个践诺来考证这件事。

第一个践诺商榷 GPT-4、GPT-4o 和 Llama 3：「茶」和「茎」是否含有换取的语义部首？

第二个践诺让模子给两个汉字的语义相似度评分。

第三个践诺让模子作念「找出不同类」的根除任务。

每个践诺齐收敛了两个变量：两个汉字是否果然分享部首、两个汉字在 tokenizer 下是否分享第一个 token。这个 2×2 的遐想，让她能分离出部首效应和 token 效应各自的影响。

三个践诺的论断一致：当汉字被切成多个 token 时（比如 GPT-4 的旧 tokenizer 下，89% 的汉字被切成了多 token），模子识别分享部首的准确率更高；当汉字被编码为单个 token 时（GPT-4o 的新 tokenizer 下，唯独 57% 的汉字照旧多 token），准确率着落了。

换句话说，上一段的阿谁意想修复了。把汉字切碎，老本照实更高，但切碎后的字节序列里保留了部首的脚迹，模子果然从中学到了一些东西。而把汉字编码为整字 token，老本降下来了，但部首信息被封装在一个不透明的编号里，模子无法再通过字节序列取得这一思路。

需要额外说明的是，这一论断仅局限于字形考虑的细分语义任务，不成等同于模子全体的汉文交融、逻辑推理、长文本生成技艺着落。同期，践诺对比的 GPT-4 与 GPT-4o，除了分词器互异外，模子架构、测验语料、参数目均有权贵变化，无法将准确率变化 100% 归因于分词粒度的周折。

这个发现还得到了工程侧的考证。2024 年一项针对 GPT-4o 的研究发现，GPT-4o 的新 tokenizer 把某些中笔墨符组合合成了一个长 token 之后，模子反而出现了交融诞妄。当研究者用专科的汉文分词器，把这些长 token 再行断绝再喂给模子，交融准确度规复了。

咫尺大家大模子行业的主流共鸣，依然是针对方针讲话优化的整词 / 整字分词器，能权贵提高模子的全体性能。整字 / 整词编码不仅能大幅责备 token 老本、提高高下文窗口的灵验信息量，还能镌汰序列长度、责备推理延长、提高长文本处理的踏实性。论文中发现的细分任务上风，无法粉饰绝大多数汉文 NLP 场景的性能收益。

但这件事依然戳中了大型系统里最难处理的一类问题：你能优化你遐想过的部分，但你没法优化你不知谈我方领有的部分。 Unicode 定约按部首摆设编码，是为了东谈主类检索的便捷。BPE 把汉字拆成字节，是因为汉文在语料里的频率太低。两个不考虑的工程方案正值叠在沿路，产生了一条谁齐没筹谋过的语义通谈。

然后，当新一代工程师「修订」tokenizer、把汉字合并为整字 token 的时辰，他们同期抹掉了一条我方不知谈存在的路。成果提高了，老本责备了，某些东西也平定地灭亡了，而你以致不会收到一条报错信息。

是以事情比「汉文在 AI 里多付钱」这个判断更复杂。每一种 tokenizer 齐在为某个默许值优化，代价藏在了别处。

林语堂

汉文适配西方期间基础重要的代价，不是 AI 期间才初始付的。

2025 年 1 月，纽约住户 Nelson Felix 在 Facebook 一个打字机深爱者小组里发了几张像片。他在太太祖父的遗物里发现了一台刻满汉文的打字机，不知谈是什么来历。很快数百条驳斥涌入。

Nelson Felix 的问题：明快打字机值钱吗？｜图片来源：Facebook

斯坦福大学汉学家墨磊宁（Thomas S. Mullaney）看到像片后坐窝认出来了，这是林语堂 1947 年发明的「明快打字机」的唯独原型机，失散了快要 80 年。同庚 4 月，Felix 鸳侣将打字机卖给斯坦福大学藏书楼。

明快打字机密治理的问题，和今天 tokenizer 面临的问题在结构上是并吞个：若何把汉文高效地镶嵌一套为西方讲话遐想的期间基础重要。

1940 年代的英文打字机有 26 个字母键，一键一字，浅薄径直。汉文有几千个常用字，不可能一键一字。那时的汉文打字机是一个重大的字盘，排着几千个铅字，打字员用手逐一捡字，每分钟只可打十几个字。

1899 年，好意思国布道士谢卫楼（Devello Z. Sheffield）所发明的汉文打字机，是汉文打字机最早的记录｜图片来源：Wikipedia

林语堂耗资 12 万好意思元研发经费，险些瓮尽杯干，托付纽约的 Carl E. Krum 公司作念出了一台唯独 72 个键的汉文打字机。服务道理是把汉字按字形结构断绝，上形键选字根上半部、下形键选字根下半部，候选字炫耀在一个叫「魔术眼」的小窗里，按数字键选中。每分钟 40 到 50 字，接济 8000 余常用字符。

（左）透明玻璃小窗即位「魔术眼」；（右）明快打字机里面结构｜图片来源：Facebook

赵元任评价：「不论中国东谈主照旧好意思国东谈主，只消稍加学习，便能闇练这一键盘。我觉得这即是咱们所需要的打字机了。」

期间上明快打字机是一种禁绝，但买卖上它失败了。

林语堂向雷明顿公司高管演示时机器出了故障，投资者随之失去敬爱，而造价崇高加上他个东谈主资金链断裂，量产再无可能。1948 年，林语堂将原型机和买卖权，卖给默根特勒铸排机公司（Mergenthaler Linotype）。该公司最终毁灭量产，原型机在 1950 年代公司搬迁时被一位职工带回长岛家中，之后不知所终，直到 2025 年重睹天日。

墨磊宁在《汉文打字机》一书里有一个判断，他觉得明快打字机「并不失败」。作为一款 1940 年代的居品，它照实失败了。但作为一种东谈主机交互范式，它告捷了。

林语堂第一次把汉文「打字」变成了「检索加采用」。三排按键组合定位字根，从候选字里挑选。这恰是所有这个词当代汉文输入法的底层逻辑。从仓颉、五笔到搜狗拼音，齐不错说是明快打字机的后裔。

《汉文打字机》，作家：墨磊宁｜图片来源：豆瓣

这台越过了近八十年的打字机，和今天咱们反复计议的分词器，躲避着某种的历史功令。汉文历久面临着一个问题：

若何接入一套罗马字母变成的基础重要。

真谛的是，在这个寻找的经过中，充满了非东谈主为筹谋的巧合。Unicode 定约为了东谈主类检索便捷制定的排序，跟 BPE 算法的无心拆解叠在沿路，居然在神经集合的黑盒里，重现了东谈主类识字的经过。而当工程师们为了放置「汉文税」，主动把汉字拼好、把老本打下来时，那条只怕出身的语义通谈也闭合了。

历史并不是一条直线进化的轨谈，而是在多样敛迹条目的挤压下，连续发生变形的流体。

有些技艺是遐想出来的，有些仅仅正值莫得被删掉。

* 头图来源： geyuyao.com开云官网入口 - 开云kaiyun(中国)官网

皇冠app(中国)官网入口

上一篇：上一篇：开云kaiyun中国官网入口豆包收费，别掉进Grok的坑里

下一篇：下一篇：开云官网入口谷歌、英伟达押注，这家估值 40 亿好意思元的 AI 公司，想把科学家径直干掉

关于开云

开云官网入口 - 开云kaiyun(中国)官网 AI 大模子的「汉文税」：汉文比英文更费 Token，为什么？

校园生活

快捷入口

关于我们