IT博客汇
首页
精华
技术
设计
资讯
扯淡
权利声明
登录
注册
OpenAI的子词标记化神器--tiktoken 以及 .NET 支持库SharpToken - 张善友
张善友
发表于
2023-04-23 14:44:00
love
0
【摘要】经过 Tokenize 之后,一串文本就变成了一串整数组成的向量。OpenAI 的 Tiktoken 是 更高级的 Tokenizer , 编码效率更高、支持更大的词汇表、计算性能也更高。 OpenAI在其官方GitHub上公开了一个开源Python库:tiktoken,这个库主要是用力做字节编码对
阅读全文