Data-Files
训练数据文件
我们有三套由谷歌训练的官方 .traineddata 文件,适用于 tesseract 4.00 及更高版本。这些文件分别存放在三个不同的代码仓库中。
- tessdata_fast(2017 年 9 月)在速度与准确性之间具有最佳的 “性价比”,采用
Integer(整数)模型。 - tessdata_best(2017 年 9 月)在谷歌的评估数据上能取得最佳结果,速度较慢,采用
Float(浮点数)模型。这些是唯一可以用作微调训练基础的模型。 - tessdata(2016 年 11 月和 2017 年 9 月)这些包含 2016 年的旧版 Tesseract 模型。长短期记忆(LSTM)模型已使用
tessdata_best长短期记忆模型的整数版本进行了更新。(基于 Cube 的印地语、阿拉伯语等旧版 Tesseract 模型已被删除)。
当使用来自 tessdata_best 和 tessdata_fast 代码仓库的训练数据文件时,仅支持基于新的长短期记忆(LSTM)的光学字符识别(OCR)引擎(--oem 1)。这些文件不支持旧 版 Tesseract 引擎(--oem 0),所以 Tesseract 的 oem 模式 '0' 和 '2' 对它们不起作用。
特殊数据文件
| 语言代码 | 描述 | 4.x/3.0x 训练数据文件 |
|---|---|---|
| osd | 方向和文字脚本检测 | osd.traineddata |
| equ | 数学 / 公式检测 | equ.traineddata |
注意:这两个数据文件与旧版本的 Tesseract 兼容。osd 与 3.01 及更高版本兼容,equ 与 3.02 及更高版本兼容。
更新后的数据文件(2017 年 9 月 15 日)
我们在 GitHub 上的三个不同代码仓库中有三套 .traineddata 文件。这些文件与 Tesseract 4.0x + 和 5.0.0.Alpha 兼容。
| 训练模型 | 速度 | 准确性 | 支持旧版识别器 | 可重新训练 | |
|---|---|---|---|---|---|
| tessdata | 旧版 + 长短期记忆(LSTM)(整数化的 tessdata_best 模型) | 比 tessdata_best 快 | 准确性略低于 tessdata_best | 是 | 否 |
| tessdata_best | 仅长短期记忆(LSTM)(基于 langdata) | 最慢 | 最准确 | 否 | 是 |
| tessdata_fast | 比 tessdata_best 网络更小的整数化长短期记忆(LSTM)模型 | 最快 | 最不准确 | 否 | 否 |
大多数用户会需要 tessdata_fast,并且它将作为 Linux 发行版的一部分发布。
tessdata_best 适合那些愿意牺牲大量速度以换取稍高准确性的用户。对于高级用户,它也是唯一一套可用于某些重新训练场景的文件。
tessdata 中的第三套文件是唯一支持旧版识别器的 。2016 年 11 月的 4.00 文件同时包含旧版和较旧的长短期记忆(LSTM)模型。tessdata 中的当前文件集包含旧版模型和较新的长短期记忆(LSTM)模型(tessdata_best 中 4.00.00 alpha 模型的整数版本)。
注意:当使用 tessdata_best 和 tessdata_fast 代码仓库中的新模型时,仅支持基于新的长短期记忆(LSTM)的光学字符识别(OCR)引擎。这些文件不支持旧版引擎,所以 Tesseract 的 oem 模式 '0' 和 '2' 对它们不起作用。
4.00 版本的数据文件(2016 年 11 月 29 日)
tessdata 标记为 4.0.0 包含 2017 年 9 月的模型,这些模型已使用 tessdata_best 长短期记忆(LSTM)模型的 Integer(整数)版本进行了更新。这套训练数据文件支持使用 --oem 0 的旧版识别器以及使用 --oem 1 的长短期记忆(LSTM)模型。
tessdata 标记为 4.00 包含 2016 年的模型。各个语言文件的链接列在下面的表格中。
注意:kur 数据文件自 3.04 版本后未更新。对于哥特体(Fraktur),请使用来自 tessdata_fast 或 tessdata_best 代码仓库的较新数据文件。