Skip to main content

Data-Files

训练数据文件

我们有三套由谷歌训练的官方 .traineddata 文件,适用于 tesseract 4.00 及更高版本。这些文件分别存放在三个不同的代码仓库中。

  • tessdata_fast(2017 年 9 月)在速度与准确性之间具有最佳的 “性价比”,采用 Integer(整数)模型。
  • tessdata_best(2017 年 9 月)在谷歌的评估数据上能取得最佳结果,速度较慢,采用 Float(浮点数)模型。这些是唯一可以用作微调训练基础的模型。
  • tessdata(2016 年 11 月和 2017 年 9 月)这些包含 2016 年的旧版 Tesseract 模型。长短期记忆(LSTM)模型已使用 tessdata_best 长短期记忆模型的整数版本进行了更新。(基于 Cube 的印地语、阿拉伯语等旧版 Tesseract 模型已被删除)。

当使用来自 tessdata_besttessdata_fast 代码仓库的训练数据文件时,仅支持基于新的长短期记忆(LSTM)的光学字符识别(OCR)引擎(--oem 1)。这些文件不支持旧版 Tesseract 引擎(--oem 0),所以 Tesseract 的 oem 模式 '0' 和 '2' 对它们不起作用。

特殊数据文件

语言代码描述4.x/3.0x 训练数据文件
osd方向和文字脚本检测osd.traineddata
equ数学 / 公式检测equ.traineddata

注意:这两个数据文件与旧版本的 Tesseract 兼容。osd 与 3.01 及更高版本兼容,equ 与 3.02 及更高版本兼容。

更新后的数据文件(2017 年 9 月 15 日)

我们在 GitHub 上的三个不同代码仓库中有三套 .traineddata 文件。这些文件与 Tesseract 4.0x + 和 5.0.0.Alpha 兼容。

训练模型速度准确性支持旧版识别器可重新训练
tessdata旧版 + 长短期记忆(LSTM)(整数化的 tessdata_best 模型)tessdata_best准确性略低于 tessdata_best
tessdata_best仅长短期记忆(LSTM)(基于 langdata最慢最准确
tessdata_fasttessdata_best 网络更小的整数化长短期记忆(LSTM)模型最快最不准确

大多数用户会需要 tessdata_fast,并且它将作为 Linux 发行版的一部分发布。

tessdata_best 适合那些愿意牺牲大量速度以换取稍高准确性的用户。对于高级用户,它也是唯一一套可用于某些重新训练场景的文件。

tessdata 中的第三套文件是唯一支持旧版识别器的。2016 年 11 月的 4.00 文件同时包含旧版和较旧的长短期记忆(LSTM)模型。tessdata 中的当前文件集包含旧版模型和较新的长短期记忆(LSTM)模型(tessdata_best 中 4.00.00 alpha 模型的整数版本)。

注意:当使用 tessdata_besttessdata_fast 代码仓库中的新模型时,仅支持基于新的长短期记忆(LSTM)的光学字符识别(OCR)引擎。这些文件不支持旧版引擎,所以 Tesseract 的 oem 模式 '0' 和 '2' 对它们不起作用。

4.00 版本的数据文件(2016 年 11 月 29 日)

tessdata 标记为 4.0.0 包含 2017 年 9 月的模型,这些模型已使用 tessdata_best 长短期记忆(LSTM)模型的 Integer(整数)版本进行了更新。这套训练数据文件支持使用 --oem 0 的旧版识别器以及使用 --oem 1 的长短期记忆(LSTM)模型。

tessdata 标记为 4.00 包含 2016 年的模型。各个语言文件的链接列在下面的表格中。

注意kur 数据文件自 3.04 版本后未更新。对于哥特体(Fraktur),请使用来自 tessdata_fasttessdata_best 代码仓库的较新数据文件。

语言代码语言4.0 训练数据文件
afr南非荷兰语afr.traineddata
amh阿姆哈拉语amh.traineddata
ara阿拉伯语ara.traineddata
asm阿萨姆语asm.traineddata
aze阿塞拜疆语aze.traineddata
aze_cyrl阿塞拜疆语(西里尔字母)aze_cyrl.traineddata
bel白俄罗斯语bel.traineddata
ben孟加拉语ben.traineddata
bod藏语bod.traineddata
bos波斯尼亚语bos.traineddata
bul保加利亚语bul.traineddata
cat加泰罗尼亚语;瓦伦西亚语cat.traineddata
ceb宿务语ceb.traineddata
ces捷克语ces.traineddata
chi_sim中文 - 简体chi_sim.traineddata
chi_tra中文 - 繁体chi_tra.traineddata
chr切罗基语chr.traineddata
cym威尔士语cym.traineddata
dan丹麦语dan.traineddata
deu德语deu.traineddata
dzo宗卡语dzo.traineddata
ell现代希腊语(1453 年 - 至今)ell.traineddata
eng英语eng.traineddata
enm中世纪英语(1100 - 1500 年)enm.traineddata
epo世界语epo.traineddata
est爱沙尼亚语est.traineddata
eus巴斯克语eus.traineddata
fas波斯语fas.traineddata
fin芬兰语fin.traineddata
fra法语fra.traineddata
frk德语哥特体frk.traineddata
frm中世纪法语(约 1400 - 1600 年)frm.traineddata
gle爱尔兰语gle.traineddata
glg加利西亚语glg.traineddata
grc古希腊语(-1453 年)grc.traineddata
guj古吉拉特语guj.traineddata
hat海地语;海地克里奥尔语hat.traineddata
heb希伯来语heb.traineddata
hin印地语hin.traineddata
hrv克罗地亚语hrv.traineddata
hun匈牙利语hun.traineddata
iku因纽特语iku.traineddata
ind印度尼西亚语ind.traineddata
isl冰岛语isl.traineddata
ita意大利语ita.traineddata
ita_old古意大利语ita_old.traineddata
jav爪哇语jav.traineddata
jpn日语jpn.traineddata
kan卡纳达语kan.traineddata
kat格鲁吉亚语kat.traineddata
kat_old古格鲁吉亚语kat_old.traineddata
kaz哈萨克语kaz.traineddata
khm高棉语khm.traineddata
kir吉尔吉斯语kir.traineddata
kor韩语kor.traineddata
kur库尔德语kur.traineddata
lao老挝语lao.traineddata
lat拉丁语lat.traineddata
lav拉脱维亚语[lav.traineddata](https://github.com/tesseract-ocr/tessdata/raw/4.00/lav