Skip to main content

TextExtract

基于 Tesseract OCR 的一款开源的光学字符识别引擎。能够识别多种语言的文字，包括但不限于英语、中文、法语、德语等。

支持多种语言：Tesseract 能够识别多种语言的文字，包括但不限于英语、中文、法语、德语等。通过训练数据的扩展，其语言识别能力还在不断增强。
高识别准确率：在经过大量数据训练和优化后，对于清晰的文档图像，Tesseract 可以达到较高的识别准确率。它能够处理多种字体、字号和排版格式的文字，对噪声和图像变形有一定的鲁棒性。
可定制性强：用户可以根据自己的需求对 Tesseract 进行定制，例如训练自己的字库模型，以提高对特定领域或特殊字体的识别效果。此外，还可以调*整各种参数来优化识别过程，适应不同的应用场景。

TextExtract

子流程

不支持

运行参数

图像

包含文字的图片。

数据文件

默认值为 NULL，包含了英语、中文 - 简体 和 中文 - 繁体。它指定了 Tesseract 数据文件所在的路径。其它语言需要下载对应的数据文件，参考：训练数据文件。

识别语言

默认值为 "eng"。它指定了要识别的语言，可以使用 ISO 639-3 语言代码来指定语言，例如 "eng" 表示英语，"chi_sim" 表示简体中文。如果要同时识别多种语言，可以用 "+" 连接不同的语言代码，如 "eng+chi_sim"，参考： Tesseract 支持的语言

页面分割模式

默认值为 AUTO 。它指的是页面分割模式（Page Segmentation Mode），决定了 Tesseract 如何对图像中的页面进行分割和识别，例如是按行识别、按单词识别还是按单个字符识别等。参考：PageSegMode。

输出

识别结果, 参考： RecognitionResults。

其它

示例 https://github.com/shelllet/WinUi/blob/main/dnn/TextRecognition.simple

子流程
运行参数
输出
- 其它