需要从图片或截图中提取文字,但不希望将敏感内容上传到云端服务。
Tesseract.js 完全在浏览器中运行 OCR 识别,您的数据始终留在本地设备上,无需任何网络传输。
01 什么是 OCR,它是如何工作的?
OCR(Optical Character Recognition,光学字符识别)是一种将图片中的印刷体或手写文字转换为可编辑文本的技术。它广泛应用于文档数字化、数据录入和信息提取等场景。
传统 OCR 工具通常依赖云端服务器进行运算,这意味着您的图片需要上传到第三方。而 Tesseract.js 是一个基于 WebAssembly 的开源 OCR 引擎,能够完全在浏览器中本地运行,无需任何服务器交互。
整个识别过程包括:图像预处理、文字区域检测、字符分割和模式匹配,最终输出识别后的纯文本。
Tesseract.js 首次加载时会下载语言模型文件(约几 MB),之后会被浏览器缓存,后续使用将更加迅速。
02 上传图片进行文字识别
使用非常简单:点击上传区域或将图片直接拖拽到页面中即可开始识别。支持 PNG、JPG、JPEG、BMP、WebP 等常见图片格式。
为了获得最佳识别效果,建议上传分辨率清晰、文字对比度高的图片。模糊、倾斜或低分辨率的图片可能会降低识别准确率。
- PNG — 推荐格式,无损压缩保留细节
- JPG/JPEG — 照片截图常用格式
- BMP — 无压缩位图格式
- WebP — 现代浏览器支持的高效格式
03 选择正确的语言以获得最佳准确率
OCR 引擎依赖预训练的语言模型来识别字符。选择与图片中文字匹配的语言是提高识别准确率的关键步骤。
如果文档中包含多种语言(例如中英混排),您可以同时选择多种语言模型。但需要注意的是,选择过多的语言模型可能会增加处理时间并略微降低单一语言的识别精度。
对于中文内容,建议选择"简体中文"或"繁体中文"模型;英文内容默认使用英文模型即可获得出色的识别效果。
如果不确定文档使用的语言,可以先用英文模型试一次——英文模型通常也能部分识别其他拉丁字母语言。
04 获取和复制识别结果
识别完成后,提取的文字将显示在结果区域中。您可以直接选中文字进行复制,也可以使用一键复制按钮将全部文本复制到剪贴板。
识别结果为纯文本格式,您可以直接粘贴到文档编辑器、邮件、笔记应用或任何需要的地方。如果发现个别字符识别有误,可以手动修正后再使用。
由于所有处理都在本地完成,即使在识别完成后关闭浏览器,您的图片也不会被任何服务器存储或记录。
常见问题
浏览器端 OCR 的识别准确率如何?
对于清晰的印刷体文本,Tesseract.js 的识别准确率通常在 90% 以上。准确率取决于图片质量、文字大小、字体类型和语言模型的选择。高分辨率、高对比度的图片能获得最佳效果。
识别过程中我的图片数据会被上传吗?
完全不会。所有 OCR 处理都在您的浏览器中本地进行,没有任何图片或文本数据会被发送到外部服务器。这是我们工具的核心优势之一。
OCR 能识别手写文字吗?
Tesseract.js 主要针对印刷体文字进行了优化。对于规整的手写体,可能会有部分识别效果,但准确率会明显低于印刷体。对于复杂的手写文字,建议使用专业的手写识别服务。
识别大图片或多页文档时速度慢怎么办?
处理速度取决于您设备的性能和图片大小。建议裁剪图片只保留文字区域,或降低图片分辨率至适当水平(300 DPI 通常足够)。分批处理多页文档也是一个有效的优化方法。
哪些浏览器支持此 OCR 工具?
所有支持 WebAssembly 的现代浏览器都可以使用,包括 Chrome、Firefox、Edge 和 Safari 的最新版本。建议使用最新版本的浏览器以获得最佳性能和兼容性。