Pandoc and Tesseract
回顾关键点概述
-
Word 图片提取
1.1 使用pandoc
从 Word 文档中提取图片
1.2 创建media
文件夹来存储提取的图片 -
图片的 OCR 处理
2.1 Tesseract 的介绍和功能
2.2 在 macOS 上安装 Tesseract
2.3 批量处理图片的 bash 脚本
2.4 处理中文图片 -
输出和保存
3.1 将 OCR 结果保存为。txt 文件
3.2 结果验证和修正
从 Word 文档中批量提取图片并进行 OCR 处理教程:page_facing_up:
1。从 Word 文档中批量提取图片 📌
1.1 安装 pandoc 🛠
首先,我们需要安装 pandoc
,一个开源的文件转换工具,能处理。docx 格式的 Word 文件并提取其中的媒体文件。
- 对于 macOS 用户,使用下面的命令来通过 Homebrew 安装 pandoc:
1 | brew install pandoc |
1.2 使用 pandoc 提取图片 📸
- 在你的终端中,切换到包含 Word 文档的目录,然后使用下面的命令从 Word 文档中提取图片:
1 | pandoc source.docx --extract-media=. |
注意:在上述命令中,
source.docx
是你的 Word 文档的名称。该命令会在当前目录下创建一个名为media
的新目录,并将所有媒体文件提取到这个目录下。
2。批量进行图片的 OCR 处理 🔍
2.1 安装 Tesseract 🛠
Tesseract 是一个开源的 OCR 工具,由 Google 赞助,并且非常强大。
- 通过 Homebrew 在 macOS 上安装 Tesseract:
1 | brew install tesseract |
- 对于其他语言,例如中文,你需要额外安装对应的语言数据包:
1 | brew install tesseract-lang |
2.2 批量处理图片的 bash 脚本 💼
为了批量处理图片,我们可以使用下列 bash 脚本:
- 切换到包含你图片的目录,并使用以下脚本:
1 | for file in ./*.png; do |
若处理的是中文图片,需要指定简体中文为语言:
1 | for file in ./*.png; do |
3。输出和保存 OCR 结果 📝
3.1 保存为。txt 文件 💾
使用上述脚本,Tesseract 将为每个图片生成一个同名的。txt 文件,这个文件包含从图片中识别出的文本。
3.2 结果验证和修正 ✅
由于 OCR 并不总是 100%准确,特别是在处理低质量的图片或复杂的字体时。因此,最后的步骤应该是手动检查和修正识别出的文本。确保所有内容都被正确和完整地转换。
希望这份教程能帮助你高效地从 Word 文档中提取图片并进行 OCR 处理!🌟
评论