回顾关键点概述

  1. Word 图片提取
    1.1 使用 pandoc 从 Word 文档中提取图片
    1.2 创建 media 文件夹来存储提取的图片

  2. 图片的 OCR 处理
    2.1 Tesseract 的介绍和功能
    2.2 在 macOS 上安装 Tesseract
    2.3 批量处理图片的 bash 脚本
    2.4 处理中文图片

  3. 输出和保存
    3.1 将 OCR 结果保存为。txt 文件
    3.2 结果验证和修正


从 Word 文档中批量提取图片并进行 OCR 处理教程:page_facing_up:

1。从 Word 文档中批量提取图片 📌

1.1 安装 pandoc 🛠

首先,我们需要安装 pandoc,一个开源的文件转换工具,能处理。docx 格式的 Word 文件并提取其中的媒体文件。

  • 对于 macOS 用户,使用下面的命令来通过 Homebrew 安装 pandoc:
1
brew install pandoc

1.2 使用 pandoc 提取图片 📸

  • 在你的终端中,切换到包含 Word 文档的目录,然后使用下面的命令从 Word 文档中提取图片:
1
pandoc source.docx --extract-media=.

注意:在上述命令中,source.docx 是你的 Word 文档的名称。该命令会在当前目录下创建一个名为 media 的新目录,并将所有媒体文件提取到这个目录下。

2。批量进行图片的 OCR 处理 🔍

2.1 安装 Tesseract 🛠

Tesseract 是一个开源的 OCR 工具,由 Google 赞助,并且非常强大。

  • 通过 Homebrew 在 macOS 上安装 Tesseract:
1
brew install tesseract
  • 对于其他语言,例如中文,你需要额外安装对应的语言数据包:
1
brew install tesseract-lang

2.2 批量处理图片的 bash 脚本 💼

为了批量处理图片,我们可以使用下列 bash 脚本:

  • 切换到包含你图片的目录,并使用以下脚本:
1
2
3
4
for file in ./*.png; do
echo "Processing $file"
tesseract "$file" "${file%.*}"
done

若处理的是中文图片,需要指定简体中文为语言:

1
2
3
4
for file in ./*.png; do
echo "Processing $file"
tesseract "$file" "${file%.*}" -l chi_sim
done

3。输出和保存 OCR 结果 📝

3.1 保存为。txt 文件 💾

使用上述脚本,Tesseract 将为每个图片生成一个同名的。txt 文件,这个文件包含从图片中识别出的文本。

3.2 结果验证和修正

由于 OCR 并不总是 100%准确,特别是在处理低质量的图片或复杂的字体时。因此,最后的步骤应该是手动检查和修正识别出的文本。确保所有内容都被正确和完整地转换。


希望这份教程能帮助你高效地从 Word 文档中提取图片并进行 OCR 处理!🌟