Skip to main content

OCRmyPDF

  • ocrmypdf/OCRmyPDF
    • MPL-2.0, Python
    • adds an OCR text layer to scanned PDF
  • 流程
    • 光栅化
    • 预处理
      • deskew
      • clean
    • 准备图像
    • OCR 识别
      • Tesseract OCR
    • 渲染 OCR 层
  • PDF/A 格式
    • 无字形字体(Glyphless Font)
    • Form XObject
  • Tesseract 4+ OCR engine mode
    • 0 - original Tesseract only
    • 1 - neural nets LSTM only
    • 2 - Tesseract + LSTM
    • 3 - default
docker run --rm -i \
--user "$(id -u):$(id -g)" \
--workdir /data \
-v "$PWD:/data" \
jbarlow83/ocrmypdf-alpine \
--keep-temporary-files \
--image-dpi 300 \
/data/input.jpg /data/output.pdf

docker run --rm -i \
--entrypoint tesseract \
jbarlow83/ocrmypdf-alpine \
input.jpg output hocr