OCRmyPDF

ocrmypdf/OCRmyPDF
- MPL-2.0, Python
- adds an OCR text layer to scanned PDF
流程
- 光栅化
- 预处理
  - deskew
  - clean
- 准备图像
- OCR 识别
  - Tesseract OCR
- 渲染 OCR 层
PDF/A 格式
- 无字形字体（Glyphless Font）
- Form XObject
Tesseract 4+ OCR engine mode
- 0 - original Tesseract only
- 1 - neural nets LSTM only
- 2 - Tesseract + LSTM
- 3 - default

docker run --rm -i \
  --user "$(id -u):$(id -g)" \
  --workdir /data \
  -v "$PWD:/data" \
  jbarlow83/ocrmypdf-alpine \
  --keep-temporary-files \
  --image-dpi 300 \
  /data/input.jpg /data/output.pdf

docker run --rm -i \
  --entrypoint tesseract \
  jbarlow83/ocrmypdf-alpine \
  input.jpg output hocr