Skip to main content

Paddle

caution
  • 通用框架,但 Paddle 主要中文 OCR, NLP 做得好
  • 知识学习存在一定迁移成本和损耗
# CPU
pip install paddlepaddle
# GPU
pip install paddlepaddle-gpu

# Check
python -c "import paddle; print(paddle.__version__)"

# Docker
# 百度镜像 registry.baidubce.com/paddlepaddle/paddle:3.0.0b1
docker run --rm -it -v $PWD:/host --entrypoint /host --name paddle paddlepaddle/paddle /bin/bash

Awsome

abbr.stand formeaning
OCROptical Character Recognition光学字符识别
KIEKey Information Extraction关键信息提取
SERStructured Entity Recognition结构化实体识别
RERelation Extraction关系抽取
FGDFine-grained Document细粒度文档
CDLACommon Document Layout Annotations通用文档布局注释

Layout

layout_publaynet_dict.txt
text
title
list
table
figure
layout_cdla_dict.txt
text
title
figure
figure_caption
table
table_caption
header
footer
reference
equation
dataset简介
cTDaR2019_cTDaR用于表格检测(TRACKA)和表格识别(TRACKB)。图片类型包含历史数据集(以cTDaR_t0开头,如cTDaR_t00872.jpg)和现代数据集(以cTDaR_t1开头,cTDaR_t10482.jpg)。
IIIT-AR-13K手动注释公开的年度报告中的图形或页面而构建的数据集,包含5类:table, figure, natural image, logo, and signature
CDLA中文文档版面分析数据集,面向中文文献类(论文)场景,包含10类:Text、Title、Figure、Figure caption、Table、Table caption、Header、Footer、Reference、Equation
TableBank用于表格检测和识别大型数据集,包含Word和Latex2种文档格式
DocBank使用弱监督方法构建的大规模数据集(500K文档页面),用于文档布局分析,包含12类:Author、Caption、Date、Equation、Figure、Footer、List、Paragraph、Reference、Section、Table、Title

PaddleX

docker run --rm -it \
-v $PWD:/paddle --shm-size=8G \
--network=host \
--name paddlex ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddle:3.0.0b2 /bin/bash

Paddle2ONNX