docling/tests/data_scanned/groundtruth/docling_v1/ocr_test.json
Clément Doumouro bba05d1c37 fix(layout,table): orientation-aware layout and table detection
Signed-off-by: Clément Doumouro <clement.doumouro@gmail.com>
2025-07-09 17:03:58 +02:00

267 lines
5.1 KiB
JSON
Vendored

{
"_name": "",
"type": "pdf-document",
"description": {
"title": null,
"abstract": null,
"authors": null,
"affiliations": null,
"subjects": null,
"keywords": null,
"publication_date": null,
"languages": null,
"license": null,
"publishers": null,
"url_refs": null,
"references": null,
"publication": null,
"reference_count": null,
"citation_count": null,
"citation_date": null,
"advanced": null,
"analytics": null,
"logs": [],
"collection": null,
"acquisition": null
},
"file-info": {
"filename": "ocr_test.pdf",
"filename-prov": null,
"document-hash": "4220c26a23a085eeca7ed3904ae0952e7e73458e65ce19e56170a9ce095b2313",
"#-pages": 1,
"collection-name": null,
"description": null,
"page-hashes": [
{
"hash": "07ff68c95cc6ec01fb38d02dc5d5efc466f3cfbf2e1dcb6c16b4e722d7f9f657",
"model": "default",
"page": 1
}
]
},
"main-text": [
{
"prov": [
{
"bbox": [
201.26343,
690.10254,
417.96021,
719.14941
],
"page": 1,
"span": [
0,
20
],
"__ref_s3_data": null
}
],
"text": "This is a table test",
"type": "subtitle-level-1",
"payload": null,
"name": "Section-header",
"font": null
},
{
"prov": [
{
"bbox": [
72.0,
655.42273,
376.27319,
667.7117899999998
],
"page": 1,
"span": [
0,
61
],
"__ref_s3_data": null
}
],
"text": "The test starts with some random text and then a table image:",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
},
{
"prov": [
{
"bbox": [
275.33333333333337,
601.0,
343.66666666666663,
609.6666666666666
],
"page": 1,
"span": [
0,
11
],
"__ref_s3_data": null
}
],
"text": "Some column",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
},
{
"prov": [
{
"bbox": [
381.3333333333333,
601.0,
479.3333333333333,
609.6666666666666
],
"page": 1,
"span": [
0,
17
],
"__ref_s3_data": null
}
],
"text": "Some other column",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
},
{
"prov": [
{
"bbox": [
175.0,
554.6666666666667,
225.66666666666669,
563.3333333333333
],
"page": 1,
"span": [
0,
8
],
"__ref_s3_data": null
}
],
"text": "Some row",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
},
{
"prov": [
{
"bbox": [
286.0,
554.6666666666667,
333.0,
563.3333333333333
],
"page": 1,
"span": [
0,
9
],
"__ref_s3_data": null
}
],
"text": "some cell",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
},
{
"prov": [
{
"bbox": [
398.3333333333333,
554.6666666666667,
463.0,
563.3333333333333
],
"page": 1,
"span": [
0,
12
],
"__ref_s3_data": null
}
],
"text": "have content",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
},
{
"prov": [
{
"bbox": [
160.33333333333334,
508.33333333333337,
240.33333333333331,
517.0
],
"page": 1,
"span": [
0,
14
],
"__ref_s3_data": null
}
],
"text": "Some other row",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
},
{
"prov": [
{
"bbox": [
283.0,
508.33333333333337,
336.33333333333337,
517.0
],
"page": 1,
"span": [
0,
11
],
"__ref_s3_data": null
}
],
"text": "other don't",
"type": "paragraph",
"payload": null,
"name": "Text",
"font": null
}
],
"figures": [],
"tables": [],
"bitmaps": null,
"equations": [],
"footnotes": [],
"page-dimensions": [
{
"height": 792.0,
"page": 1,
"width": 612.0
}
],
"page-footers": [],
"page-headers": [],
"_s3_data": null,
"identifiers": null
}