mirror of
https://github.com/DS4SD/docling.git
synced 2025-07-26 12:04:31 +00:00
267 lines
5.1 KiB
JSON
Vendored
267 lines
5.1 KiB
JSON
Vendored
{
|
|
"_name": "",
|
|
"type": "pdf-document",
|
|
"description": {
|
|
"title": null,
|
|
"abstract": null,
|
|
"authors": null,
|
|
"affiliations": null,
|
|
"subjects": null,
|
|
"keywords": null,
|
|
"publication_date": null,
|
|
"languages": null,
|
|
"license": null,
|
|
"publishers": null,
|
|
"url_refs": null,
|
|
"references": null,
|
|
"publication": null,
|
|
"reference_count": null,
|
|
"citation_count": null,
|
|
"citation_date": null,
|
|
"advanced": null,
|
|
"analytics": null,
|
|
"logs": [],
|
|
"collection": null,
|
|
"acquisition": null
|
|
},
|
|
"file-info": {
|
|
"filename": "ocr_test.pdf",
|
|
"filename-prov": null,
|
|
"document-hash": "4220c26a23a085eeca7ed3904ae0952e7e73458e65ce19e56170a9ce095b2313",
|
|
"#-pages": 1,
|
|
"collection-name": null,
|
|
"description": null,
|
|
"page-hashes": [
|
|
{
|
|
"hash": "07ff68c95cc6ec01fb38d02dc5d5efc466f3cfbf2e1dcb6c16b4e722d7f9f657",
|
|
"model": "default",
|
|
"page": 1
|
|
}
|
|
]
|
|
},
|
|
"main-text": [
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
201.26343,
|
|
690.10254,
|
|
417.96021,
|
|
719.14941
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
20
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "This is a table test",
|
|
"type": "subtitle-level-1",
|
|
"payload": null,
|
|
"name": "Section-header",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
72.0,
|
|
655.42273,
|
|
376.27319,
|
|
667.7117899999998
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
61
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "The test starts with some random text and then a table image:",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
275.33333333333337,
|
|
601.0,
|
|
343.66666666666663,
|
|
609.6666666666666
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
11
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "Some column",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
381.3333333333333,
|
|
601.0,
|
|
479.3333333333333,
|
|
609.6666666666666
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
17
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "Some other column",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
175.0,
|
|
554.6666666666667,
|
|
225.66666666666669,
|
|
563.3333333333333
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
8
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "Some row",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
286.0,
|
|
554.6666666666667,
|
|
333.0,
|
|
563.3333333333333
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
9
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "some cell",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
398.3333333333333,
|
|
554.6666666666667,
|
|
463.0,
|
|
563.3333333333333
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
12
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "have content",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
160.33333333333334,
|
|
508.33333333333337,
|
|
240.33333333333331,
|
|
517.0
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
14
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "Some other row",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
},
|
|
{
|
|
"prov": [
|
|
{
|
|
"bbox": [
|
|
283.0,
|
|
508.33333333333337,
|
|
336.33333333333337,
|
|
517.0
|
|
],
|
|
"page": 1,
|
|
"span": [
|
|
0,
|
|
11
|
|
],
|
|
"__ref_s3_data": null
|
|
}
|
|
],
|
|
"text": "other don't",
|
|
"type": "paragraph",
|
|
"payload": null,
|
|
"name": "Text",
|
|
"font": null
|
|
}
|
|
],
|
|
"figures": [],
|
|
"tables": [],
|
|
"bitmaps": null,
|
|
"equations": [],
|
|
"footnotes": [],
|
|
"page-dimensions": [
|
|
{
|
|
"height": 792.0,
|
|
"page": 1,
|
|
"width": 612.0
|
|
}
|
|
],
|
|
"page-footers": [],
|
|
"page-headers": [],
|
|
"_s3_data": null,
|
|
"identifiers": null
|
|
} |