fix(pypdfium): resolve overlapping text when merging bounding boxes (#1549)

get merged_text from boundingbox instead of merging it to prevent overlaps

Signed-off-by: Pedro Ribeiro <pedro_ribeiro_93@hotmail.com>
This commit is contained in:
Pedro Ribeiro
2025-05-19 14:26:00 +01:00
committed by GitHub
parent 12a0e64892
commit 98b5eeb844
52 changed files with 52225 additions and 4690 deletions

View File

@@ -44,10 +44,10 @@
"prov": [
{
"bbox": [
69.0,
688.5883585611979,
506.6666666666667,
767.2550252278646
69.6796630536824,
689.0124221922704,
504.8720051760782,
764.9216921155637
],
"page": 1,
"span": [

View File

@@ -15,20 +15,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -40,20 +40,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -65,20 +65,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],
@@ -90,13 +90,13 @@
"id": 0,
"label": "text",
"bbox": {
"l": 69.0,
"t": 74.66666666666667,
"r": 506.6666666666667,
"b": 153.33333333333334,
"l": 69.6796630536824,
"t": 76.99999977896756,
"r": 504.8720051760782,
"b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
"confidence": 0.9715732336044312,
"cells": [
{
"index": 0,
@@ -107,20 +107,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -132,20 +132,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -157,20 +157,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],
@@ -195,13 +195,13 @@
"id": 0,
"label": "text",
"bbox": {
"l": 69.0,
"t": 74.66666666666667,
"r": 506.6666666666667,
"b": 153.33333333333334,
"l": 69.6796630536824,
"t": 76.99999977896756,
"r": 504.8720051760782,
"b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
"confidence": 0.9715732336044312,
"cells": [
{
"index": 0,
@@ -212,20 +212,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -237,20 +237,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -262,20 +262,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],
@@ -293,13 +293,13 @@
"id": 0,
"label": "text",
"bbox": {
"l": 69.0,
"t": 74.66666666666667,
"r": 506.6666666666667,
"b": 153.33333333333334,
"l": 69.6796630536824,
"t": 76.99999977896756,
"r": 504.8720051760782,
"b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
"confidence": 0.9715732336044312,
"cells": [
{
"index": 0,
@@ -310,20 +310,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -335,20 +335,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -360,20 +360,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],

View File

@@ -1,2 +1,2 @@
<doctag><text><loc_58><loc_44><loc_426><loc_91>Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package</text>
<doctag><text><loc_59><loc_46><loc_424><loc_91>Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package</text>
</doctag>

View File

@@ -42,10 +42,10 @@
{
"page_no": 1,
"bbox": {
"l": 69.0,
"t": 767.2550252278646,
"r": 506.6666666666667,
"b": 688.5883585611979,
"l": 69.6796630536824,
"t": 764.9216921155637,
"r": 504.8720051760782,
"b": 689.0124221922704,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [

View File

@@ -15,20 +15,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -40,20 +40,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -65,20 +65,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],
@@ -90,13 +90,13 @@
"id": 0,
"label": "text",
"bbox": {
"l": 69.0,
"t": 74.66666666666667,
"r": 506.6666666666667,
"b": 153.33333333333334,
"l": 69.6796630536824,
"t": 76.99999977896756,
"r": 504.8720051760782,
"b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
"confidence": 0.9715732336044312,
"cells": [
{
"index": 0,
@@ -107,20 +107,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -132,20 +132,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -157,20 +157,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],
@@ -195,13 +195,13 @@
"id": 0,
"label": "text",
"bbox": {
"l": 69.0,
"t": 74.66666666666667,
"r": 506.6666666666667,
"b": 153.33333333333334,
"l": 69.6796630536824,
"t": 76.99999977896756,
"r": 504.8720051760782,
"b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
"confidence": 0.9715732336044312,
"cells": [
{
"index": 0,
@@ -212,20 +212,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -237,20 +237,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -262,20 +262,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],
@@ -293,13 +293,13 @@
"id": 0,
"label": "text",
"bbox": {
"l": 69.0,
"t": 74.66666666666667,
"r": 506.6666666666667,
"b": 153.33333333333334,
"l": 69.6796630536824,
"t": 76.99999977896756,
"r": 504.8720051760782,
"b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
"confidence": 0.9715732336044312,
"cells": [
{
"index": 0,
@@ -310,20 +310,20 @@
"a": 255
},
"rect": {
"r_x0": 71.33333333333333,
"r_y0": 99.33333333333333,
"r_x1": 506.6666666666667,
"r_y1": 99.33333333333333,
"r_x2": 506.6666666666667,
"r_y2": 74.66666666666667,
"r_x3": 71.33333333333333,
"r_y3": 74.66666666666667,
"r_x0": 73.34702132031646,
"r_y0": 97.99999977896755,
"r_x1": 503.64955224479564,
"r_y1": 97.99999977896755,
"r_x2": 503.64955224479564,
"r_y2": 76.99999977896756,
"r_x3": 73.34702132031646,
"r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
"text": "Docling bundles PDF document conversion to",
"orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
"confidence": 0.9555703127793324,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -335,20 +335,20 @@
"a": 255
},
"rect": {
"r_x0": 69.0,
"r_y0": 126.66666666666667,
"r_x1": 506.6666666666667,
"r_y1": 126.66666666666667,
"r_x2": 506.6666666666667,
"r_y2": 100.66666666666667,
"r_x3": 69.0,
"r_y3": 100.66666666666667,
"r_x0": 69.6796630536824,
"r_y0": 124.83139494707741,
"r_x1": 504.8720051760782,
"r_y1": 124.83139494707741,
"r_x2": 504.8720051760782,
"r_y2": 104.00000011573796,
"r_x3": 69.6796630536824,
"r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
"text": "JSON and Markdown in an easy self contained",
"orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
"confidence": 0.9741098171752292,
"confidence": 1.0,
"from_ocr": true
},
{
@@ -360,20 +360,20 @@
"a": 255
},
"rect": {
"r_x0": 70.66666666666667,
"r_y0": 153.33333333333334,
"r_x1": 154.0,
"r_y1": 153.33333333333334,
"r_x2": 154.0,
"r_y2": 128.66666666666666,
"r_x3": 70.66666666666667,
"r_y3": 128.66666666666666,
"r_x0": 71.84193505100733,
"r_y0": 152.90926970226084,
"r_x1": 153.088934155825,
"r_y1": 152.90926970226084,
"r_x2": 153.088934155825,
"r_y2": 129.797125232046,
"r_x3": 71.84193505100733,
"r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
"confidence": 0.6702765056141881,
"confidence": 1.0,
"from_ocr": true
}
],