diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.json
index 1c01b726..8dbfff1f 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test.json
@@ -44,10 +44,10 @@
"prov": [
{
"bbox": [
- 72.33333333333333,
- 691.5883585611979,
- 503.3333333333333,
- 763.9216918945312
+ 69.6796630536824,
+ 689.0124221922704,
+ 504.8720051760782,
+ 764.9216921155637
],
"page": 1,
"span": [
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json
index db21dc37..b53b75aa 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 72.33333333333333,
- "t": 78.0,
- "r": 503.3333333333333,
- "b": 150.33333333333334,
+ "l": 69.6796630536824,
+ "t": 76.99999977896756,
+ "r": 504.8720051760782,
+ "b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,20 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -516,320 +216,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -854,10 +254,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 72.33333333333333,
- "t": 78.0,
- "r": 503.3333333333333,
- "b": 150.33333333333334,
+ "l": 69.6796630536824,
+ "t": 76.99999977896756,
+ "r": 504.8720051760782,
+ "b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
@@ -871,20 +271,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -896,20 +296,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -921,320 +321,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1252,10 +352,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 72.33333333333333,
- "t": 78.0,
- "r": 503.3333333333333,
- "b": 150.33333333333334,
+ "l": 69.6796630536824,
+ "t": 76.99999977896756,
+ "r": 504.8720051760782,
+ "b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
@@ -1269,20 +369,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1294,20 +394,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1319,320 +419,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt
index 50f50834..029be08d 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt
@@ -1,4 +1,4 @@
-package
+package
Docling bundles PDF document conversion to JSON and Markdown in an easy self contained
\ No newline at end of file
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json
index 1013a89d..8de137d4 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json
@@ -44,10 +44,10 @@
"prov": [
{
"bbox": [
- 444.6666666666667,
- 131.58835856119788,
- 521.6666666666666,
- 150.25502522786462
+ 441.2561096985719,
+ 131.89488404865142,
+ 522.0347860494834,
+ 151.87873262042876
],
"page": 1,
"span": [
@@ -67,10 +67,10 @@
"prov": [
{
"bbox": [
- 92.0,
- 77.92169189453125,
- 523.0,
- 123.25502522786462
+ 89.23887497045128,
+ 77.02339852098021,
+ 523.208764293368,
+ 124.75312428291147
],
"page": 1,
"span": [
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json
index 5ba51a3b..962861d9 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 92.0,
- "t": 718.6666666666666,
- "r": 523.0,
- "b": 764.0,
+ "l": 89.23887497045128,
+ "t": 717.1685676116198,
+ "r": 523.208764293368,
+ "b": 764.898293373551,
"coord_origin": "TOPLEFT"
},
"confidence": 0.7318570613861084,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,320 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -814,16 +214,16 @@
"id": 2,
"label": "text",
"bbox": {
- "l": 444.6666666666667,
- "t": 691.6666666666666,
- "r": 521.6666666666666,
- "b": 710.3333333333334,
+ "l": 441.2561096985719,
+ "t": 690.0429592741025,
+ "r": 522.0347860494834,
+ "b": 710.0268078458798,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5982133150100708,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -831,20 +231,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -869,10 +269,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 92.0,
- "t": 718.6666666666666,
- "r": 523.0,
- "b": 764.0,
+ "l": 89.23887497045128,
+ "t": 717.1685676116198,
+ "r": 523.208764293368,
+ "b": 764.898293373551,
"coord_origin": "TOPLEFT"
},
"confidence": 0.7318570613861084,
@@ -886,20 +286,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -911,320 +311,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1240,16 +340,16 @@
"id": 2,
"label": "text",
"bbox": {
- "l": 444.6666666666667,
- "t": 691.6666666666666,
- "r": 521.6666666666666,
- "b": 710.3333333333334,
+ "l": 441.2561096985719,
+ "t": 690.0429592741025,
+ "r": 522.0347860494834,
+ "b": 710.0268078458798,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5982133150100708,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1257,20 +357,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1288,10 +388,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 92.0,
- "t": 718.6666666666666,
- "r": 523.0,
- "b": 764.0,
+ "l": 89.23887497045128,
+ "t": 717.1685676116198,
+ "r": 523.208764293368,
+ "b": 764.898293373551,
"coord_origin": "TOPLEFT"
},
"confidence": 0.7318570613861084,
@@ -1305,20 +405,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1330,320 +430,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1659,16 +459,16 @@
"id": 2,
"label": "text",
"bbox": {
- "l": 444.6666666666667,
- "t": 691.6666666666666,
- "r": 521.6666666666666,
- "b": 710.3333333333334,
+ "l": 441.2561096985719,
+ "t": 690.0429592741025,
+ "r": 522.0347860494834,
+ "b": 710.0268078458798,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5982133150100708,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1676,20 +476,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt
index 8350737b..d5c2972a 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt
@@ -1,3 +1,3 @@
-package
+package
\ No newline at end of file
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json
index 90f9b171..fed4d9ec 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json
@@ -44,10 +44,10 @@
"prov": [
{
"bbox": [
- 691.6666666666666,
- 444.53450520833337,
- 710.3333333333334,
- 521.5345052083334
+ 690.2441821046808,
+ 442.39487414368364,
+ 709.8255852011977,
+ 523.076601235155
],
"page": 1,
"span": [
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json
index 466c5d06..4caa899d 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json
@@ -11,47 +11,47 @@
"rect": {
"r_x0": 0.0,
"r_y0": 0.0,
- "r_x1": 841.9216918945312,
+ "r_x1": 595.201171875,
"r_y1": 0.0,
- "r_x2": 841.9216918945312,
- "r_y2": 595.201171875,
+ "r_x2": 595.201171875,
+ "r_y2": 841.9216918945312,
"r_x3": 0.0,
- "r_y3": 595.201171875,
+ "r_y3": 841.9216918945312,
"coord_origin": "BOTTOMLEFT"
},
"boundary_type": "crop_box",
"art_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"bleed_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"crop_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"media_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"trim_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
}
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 718.6666666666666,
- "t": 72.33333333333333,
- "r": 764.0,
- "b": 503.3333333333333,
+ "l": 717.168585936602,
+ "t": 70.90211682372312,
+ "r": 764.8982839673505,
+ "b": 504.8720061466397,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6915205121040344,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,320 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -814,16 +214,16 @@
"id": 8,
"label": "text",
"bbox": {
- "l": 691.6666666666666,
- "t": 73.66666666666667,
- "r": 710.3333333333334,
- "b": 150.66666666666666,
+ "l": 690.2441821046808,
+ "t": 72.124570639845,
+ "r": 709.8255852011977,
+ "b": 152.80629773131633,
"coord_origin": "TOPLEFT"
},
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -831,20 +231,20 @@
"a": 255
},
"rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -869,10 +269,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 718.6666666666666,
- "t": 72.33333333333333,
- "r": 764.0,
- "b": 503.3333333333333,
+ "l": 717.168585936602,
+ "t": 70.90211682372312,
+ "r": 764.8982839673505,
+ "b": 504.8720061466397,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6915205121040344,
@@ -886,20 +286,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -911,320 +311,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1240,16 +340,16 @@
"id": 8,
"label": "text",
"bbox": {
- "l": 691.6666666666666,
- "t": 73.66666666666667,
- "r": 710.3333333333334,
- "b": 150.66666666666666,
+ "l": 690.2441821046808,
+ "t": 72.124570639845,
+ "r": 709.8255852011977,
+ "b": 152.80629773131633,
"coord_origin": "TOPLEFT"
},
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1257,20 +357,20 @@
"a": 255
},
"rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1288,16 +388,16 @@
"id": 8,
"label": "text",
"bbox": {
- "l": 691.6666666666666,
- "t": 73.66666666666667,
- "r": 710.3333333333334,
- "b": 150.66666666666666,
+ "l": 690.2441821046808,
+ "t": 72.124570639845,
+ "r": 709.8255852011977,
+ "b": 152.80629773131633,
"coord_origin": "TOPLEFT"
},
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1305,20 +405,20 @@
"a": 255
},
"rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1336,10 +436,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 718.6666666666666,
- "t": 72.33333333333333,
- "r": 764.0,
- "b": 503.3333333333333,
+ "l": 717.168585936602,
+ "t": 70.90211682372312,
+ "r": 764.8982839673505,
+ "b": 504.8720061466397,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6915205121040344,
@@ -1353,20 +453,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1378,320 +478,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt
index 45595ac2..0b7a3a14 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt
@@ -1,3 +1,3 @@
-package
+package
\ No newline at end of file
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json
index 61f651ae..5a622c92 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json
@@ -44,10 +44,10 @@
"prov": [
{
"bbox": [
- 131.66666666666666,
- 73.53450520833337,
- 150.33333333333334,
- 150.53450520833331
+ 131.21306574279092,
+ 74.12495603322407,
+ 152.19606490864376,
+ 154.19400205373182
],
"page": 1,
"span": [
diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json
index e6f062da..e6bcce8c 100644
--- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json
@@ -11,47 +11,47 @@
"rect": {
"r_x0": 0.0,
"r_y0": 0.0,
- "r_x1": 841.9216918945312,
+ "r_x1": 595.201171875,
"r_y1": 0.0,
- "r_x2": 841.9216918945312,
- "r_y2": 595.201171875,
+ "r_x2": 595.201171875,
+ "r_y2": 841.9216918945312,
"r_x3": 0.0,
- "r_y3": 595.201171875,
+ "r_y3": 841.9216918945312,
"coord_origin": "BOTTOMLEFT"
},
"boundary_type": "crop_box",
"art_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"bleed_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"crop_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"media_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"trim_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
}
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 78.0,
- "t": 92.0,
- "r": 123.33333333333333,
- "b": 523.0,
+ "l": 77.10171545548258,
+ "t": 89.1266754140729,
+ "r": 126.08064862014129,
+ "b": 523.3236155182395,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6016772389411926,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,320 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -814,16 +214,16 @@
"id": 1,
"label": "text",
"bbox": {
- "l": 131.66666666666666,
- "t": 444.6666666666667,
- "r": 150.33333333333334,
- "b": 521.6666666666666,
+ "l": 131.21306574279092,
+ "t": 441.0071698212682,
+ "r": 152.19606490864376,
+ "b": 521.0762158417759,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5234212875366211,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -831,20 +231,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -869,10 +269,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 78.0,
- "t": 92.0,
- "r": 123.33333333333333,
- "b": 523.0,
+ "l": 77.10171545548258,
+ "t": 89.1266754140729,
+ "r": 126.08064862014129,
+ "b": 523.3236155182395,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6016772389411926,
@@ -886,20 +286,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -911,320 +311,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1240,16 +340,16 @@
"id": 1,
"label": "text",
"bbox": {
- "l": 131.66666666666666,
- "t": 444.6666666666667,
- "r": 150.33333333333334,
- "b": 521.6666666666666,
+ "l": 131.21306574279092,
+ "t": 441.0071698212682,
+ "r": 152.19606490864376,
+ "b": 521.0762158417759,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5234212875366211,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1257,20 +357,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1288,16 +388,16 @@
"id": 1,
"label": "text",
"bbox": {
- "l": 131.66666666666666,
- "t": 444.6666666666667,
- "r": 150.33333333333334,
- "b": 521.6666666666666,
+ "l": 131.21306574279092,
+ "t": 441.0071698212682,
+ "r": 152.19606490864376,
+ "b": 521.0762158417759,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5234212875366211,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1305,20 +405,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1336,10 +436,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 78.0,
- "t": 92.0,
- "r": 123.33333333333333,
- "b": 523.0,
+ "l": 77.10171545548258,
+ "t": 89.1266754140729,
+ "r": 126.08064862014129,
+ "b": 523.3236155182395,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6016772389411926,
@@ -1353,20 +453,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1378,320 +478,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt
index 82af9fca..c210e4dd 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt
@@ -1,2 +1,2 @@
-Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package
+Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package
\ No newline at end of file
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.json
index b256612a..e08af9cf 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test.json
@@ -42,10 +42,10 @@
{
"page_no": 1,
"bbox": {
- "l": 72.33333333333333,
- "t": 763.9216918945312,
- "r": 503.3333333333333,
- "b": 691.5883585611979,
+ "l": 69.6796630536824,
+ "t": 764.9216921155637,
+ "r": 504.8720051760782,
+ "b": 689.0124221922704,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json
index db21dc37..b53b75aa 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 72.33333333333333,
- "t": 78.0,
- "r": 503.3333333333333,
- "b": 150.33333333333334,
+ "l": 69.6796630536824,
+ "t": 76.99999977896756,
+ "r": 504.8720051760782,
+ "b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,20 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -516,320 +216,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -854,10 +254,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 72.33333333333333,
- "t": 78.0,
- "r": 503.3333333333333,
- "b": 150.33333333333334,
+ "l": 69.6796630536824,
+ "t": 76.99999977896756,
+ "r": 504.8720051760782,
+ "b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
@@ -871,20 +271,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -896,20 +296,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -921,320 +321,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1252,10 +352,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 72.33333333333333,
- "t": 78.0,
- "r": 503.3333333333333,
- "b": 150.33333333333334,
+ "l": 69.6796630536824,
+ "t": 76.99999977896756,
+ "r": 504.8720051760782,
+ "b": 152.90926970226084,
"coord_origin": "TOPLEFT"
},
"confidence": 0.9715733528137207,
@@ -1269,20 +369,20 @@
"a": 255
},
"rect": {
- "r_x0": 74.0,
- "r_y0": 96.66666666666667,
- "r_x1": 144.0,
- "r_y1": 96.66666666666667,
- "r_x2": 144.0,
- "r_y2": 78.0,
- "r_x3": 74.0,
- "r_y3": 78.0,
+ "r_x0": 73.34702132031646,
+ "r_y0": 97.99999977896755,
+ "r_x1": 503.64955224479564,
+ "r_y1": 97.99999977896755,
+ "r_x2": 503.64955224479564,
+ "r_y2": 76.99999977896756,
+ "r_x3": 73.34702132031646,
+ "r_y3": 76.99999977896756,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1294,20 +394,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.66666666666666,
- "r_y0": 92.66666666666667,
- "r_x1": 224.66666666666666,
- "r_y1": 92.66666666666667,
- "r_x2": 224.66666666666666,
- "r_y2": 78.0,
- "r_x3": 150.66666666666666,
- "r_y3": 78.0,
+ "r_x0": 69.6796630536824,
+ "r_y0": 124.83139494707741,
+ "r_x1": 504.8720051760782,
+ "r_y1": 124.83139494707741,
+ "r_x2": 504.8720051760782,
+ "r_y2": 104.00000011573796,
+ "r_x3": 69.6796630536824,
+ "r_y3": 104.00000011573796,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1319,320 +419,20 @@
"a": 255
},
"rect": {
- "r_x0": 232.0,
- "r_y0": 92.66666666666667,
- "r_x1": 269.0,
- "r_y1": 92.66666666666667,
- "r_x2": 269.0,
- "r_y2": 78.0,
- "r_x3": 232.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 275.0,
- "r_y0": 92.66666666666667,
- "r_x1": 371.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 371.3333333333333,
- "r_y2": 78.0,
- "r_x3": 275.0,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 377.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 479.0,
- "r_y1": 92.66666666666667,
- "r_x2": 479.0,
- "r_y2": 78.0,
- "r_x3": 377.3333333333333,
- "r_y3": 78.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 485.3333333333333,
- "r_y0": 92.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 92.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 79.66666666666667,
- "r_x3": 485.3333333333333,
- "r_y3": 79.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 72.33333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 121.33333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 121.33333333333333,
- "r_y2": 104.66666666666667,
- "r_x3": 72.33333333333333,
- "r_y3": 104.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 129.0,
- "r_y0": 119.66666666666667,
- "r_x1": 162.33333333333334,
- "r_y1": 119.66666666666667,
- "r_x2": 162.33333333333334,
- "r_y2": 105.0,
- "r_x3": 129.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 170.33333333333334,
- "r_y0": 119.66666666666667,
- "r_x1": 265.6666666666667,
- "r_y1": 119.66666666666667,
- "r_x2": 265.6666666666667,
- "r_y2": 105.0,
- "r_x3": 170.33333333333334,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 273.3333333333333,
- "r_y0": 119.33333333333333,
- "r_x1": 287.6666666666667,
- "r_y1": 119.33333333333333,
- "r_x2": 287.6666666666667,
- "r_y2": 105.0,
- "r_x3": 273.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 294.6666666666667,
- "r_y0": 119.66666666666667,
- "r_x1": 316.0,
- "r_y1": 119.66666666666667,
- "r_x2": 316.0,
- "r_y2": 108.66666666666667,
- "r_x3": 294.6666666666667,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 323.0,
- "r_y0": 123.33333333333333,
- "r_x1": 365.6666666666667,
- "r_y1": 123.33333333333333,
- "r_x2": 365.6666666666667,
- "r_y2": 108.66666666666667,
- "r_x3": 323.0,
- "r_y3": 108.66666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 371.0,
- "r_y0": 119.66666666666667,
- "r_x1": 404.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 404.3333333333333,
- "r_y2": 105.0,
- "r_x3": 371.0,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 410.3333333333333,
- "r_y0": 119.66666666666667,
- "r_x1": 503.3333333333333,
- "r_y1": 119.66666666666667,
- "r_x2": 503.3333333333333,
- "r_y2": 105.0,
- "r_x3": 410.3333333333333,
- "r_y3": 105.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 73.66666666666667,
- "r_y0": 150.33333333333334,
- "r_x1": 150.66666666666666,
- "r_y1": 150.33333333333334,
- "r_x2": 150.66666666666666,
- "r_y2": 131.66666666666666,
- "r_x3": 73.66666666666667,
- "r_y3": 131.66666666666666,
+ "r_x0": 71.84193505100733,
+ "r_y0": 152.90926970226084,
+ "r_x1": 153.088934155825,
+ "r_y1": 152.90926970226084,
+ "r_x2": 153.088934155825,
+ "r_y2": 129.797125232046,
+ "r_x3": 71.84193505100733,
+ "r_y3": 129.797125232046,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt
index f270ebec..405aa96e 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt
@@ -1,3 +1,3 @@
-package
-Docling bundles PDF document conversion to JSON and Markdown in an easy self contained
+package
+Docling bundles PDF document conversion to JSON and Markdown in an easy self contained
\ No newline at end of file
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json
index e68775d8..835b1c74 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json
@@ -45,10 +45,10 @@
{
"page_no": 1,
"bbox": {
- "l": 444.6666666666667,
- "t": 150.25502522786462,
- "r": 521.6666666666666,
- "b": 131.58835856119788,
+ "l": 441.2561096985719,
+ "t": 151.87873262042876,
+ "r": 522.0347860494834,
+ "b": 131.89488404865142,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
@@ -74,10 +74,10 @@
{
"page_no": 1,
"bbox": {
- "l": 92.0,
- "t": 123.25502522786462,
- "r": 523.0,
- "b": 77.92169189453125,
+ "l": 89.23887497045128,
+ "t": 124.75312428291147,
+ "r": 523.208764293368,
+ "b": 77.02339852098021,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json
index 5ba51a3b..962861d9 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 92.0,
- "t": 718.6666666666666,
- "r": 523.0,
- "b": 764.0,
+ "l": 89.23887497045128,
+ "t": 717.1685676116198,
+ "r": 523.208764293368,
+ "b": 764.898293373551,
"coord_origin": "TOPLEFT"
},
"confidence": 0.7318570613861084,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,320 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -814,16 +214,16 @@
"id": 2,
"label": "text",
"bbox": {
- "l": 444.6666666666667,
- "t": 691.6666666666666,
- "r": 521.6666666666666,
- "b": 710.3333333333334,
+ "l": 441.2561096985719,
+ "t": 690.0429592741025,
+ "r": 522.0347860494834,
+ "b": 710.0268078458798,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5982133150100708,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -831,20 +231,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -869,10 +269,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 92.0,
- "t": 718.6666666666666,
- "r": 523.0,
- "b": 764.0,
+ "l": 89.23887497045128,
+ "t": 717.1685676116198,
+ "r": 523.208764293368,
+ "b": 764.898293373551,
"coord_origin": "TOPLEFT"
},
"confidence": 0.7318570613861084,
@@ -886,20 +286,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -911,320 +311,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1240,16 +340,16 @@
"id": 2,
"label": "text",
"bbox": {
- "l": 444.6666666666667,
- "t": 691.6666666666666,
- "r": 521.6666666666666,
- "b": 710.3333333333334,
+ "l": 441.2561096985719,
+ "t": 690.0429592741025,
+ "r": 522.0347860494834,
+ "b": 710.0268078458798,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5982133150100708,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1257,20 +357,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1288,10 +388,10 @@
"id": 0,
"label": "text",
"bbox": {
- "l": 92.0,
- "t": 718.6666666666666,
- "r": 523.0,
- "b": 764.0,
+ "l": 89.23887497045128,
+ "t": 717.1685676116198,
+ "r": 523.208764293368,
+ "b": 764.898293373551,
"coord_origin": "TOPLEFT"
},
"confidence": 0.7318570613861084,
@@ -1305,20 +405,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.3333333333334,
- "r_y0": 745.3333333333334,
- "r_x1": 451.3333333333333,
- "r_y1": 745.3333333333334,
- "r_x2": 451.3333333333333,
- "r_y2": 764.0,
- "r_x3": 521.3333333333334,
- "r_y3": 764.0,
+ "r_x0": 89.2388782764286,
+ "r_y0": 764.898293373551,
+ "r_x1": 521.9863147998661,
+ "r_y1": 764.898293373551,
+ "r_x2": 521.9863147998661,
+ "r_y2": 744.0929853494625,
+ "r_x3": 89.2388782764286,
+ "r_y3": 744.0929853494625,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8903511000000001,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1330,320 +430,20 @@
"a": 255
},
"rect": {
- "r_x0": 444.6666666666667,
- "r_y0": 749.3333333333334,
- "r_x1": 370.6666666666667,
- "r_y1": 749.3333333333334,
- "r_x2": 370.6666666666667,
- "r_y2": 764.0,
- "r_x3": 444.6666666666667,
- "r_y3": 764.0,
+ "r_x0": 89.23887497045128,
+ "r_y0": 739.1977118987292,
+ "r_x1": 523.208764293368,
+ "r_y1": 739.1977118987292,
+ "r_x2": 523.208764293368,
+ "r_y2": 717.1685676116198,
+ "r_x3": 89.23887497045128,
+ "r_y3": 717.1685676116198,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.9643914800000001,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 363.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 326.3333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 326.3333333333333,
- "r_y2": 764.0,
- "r_x3": 363.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.9692087600000001,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 320.3333333333333,
- "r_y0": 749.3333333333334,
- "r_x1": 224.0,
- "r_y1": 749.3333333333334,
- "r_x2": 224.0,
- "r_y2": 764.0,
- "r_x3": 320.3333333333333,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.9600200700000001,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 218.0,
- "r_y0": 749.3333333333334,
- "r_x1": 116.33333333333333,
- "r_y1": 749.3333333333334,
- "r_x2": 116.33333333333333,
- "r_y2": 764.0,
- "r_x3": 218.0,
- "r_y3": 764.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9593277,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 110.0,
- "r_y0": 749.3333333333334,
- "r_x1": 92.0,
- "r_y1": 749.3333333333334,
- "r_x2": 92.0,
- "r_y2": 762.3333333333334,
- "r_x3": 110.0,
- "r_y3": 762.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96203415,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 523.0,
- "r_y0": 722.3333333333334,
- "r_x1": 474.0,
- "r_y1": 722.3333333333334,
- "r_x2": 474.0,
- "r_y2": 737.3333333333334,
- "r_x3": 523.0,
- "r_y3": 737.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.96395119,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 466.3333333333333,
- "r_y0": 722.3333333333334,
- "r_x1": 433.0,
- "r_y1": 722.3333333333334,
- "r_x2": 433.0,
- "r_y2": 737.0,
- "r_x3": 466.3333333333333,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.96402367,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 425.0,
- "r_y0": 722.3333333333334,
- "r_x1": 329.6666666666667,
- "r_y1": 722.3333333333334,
- "r_x2": 329.6666666666667,
- "r_y2": 737.0,
- "r_x3": 425.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96503731,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 322.0,
- "r_y0": 722.6666666666666,
- "r_x1": 307.6666666666667,
- "r_y1": 722.6666666666666,
- "r_x2": 307.6666666666667,
- "r_y2": 737.0,
- "r_x3": 322.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.9625035099999999,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 300.6666666666667,
- "r_y0": 722.3333333333334,
- "r_x1": 279.3333333333333,
- "r_y1": 722.3333333333334,
- "r_x2": 279.3333333333333,
- "r_y2": 733.3333333333334,
- "r_x3": 300.6666666666667,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96585426,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 272.3333333333333,
- "r_y0": 718.6666666666666,
- "r_x1": 229.66666666666666,
- "r_y1": 718.6666666666666,
- "r_x2": 229.66666666666666,
- "r_y2": 733.3333333333334,
- "r_x3": 272.3333333333333,
- "r_y3": 733.3333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94413689,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 224.33333333333334,
- "r_y0": 722.3333333333334,
- "r_x1": 191.0,
- "r_y1": 722.3333333333334,
- "r_x2": 191.0,
- "r_y2": 737.0,
- "r_x3": 224.33333333333334,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.96096283,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 185.0,
- "r_y0": 722.3333333333334,
- "r_x1": 92.0,
- "r_y1": 722.3333333333334,
- "r_x2": 92.0,
- "r_y2": 737.0,
- "r_x3": 185.0,
- "r_y3": 737.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96607635,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1659,16 +459,16 @@
"id": 2,
"label": "text",
"bbox": {
- "l": 444.6666666666667,
- "t": 691.6666666666666,
- "r": 521.6666666666666,
- "b": 710.3333333333334,
+ "l": 441.2561096985719,
+ "t": 690.0429592741025,
+ "r": 522.0347860494834,
+ "b": 710.0268078458798,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5982133150100708,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1676,20 +476,20 @@
"a": 255
},
"rect": {
- "r_x0": 521.6666666666666,
- "r_y0": 691.6666666666666,
- "r_x1": 444.6666666666667,
- "r_y1": 691.6666666666666,
- "r_x2": 444.6666666666667,
- "r_y2": 710.3333333333334,
- "r_x3": 521.6666666666666,
- "r_y3": 710.3333333333334,
+ "r_x0": 441.2561096985719,
+ "r_y0": 710.0268078458798,
+ "r_x1": 522.0347860494834,
+ "r_y1": 710.0268078458798,
+ "r_x2": 522.0347860494834,
+ "r_y2": 690.0429592741025,
+ "r_x3": 441.2561096985719,
+ "r_y3": 690.0429592741025,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.96362862,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt
index 2c343d7b..70ee51c4 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt
@@ -1,3 +1,3 @@
-Docling bundles PDF document conversion to JSON and Markdown in an easy self contained
-package
+Docling bundles PDF document conversion to JSON and Markdown in an easy self contained
+package
\ No newline at end of file
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json
index 31ffa3bd..69a028d4 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json
@@ -45,10 +45,10 @@
{
"page_no": 1,
"bbox": {
- "l": 718.6666666666666,
- "t": 522.8678385416666,
- "r": 764.0,
- "b": 91.86783854166669,
+ "l": 717.168585936602,
+ "t": 524.2990550512769,
+ "r": 764.8982839673505,
+ "b": 90.3291657283603,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
@@ -74,10 +74,10 @@
{
"page_no": 1,
"bbox": {
- "l": 691.6666666666666,
- "t": 521.5345052083334,
- "r": 710.3333333333334,
- "b": 444.53450520833337,
+ "l": 690.2441821046808,
+ "t": 523.076601235155,
+ "r": 709.8255852011977,
+ "b": 442.39487414368364,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json
index 466c5d06..4caa899d 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json
@@ -11,47 +11,47 @@
"rect": {
"r_x0": 0.0,
"r_y0": 0.0,
- "r_x1": 841.9216918945312,
+ "r_x1": 595.201171875,
"r_y1": 0.0,
- "r_x2": 841.9216918945312,
- "r_y2": 595.201171875,
+ "r_x2": 595.201171875,
+ "r_y2": 841.9216918945312,
"r_x3": 0.0,
- "r_y3": 595.201171875,
+ "r_y3": 841.9216918945312,
"coord_origin": "BOTTOMLEFT"
},
"boundary_type": "crop_box",
"art_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"bleed_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"crop_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"media_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"trim_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
}
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 718.6666666666666,
- "t": 72.33333333333333,
- "r": 764.0,
- "b": 503.3333333333333,
+ "l": 717.168585936602,
+ "t": 70.90211682372312,
+ "r": 764.8982839673505,
+ "b": 504.8720061466397,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6915205121040344,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,320 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -814,16 +214,16 @@
"id": 8,
"label": "text",
"bbox": {
- "l": 691.6666666666666,
- "t": 73.66666666666667,
- "r": 710.3333333333334,
- "b": 150.66666666666666,
+ "l": 690.2441821046808,
+ "t": 72.124570639845,
+ "r": 709.8255852011977,
+ "b": 152.80629773131633,
"coord_origin": "TOPLEFT"
},
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -831,20 +231,20 @@
"a": 255
},
"rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -869,10 +269,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 718.6666666666666,
- "t": 72.33333333333333,
- "r": 764.0,
- "b": 503.3333333333333,
+ "l": 717.168585936602,
+ "t": 70.90211682372312,
+ "r": 764.8982839673505,
+ "b": 504.8720061466397,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6915205121040344,
@@ -886,20 +286,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -911,320 +311,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1240,16 +340,16 @@
"id": 8,
"label": "text",
"bbox": {
- "l": 691.6666666666666,
- "t": 73.66666666666667,
- "r": 710.3333333333334,
- "b": 150.66666666666666,
+ "l": 690.2441821046808,
+ "t": 72.124570639845,
+ "r": 709.8255852011977,
+ "b": 152.80629773131633,
"coord_origin": "TOPLEFT"
},
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1257,20 +357,20 @@
"a": 255
},
"rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1288,16 +388,16 @@
"id": 8,
"label": "text",
"bbox": {
- "l": 691.6666666666666,
- "t": 73.66666666666667,
- "r": 710.3333333333334,
- "b": 150.66666666666666,
+ "l": 690.2441821046808,
+ "t": 72.124570639845,
+ "r": 709.8255852011977,
+ "b": 152.80629773131633,
"coord_origin": "TOPLEFT"
},
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1305,20 +405,20 @@
"a": 255
},
"rect": {
- "r_x0": 691.6666666666666,
- "r_y0": 73.66666666666667,
- "r_x1": 691.6666666666666,
- "r_y1": 150.66666666666666,
- "r_x2": 710.3333333333334,
- "r_y2": 150.66666666666666,
- "r_x3": 691.6666666666666,
- "r_y3": 150.66666666666666,
+ "r_x0": 690.2441821046808,
+ "r_y0": 152.80629773131633,
+ "r_x1": 709.8255852011977,
+ "r_y1": 152.80629773131633,
+ "r_x2": 709.8255852011977,
+ "r_y2": 72.124570639845,
+ "r_x3": 690.2441821046808,
+ "r_y3": 72.124570639845,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1336,10 +436,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 718.6666666666666,
- "t": 72.33333333333333,
- "r": 764.0,
- "b": 503.3333333333333,
+ "l": 717.168585936602,
+ "t": 70.90211682372312,
+ "r": 764.8982839673505,
+ "b": 504.8720061466397,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6915205121040344,
@@ -1353,20 +453,20 @@
"a": 255
},
"rect": {
- "r_x0": 745.3333333333334,
- "r_y0": 74.0,
- "r_x1": 745.3333333333334,
- "r_y1": 144.0,
- "r_x2": 764.0,
- "r_y2": 144.0,
- "r_x3": 745.3333333333334,
- "r_y3": 144.0,
+ "r_x0": 744.0930045534915,
+ "r_y0": 504.87200373583954,
+ "r_x1": 764.8982839673505,
+ "r_y1": 504.87200373583954,
+ "r_x2": 764.8982839673505,
+ "r_y2": 73.34702001188118,
+ "r_x3": 744.0930045534915,
+ "r_y3": 73.34702001188118,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1378,320 +478,20 @@
"a": 255
},
"rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 150.66666666666666,
- "r_x1": 749.3333333333334,
- "r_y1": 224.66666666666666,
- "r_x2": 764.0,
- "r_y2": 224.66666666666666,
- "r_x3": 749.3333333333334,
- "r_y3": 224.66666666666666,
+ "r_x0": 717.168585936602,
+ "r_y0": 504.8720061466397,
+ "r_x1": 737.9738558137178,
+ "r_y1": 504.8720061466397,
+ "r_x2": 737.9738558137178,
+ "r_y2": 70.90211682372312,
+ "r_x3": 717.168585936602,
+ "r_y3": 70.90211682372312,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 232.0,
- "r_x1": 749.3333333333334,
- "r_y1": 269.0,
- "r_x2": 764.0,
- "r_y2": 269.0,
- "r_x3": 749.3333333333334,
- "r_y3": 269.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 275.0,
- "r_x1": 749.3333333333334,
- "r_y1": 371.3333333333333,
- "r_x2": 764.0,
- "r_y2": 371.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 371.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 377.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 479.0,
- "r_x2": 764.0,
- "r_y2": 479.0,
- "r_x3": 749.3333333333334,
- "r_y3": 479.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 749.3333333333334,
- "r_y0": 485.3333333333333,
- "r_x1": 749.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 762.3333333333334,
- "r_y2": 503.3333333333333,
- "r_x3": 749.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 72.33333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 121.33333333333333,
- "r_x2": 737.3333333333334,
- "r_y2": 121.33333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 121.33333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 129.0,
- "r_x1": 722.3333333333334,
- "r_y1": 162.33333333333334,
- "r_x2": 737.0,
- "r_y2": 162.33333333333334,
- "r_x3": 722.3333333333334,
- "r_y3": 162.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 170.33333333333334,
- "r_x1": 722.3333333333334,
- "r_y1": 265.6666666666667,
- "r_x2": 737.0,
- "r_y2": 265.6666666666667,
- "r_x3": 722.3333333333334,
- "r_y3": 265.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.6666666666666,
- "r_y0": 273.3333333333333,
- "r_x1": 722.6666666666666,
- "r_y1": 287.6666666666667,
- "r_x2": 737.0,
- "r_y2": 287.6666666666667,
- "r_x3": 722.6666666666666,
- "r_y3": 287.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 294.6666666666667,
- "r_x1": 722.3333333333334,
- "r_y1": 316.0,
- "r_x2": 733.3333333333334,
- "r_y2": 316.0,
- "r_x3": 722.3333333333334,
- "r_y3": 316.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 718.6666666666666,
- "r_y0": 323.0,
- "r_x1": 718.6666666666666,
- "r_y1": 365.6666666666667,
- "r_x2": 733.3333333333334,
- "r_y2": 365.6666666666667,
- "r_x3": 718.6666666666666,
- "r_y3": 365.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 371.0,
- "r_x1": 722.3333333333334,
- "r_y1": 404.3333333333333,
- "r_x2": 737.0,
- "r_y2": 404.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 404.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 722.3333333333334,
- "r_y0": 410.3333333333333,
- "r_x1": 722.3333333333334,
- "r_y1": 503.3333333333333,
- "r_x2": 737.0,
- "r_y2": 503.3333333333333,
- "r_x3": 722.3333333333334,
- "r_y3": 503.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt
index a84cb1dd..d8b87216 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt
@@ -1,3 +1,3 @@
-Docling bundles PDF document conversion to JSON and Markdown in an easy self contained
-package
+Docling bundles PDF document conversion to JSON and Markdown in an easy self contained
+package
\ No newline at end of file
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json
index e3d4c356..94dc806f 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json
@@ -45,10 +45,10 @@
{
"page_no": 1,
"bbox": {
- "l": 78.0,
- "t": 503.201171875,
- "r": 123.33333333333333,
- "b": 72.201171875,
+ "l": 77.10171545548258,
+ "t": 506.0744964609271,
+ "r": 126.08064862014129,
+ "b": 71.87755635676046,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
@@ -74,10 +74,10 @@
{
"page_no": 1,
"bbox": {
- "l": 131.66666666666666,
- "t": 150.53450520833331,
- "r": 150.33333333333334,
- "b": 73.53450520833337,
+ "l": 131.21306574279092,
+ "t": 154.19400205373182,
+ "r": 152.19606490864376,
+ "b": 74.12495603322407,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json
index e6f062da..e6bcce8c 100644
--- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json
+++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json
@@ -11,47 +11,47 @@
"rect": {
"r_x0": 0.0,
"r_y0": 0.0,
- "r_x1": 841.9216918945312,
+ "r_x1": 595.201171875,
"r_y1": 0.0,
- "r_x2": 841.9216918945312,
- "r_y2": 595.201171875,
+ "r_x2": 595.201171875,
+ "r_y2": 841.9216918945312,
"r_x3": 0.0,
- "r_y3": 595.201171875,
+ "r_y3": 841.9216918945312,
"coord_origin": "BOTTOMLEFT"
},
"boundary_type": "crop_box",
"art_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"bleed_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"crop_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"media_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
},
"trim_bbox": {
"l": 0.0,
- "t": 595.201171875,
- "r": 841.9216918945312,
+ "t": 841.9216918945312,
+ "r": 595.201171875,
"b": 0.0,
"coord_origin": "BOTTOMLEFT"
}
@@ -69,20 +69,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -94,20 +94,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -119,320 +119,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
- "from_ocr": true
- },
- {
- "index": 14,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -449,10 +149,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 78.0,
- "t": 92.0,
- "r": 123.33333333333333,
- "b": 523.0,
+ "l": 77.10171545548258,
+ "t": 89.1266754140729,
+ "r": 126.08064862014129,
+ "b": 523.3236155182395,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6016772389411926,
@@ -466,20 +166,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -491,320 +191,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -814,16 +214,16 @@
"id": 1,
"label": "text",
"bbox": {
- "l": 131.66666666666666,
- "t": 444.6666666666667,
- "r": 150.33333333333334,
- "b": 521.6666666666666,
+ "l": 131.21306574279092,
+ "t": 441.0071698212682,
+ "r": 152.19606490864376,
+ "b": 521.0762158417759,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5234212875366211,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -831,20 +231,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -869,10 +269,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 78.0,
- "t": 92.0,
- "r": 123.33333333333333,
- "b": 523.0,
+ "l": 77.10171545548258,
+ "t": 89.1266754140729,
+ "r": 126.08064862014129,
+ "b": 523.3236155182395,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6016772389411926,
@@ -886,20 +286,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -911,320 +311,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1240,16 +340,16 @@
"id": 1,
"label": "text",
"bbox": {
- "l": 131.66666666666666,
- "t": 444.6666666666667,
- "r": 150.33333333333334,
- "b": 521.6666666666666,
+ "l": 131.21306574279092,
+ "t": 441.0071698212682,
+ "r": 152.19606490864376,
+ "b": 521.0762158417759,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5234212875366211,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1257,20 +357,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1288,16 +388,16 @@
"id": 1,
"label": "text",
"bbox": {
- "l": 131.66666666666666,
- "t": 444.6666666666667,
- "r": 150.33333333333334,
- "b": 521.6666666666666,
+ "l": 131.21306574279092,
+ "t": 441.0071698212682,
+ "r": 152.19606490864376,
+ "b": 521.0762158417759,
"coord_origin": "TOPLEFT"
},
"confidence": 0.5234212875366211,
"cells": [
{
- "index": 14,
+ "index": 2,
"rgba": {
"r": 0,
"g": 0,
@@ -1305,20 +405,20 @@
"a": 255
},
"rect": {
- "r_x0": 150.33333333333334,
- "r_y0": 521.6666666666666,
- "r_x1": 150.33333333333334,
- "r_y1": 444.6666666666667,
- "r_x2": 131.66666666666666,
- "r_y2": 444.6666666666667,
- "r_x3": 131.66666666666666,
- "r_y3": 521.6666666666666,
+ "r_x0": 131.21306574279092,
+ "r_y0": 521.0762158417759,
+ "r_x1": 152.19606490864376,
+ "r_y1": 521.0762158417759,
+ "r_x2": 152.19606490864376,
+ "r_y2": 441.0071698212682,
+ "r_x3": 131.21306574279092,
+ "r_y3": 441.0071698212682,
"coord_origin": "TOPLEFT"
},
"text": "package",
"orig": "package",
"text_direction": "left_to_right",
- "confidence": 0.9644524400000001,
+ "confidence": 1.0,
"from_ocr": true
}
],
@@ -1336,10 +436,10 @@
"id": 0,
"label": "page_header",
"bbox": {
- "l": 78.0,
- "t": 92.0,
- "r": 123.33333333333333,
- "b": 523.0,
+ "l": 77.10171545548258,
+ "t": 89.1266754140729,
+ "r": 126.08064862014129,
+ "b": 523.3236155182395,
"coord_origin": "TOPLEFT"
},
"confidence": 0.6016772389411926,
@@ -1353,20 +453,20 @@
"a": 255
},
"rect": {
- "r_x0": 96.66666666666667,
- "r_y0": 521.3333333333334,
- "r_x1": 96.66666666666667,
- "r_y1": 451.3333333333333,
- "r_x2": 78.0,
- "r_y2": 451.3333333333333,
- "r_x3": 78.0,
- "r_y3": 521.3333333333334,
+ "r_x0": 77.10171545548258,
+ "r_y0": 520.7638571913312,
+ "r_x1": 96.68315797053792,
+ "r_y1": 520.7638571913312,
+ "r_x2": 96.68315797053792,
+ "r_y2": 89.2388734673729,
+ "r_x3": 77.10171545548258,
+ "r_y3": 89.2388734673729,
"coord_origin": "TOPLEFT"
},
- "text": "Docling",
- "orig": "Docling",
+ "text": "Docling bundles PDF document conversion to",
+ "orig": "Docling bundles PDF document conversion to",
"text_direction": "left_to_right",
- "confidence": 0.8993061099999999,
+ "confidence": 1.0,
"from_ocr": true
},
{
@@ -1378,320 +478,20 @@
"a": 255
},
"rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 444.6666666666667,
- "r_x1": 92.66666666666667,
- "r_y1": 370.6666666666667,
- "r_x2": 78.0,
- "r_y2": 370.6666666666667,
- "r_x3": 78.0,
- "r_y3": 444.6666666666667,
+ "r_x0": 100.64168123325977,
+ "r_y0": 523.3236155182395,
+ "r_x1": 126.08064862014129,
+ "r_y1": 523.3236155182395,
+ "r_x2": 126.08064862014129,
+ "r_y2": 89.1266754140729,
+ "r_x3": 100.64168123325977,
+ "r_y3": 89.1266754140729,
"coord_origin": "TOPLEFT"
},
- "text": "bundles",
- "orig": "bundles",
+ "text": "JSON and Markdown in an easy self contained",
+ "orig": "JSON and Markdown in an easy self contained",
"text_direction": "left_to_right",
- "confidence": 0.96306152,
- "from_ocr": true
- },
- {
- "index": 2,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 363.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 326.3333333333333,
- "r_x2": 78.0,
- "r_y2": 326.3333333333333,
- "r_x3": 78.0,
- "r_y3": 363.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "PDF",
- "orig": "PDF",
- "text_direction": "left_to_right",
- "confidence": 0.96931,
- "from_ocr": true
- },
- {
- "index": 3,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 320.3333333333333,
- "r_x1": 92.66666666666667,
- "r_y1": 224.0,
- "r_x2": 78.0,
- "r_y2": 224.0,
- "r_x3": 78.0,
- "r_y3": 320.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "document",
- "orig": "document",
- "text_direction": "left_to_right",
- "confidence": 0.96097267,
- "from_ocr": true
- },
- {
- "index": 4,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 218.0,
- "r_x1": 92.66666666666667,
- "r_y1": 116.33333333333333,
- "r_x2": 78.0,
- "r_y2": 116.33333333333333,
- "r_x3": 78.0,
- "r_y3": 218.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "conversion",
- "orig": "conversion",
- "text_direction": "left_to_right",
- "confidence": 0.9586096999999999,
- "from_ocr": true
- },
- {
- "index": 5,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 92.66666666666667,
- "r_y0": 110.0,
- "r_x1": 92.66666666666667,
- "r_y1": 92.0,
- "r_x2": 79.66666666666667,
- "r_y2": 92.0,
- "r_x3": 79.66666666666667,
- "r_y3": 110.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "to",
- "orig": "to",
- "text_direction": "left_to_right",
- "confidence": 0.96174751,
- "from_ocr": true
- },
- {
- "index": 6,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 523.0,
- "r_x1": 119.66666666666667,
- "r_y1": 474.0,
- "r_x2": 104.66666666666667,
- "r_y2": 474.0,
- "r_x3": 104.66666666666667,
- "r_y3": 523.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "JSON",
- "orig": "JSON",
- "text_direction": "left_to_right",
- "confidence": 0.9645800800000001,
- "from_ocr": true
- },
- {
- "index": 7,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 466.3333333333333,
- "r_x1": 119.66666666666667,
- "r_y1": 433.0,
- "r_x2": 105.0,
- "r_y2": 433.0,
- "r_x3": 105.0,
- "r_y3": 466.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "and",
- "orig": "and",
- "text_direction": "left_to_right",
- "confidence": 0.9650985,
- "from_ocr": true
- },
- {
- "index": 8,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 425.0,
- "r_x1": 119.66666666666667,
- "r_y1": 329.6666666666667,
- "r_x2": 105.0,
- "r_y2": 329.6666666666667,
- "r_x3": 105.0,
- "r_y3": 425.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "Markdown",
- "orig": "Markdown",
- "text_direction": "left_to_right",
- "confidence": 0.96493484,
- "from_ocr": true
- },
- {
- "index": 9,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.33333333333333,
- "r_y0": 322.0,
- "r_x1": 119.33333333333333,
- "r_y1": 307.6666666666667,
- "r_x2": 105.0,
- "r_y2": 307.6666666666667,
- "r_x3": 105.0,
- "r_y3": 322.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "in",
- "orig": "in",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 10,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 300.6666666666667,
- "r_x1": 119.66666666666667,
- "r_y1": 279.3333333333333,
- "r_x2": 108.66666666666667,
- "r_y2": 279.3333333333333,
- "r_x3": 108.66666666666667,
- "r_y3": 300.6666666666667,
- "coord_origin": "TOPLEFT"
- },
- "text": "an",
- "orig": "an",
- "text_direction": "left_to_right",
- "confidence": 0.96601158,
- "from_ocr": true
- },
- {
- "index": 11,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 123.33333333333333,
- "r_y0": 272.3333333333333,
- "r_x1": 123.33333333333333,
- "r_y1": 229.66666666666666,
- "r_x2": 108.66666666666667,
- "r_y2": 229.66666666666666,
- "r_x3": 108.66666666666667,
- "r_y3": 272.3333333333333,
- "coord_origin": "TOPLEFT"
- },
- "text": "easy",
- "orig": "easy",
- "text_direction": "left_to_right",
- "confidence": 0.94633133,
- "from_ocr": true
- },
- {
- "index": 12,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 224.33333333333334,
- "r_x1": 119.66666666666667,
- "r_y1": 191.0,
- "r_x2": 105.0,
- "r_y2": 191.0,
- "r_x3": 105.0,
- "r_y3": 224.33333333333334,
- "coord_origin": "TOPLEFT"
- },
- "text": "self",
- "orig": "self",
- "text_direction": "left_to_right",
- "confidence": 0.9594667800000001,
- "from_ocr": true
- },
- {
- "index": 13,
- "rgba": {
- "r": 0,
- "g": 0,
- "b": 0,
- "a": 255
- },
- "rect": {
- "r_x0": 119.66666666666667,
- "r_y0": 185.0,
- "r_x1": 119.66666666666667,
- "r_y1": 92.0,
- "r_x2": 105.0,
- "r_y2": 92.0,
- "r_x3": 105.0,
- "r_y3": 185.0,
- "coord_origin": "TOPLEFT"
- },
- "text": "contained",
- "orig": "contained",
- "text_direction": "left_to_right",
- "confidence": 0.96332787,
+ "confidence": 1.0,
"from_ocr": true
}
],
diff --git a/tests/test_e2e_ocr_conversion.py b/tests/test_e2e_ocr_conversion.py
index b34824a1..7669cd5a 100644
--- a/tests/test_e2e_ocr_conversion.py
+++ b/tests/test_e2e_ocr_conversion.py
@@ -57,14 +57,14 @@ def test_e2e_conversions():
pdf_paths = get_pdf_paths()
engines: List[Tuple[OcrOptions, bool]] = [
- (EasyOcrOptions(), False),
(TesseractOcrOptions(), True),
(TesseractCliOcrOptions(), True),
- (EasyOcrOptions(force_full_page_ocr=True), False),
+ (EasyOcrOptions(), False),
(TesseractOcrOptions(force_full_page_ocr=True), True),
(TesseractOcrOptions(force_full_page_ocr=True, lang=["auto"]), True),
(TesseractCliOcrOptions(force_full_page_ocr=True), True),
(TesseractCliOcrOptions(force_full_page_ocr=True, lang=["auto"]), True),
+ (EasyOcrOptions(force_full_page_ocr=True), False),
]
# rapidocr is only available for Python >=3.6,<3.13