diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.json index 1c01b726..8dbfff1f 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test.json @@ -44,10 +44,10 @@ "prov": [ { "bbox": [ - 72.33333333333333, - 691.5883585611979, - 503.3333333333333, - 763.9216918945312 + 69.6796630536824, + 689.0124221922704, + 504.8720051760782, + 764.9216921155637 ], "page": 1, "span": [ diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json index db21dc37..b53b75aa 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test.pages.json @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "text", "bbox": { - "l": 72.33333333333333, - "t": 78.0, - "r": 503.3333333333333, - "b": 150.33333333333334, + "l": 69.6796630536824, + "t": 76.99999977896756, + "r": 504.8720051760782, + "b": 152.90926970226084, "coord_origin": "TOPLEFT" }, "confidence": 0.9715733528137207, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -491,20 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -516,320 +216,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -854,10 +254,10 @@ "id": 0, "label": "text", "bbox": { - "l": 72.33333333333333, - "t": 78.0, - "r": 503.3333333333333, - "b": 150.33333333333334, + "l": 69.6796630536824, + "t": 76.99999977896756, + "r": 504.8720051760782, + "b": 152.90926970226084, "coord_origin": "TOPLEFT" }, "confidence": 0.9715733528137207, @@ -871,20 +271,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -896,20 +296,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -921,320 +321,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -1252,10 +352,10 @@ "id": 0, "label": "text", "bbox": { - "l": 72.33333333333333, - "t": 78.0, - "r": 503.3333333333333, - "b": 150.33333333333334, + "l": 69.6796630536824, + "t": 76.99999977896756, + "r": 504.8720051760782, + "b": 152.90926970226084, "coord_origin": "TOPLEFT" }, "confidence": 0.9715733528137207, @@ -1269,20 +369,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -1294,20 +394,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -1319,320 +419,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt index 50f50834..029be08d 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.doctags.txt @@ -1,4 +1,4 @@ -package +package Docling bundles PDF document conversion to JSON and Markdown in an easy self contained \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json index 1013a89d..8de137d4 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.json @@ -44,10 +44,10 @@ "prov": [ { "bbox": [ - 444.6666666666667, - 131.58835856119788, - 521.6666666666666, - 150.25502522786462 + 441.2561096985719, + 131.89488404865142, + 522.0347860494834, + 151.87873262042876 ], "page": 1, "span": [ @@ -67,10 +67,10 @@ "prov": [ { "bbox": [ - 92.0, - 77.92169189453125, - 523.0, - 123.25502522786462 + 89.23887497045128, + 77.02339852098021, + 523.208764293368, + 124.75312428291147 ], "page": 1, "span": [ diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json index 5ba51a3b..962861d9 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_180.pages.json @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "text", "bbox": { - "l": 92.0, - "t": 718.6666666666666, - "r": 523.0, - "b": 764.0, + "l": 89.23887497045128, + "t": 717.1685676116198, + "r": 523.208764293368, + "b": 764.898293373551, "coord_origin": "TOPLEFT" }, "confidence": 0.7318570613861084, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -491,320 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, + "confidence": 1.0, "from_ocr": true } ], @@ -814,16 +214,16 @@ "id": 2, "label": "text", "bbox": { - "l": 444.6666666666667, - "t": 691.6666666666666, - "r": 521.6666666666666, - "b": 710.3333333333334, + "l": 441.2561096985719, + "t": 690.0429592741025, + "r": 522.0347860494834, + "b": 710.0268078458798, "coord_origin": "TOPLEFT" }, "confidence": 0.5982133150100708, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -831,20 +231,20 @@ "a": 255 }, "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -869,10 +269,10 @@ "id": 0, "label": "text", "bbox": { - "l": 92.0, - "t": 718.6666666666666, - "r": 523.0, - "b": 764.0, + "l": 89.23887497045128, + "t": 717.1685676116198, + "r": 523.208764293368, + "b": 764.898293373551, "coord_origin": "TOPLEFT" }, "confidence": 0.7318570613861084, @@ -886,20 +286,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -911,320 +311,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, + "confidence": 1.0, "from_ocr": true } ], @@ -1240,16 +340,16 @@ "id": 2, "label": "text", "bbox": { - "l": 444.6666666666667, - "t": 691.6666666666666, - "r": 521.6666666666666, - "b": 710.3333333333334, + "l": 441.2561096985719, + "t": 690.0429592741025, + "r": 522.0347860494834, + "b": 710.0268078458798, "coord_origin": "TOPLEFT" }, "confidence": 0.5982133150100708, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1257,20 +357,20 @@ "a": 255 }, "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -1288,10 +388,10 @@ "id": 0, "label": "text", "bbox": { - "l": 92.0, - "t": 718.6666666666666, - "r": 523.0, - "b": 764.0, + "l": 89.23887497045128, + "t": 717.1685676116198, + "r": 523.208764293368, + "b": 764.898293373551, "coord_origin": "TOPLEFT" }, "confidence": 0.7318570613861084, @@ -1305,20 +405,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -1330,320 +430,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, + "confidence": 1.0, "from_ocr": true } ], @@ -1659,16 +459,16 @@ "id": 2, "label": "text", "bbox": { - "l": 444.6666666666667, - "t": 691.6666666666666, - "r": 521.6666666666666, - "b": 710.3333333333334, + "l": 441.2561096985719, + "t": 690.0429592741025, + "r": 522.0347860494834, + "b": 710.0268078458798, "coord_origin": "TOPLEFT" }, "confidence": 0.5982133150100708, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1676,20 +476,20 @@ "a": 255 }, "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt index 8350737b..d5c2972a 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.doctags.txt @@ -1,3 +1,3 @@ -package +package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json index 90f9b171..fed4d9ec 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.json @@ -44,10 +44,10 @@ "prov": [ { "bbox": [ - 691.6666666666666, - 444.53450520833337, - 710.3333333333334, - 521.5345052083334 + 690.2441821046808, + 442.39487414368364, + 709.8255852011977, + 523.076601235155 ], "page": 1, "span": [ diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json index 466c5d06..4caa899d 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_270.pages.json @@ -11,47 +11,47 @@ "rect": { "r_x0": 0.0, "r_y0": 0.0, - "r_x1": 841.9216918945312, + "r_x1": 595.201171875, "r_y1": 0.0, - "r_x2": 841.9216918945312, - "r_y2": 595.201171875, + "r_x2": 595.201171875, + "r_y2": 841.9216918945312, "r_x3": 0.0, - "r_y3": 595.201171875, + "r_y3": 841.9216918945312, "coord_origin": "BOTTOMLEFT" }, "boundary_type": "crop_box", "art_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "bleed_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "crop_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "media_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "trim_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" } @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 718.6666666666666, - "t": 72.33333333333333, - "r": 764.0, - "b": 503.3333333333333, + "l": 717.168585936602, + "t": 70.90211682372312, + "r": 764.8982839673505, + "b": 504.8720061466397, "coord_origin": "TOPLEFT" }, "confidence": 0.6915205121040344, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -491,320 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -814,16 +214,16 @@ "id": 8, "label": "text", "bbox": { - "l": 691.6666666666666, - "t": 73.66666666666667, - "r": 710.3333333333334, - "b": 150.66666666666666, + "l": 690.2441821046808, + "t": 72.124570639845, + "r": 709.8255852011977, + "b": 152.80629773131633, "coord_origin": "TOPLEFT" }, - "confidence": 0.9644524400000001, + "confidence": 1.0, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -831,20 +231,20 @@ "a": 255 }, "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -869,10 +269,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 718.6666666666666, - "t": 72.33333333333333, - "r": 764.0, - "b": 503.3333333333333, + "l": 717.168585936602, + "t": 70.90211682372312, + "r": 764.8982839673505, + "b": 504.8720061466397, "coord_origin": "TOPLEFT" }, "confidence": 0.6915205121040344, @@ -886,20 +286,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -911,320 +311,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -1240,16 +340,16 @@ "id": 8, "label": "text", "bbox": { - "l": 691.6666666666666, - "t": 73.66666666666667, - "r": 710.3333333333334, - "b": 150.66666666666666, + "l": 690.2441821046808, + "t": 72.124570639845, + "r": 709.8255852011977, + "b": 152.80629773131633, "coord_origin": "TOPLEFT" }, - "confidence": 0.9644524400000001, + "confidence": 1.0, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1257,20 +357,20 @@ "a": 255 }, "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1288,16 +388,16 @@ "id": 8, "label": "text", "bbox": { - "l": 691.6666666666666, - "t": 73.66666666666667, - "r": 710.3333333333334, - "b": 150.66666666666666, + "l": 690.2441821046808, + "t": 72.124570639845, + "r": 709.8255852011977, + "b": 152.80629773131633, "coord_origin": "TOPLEFT" }, - "confidence": 0.9644524400000001, + "confidence": 1.0, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1305,20 +405,20 @@ "a": 255 }, "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1336,10 +436,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 718.6666666666666, - "t": 72.33333333333333, - "r": 764.0, - "b": 503.3333333333333, + "l": 717.168585936602, + "t": 70.90211682372312, + "r": 764.8982839673505, + "b": 504.8720061466397, "coord_origin": "TOPLEFT" }, "confidence": 0.6915205121040344, @@ -1353,20 +453,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -1378,320 +478,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt index 45595ac2..0b7a3a14 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.doctags.txt @@ -1,3 +1,3 @@ -package +package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json index 61f651ae..5a622c92 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.json @@ -44,10 +44,10 @@ "prov": [ { "bbox": [ - 131.66666666666666, - 73.53450520833337, - 150.33333333333334, - 150.53450520833331 + 131.21306574279092, + 74.12495603322407, + 152.19606490864376, + 154.19400205373182 ], "page": 1, "span": [ diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json index e6f062da..e6bcce8c 100644 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json +++ b/tests/data_scanned/groundtruth/docling_v1/ocr_test_rotated_90.pages.json @@ -11,47 +11,47 @@ "rect": { "r_x0": 0.0, "r_y0": 0.0, - "r_x1": 841.9216918945312, + "r_x1": 595.201171875, "r_y1": 0.0, - "r_x2": 841.9216918945312, - "r_y2": 595.201171875, + "r_x2": 595.201171875, + "r_y2": 841.9216918945312, "r_x3": 0.0, - "r_y3": 595.201171875, + "r_y3": 841.9216918945312, "coord_origin": "BOTTOMLEFT" }, "boundary_type": "crop_box", "art_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "bleed_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "crop_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "media_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "trim_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" } @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 78.0, - "t": 92.0, - "r": 123.33333333333333, - "b": 523.0, + "l": 77.10171545548258, + "t": 89.1266754140729, + "r": 126.08064862014129, + "b": 523.3236155182395, "coord_origin": "TOPLEFT" }, "confidence": 0.6016772389411926, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -491,320 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -814,16 +214,16 @@ "id": 1, "label": "text", "bbox": { - "l": 131.66666666666666, - "t": 444.6666666666667, - "r": 150.33333333333334, - "b": 521.6666666666666, + "l": 131.21306574279092, + "t": 441.0071698212682, + "r": 152.19606490864376, + "b": 521.0762158417759, "coord_origin": "TOPLEFT" }, "confidence": 0.5234212875366211, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -831,20 +231,20 @@ "a": 255 }, "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -869,10 +269,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 78.0, - "t": 92.0, - "r": 123.33333333333333, - "b": 523.0, + "l": 77.10171545548258, + "t": 89.1266754140729, + "r": 126.08064862014129, + "b": 523.3236155182395, "coord_origin": "TOPLEFT" }, "confidence": 0.6016772389411926, @@ -886,20 +286,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -911,320 +311,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -1240,16 +340,16 @@ "id": 1, "label": "text", "bbox": { - "l": 131.66666666666666, - "t": 444.6666666666667, - "r": 150.33333333333334, - "b": 521.6666666666666, + "l": 131.21306574279092, + "t": 441.0071698212682, + "r": 152.19606490864376, + "b": 521.0762158417759, "coord_origin": "TOPLEFT" }, "confidence": 0.5234212875366211, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1257,20 +357,20 @@ "a": 255 }, "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1288,16 +388,16 @@ "id": 1, "label": "text", "bbox": { - "l": 131.66666666666666, - "t": 444.6666666666667, - "r": 150.33333333333334, - "b": 521.6666666666666, + "l": 131.21306574279092, + "t": 441.0071698212682, + "r": 152.19606490864376, + "b": 521.0762158417759, "coord_origin": "TOPLEFT" }, "confidence": 0.5234212875366211, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1305,20 +405,20 @@ "a": 255 }, "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1336,10 +436,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 78.0, - "t": 92.0, - "r": 123.33333333333333, - "b": 523.0, + "l": 77.10171545548258, + "t": 89.1266754140729, + "r": 126.08064862014129, + "b": 523.3236155182395, "coord_origin": "TOPLEFT" }, "confidence": 0.6016772389411926, @@ -1353,20 +453,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -1378,320 +478,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt index 82af9fca..c210e4dd 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test.doctags.txt @@ -1,2 +1,2 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package +Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.json index b256612a..e08af9cf 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test.json @@ -42,10 +42,10 @@ { "page_no": 1, "bbox": { - "l": 72.33333333333333, - "t": 763.9216918945312, - "r": 503.3333333333333, - "b": 691.5883585611979, + "l": 69.6796630536824, + "t": 764.9216921155637, + "r": 504.8720051760782, + "b": 689.0124221922704, "coord_origin": "BOTTOMLEFT" }, "charspan": [ diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json index db21dc37..b53b75aa 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test.pages.json @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "text", "bbox": { - "l": 72.33333333333333, - "t": 78.0, - "r": 503.3333333333333, - "b": 150.33333333333334, + "l": 69.6796630536824, + "t": 76.99999977896756, + "r": 504.8720051760782, + "b": 152.90926970226084, "coord_origin": "TOPLEFT" }, "confidence": 0.9715733528137207, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -491,20 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -516,320 +216,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -854,10 +254,10 @@ "id": 0, "label": "text", "bbox": { - "l": 72.33333333333333, - "t": 78.0, - "r": 503.3333333333333, - "b": 150.33333333333334, + "l": 69.6796630536824, + "t": 76.99999977896756, + "r": 504.8720051760782, + "b": 152.90926970226084, "coord_origin": "TOPLEFT" }, "confidence": 0.9715733528137207, @@ -871,20 +271,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -896,20 +296,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -921,320 +321,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -1252,10 +352,10 @@ "id": 0, "label": "text", "bbox": { - "l": 72.33333333333333, - "t": 78.0, - "r": 503.3333333333333, - "b": 150.33333333333334, + "l": 69.6796630536824, + "t": 76.99999977896756, + "r": 504.8720051760782, + "b": 152.90926970226084, "coord_origin": "TOPLEFT" }, "confidence": 0.9715733528137207, @@ -1269,20 +369,20 @@ "a": 255 }, "rect": { - "r_x0": 74.0, - "r_y0": 96.66666666666667, - "r_x1": 144.0, - "r_y1": 96.66666666666667, - "r_x2": 144.0, - "r_y2": 78.0, - "r_x3": 74.0, - "r_y3": 78.0, + "r_x0": 73.34702132031646, + "r_y0": 97.99999977896755, + "r_x1": 503.64955224479564, + "r_y1": 97.99999977896755, + "r_x2": 503.64955224479564, + "r_y2": 76.99999977896756, + "r_x3": 73.34702132031646, + "r_y3": 76.99999977896756, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -1294,20 +394,20 @@ "a": 255 }, "rect": { - "r_x0": 150.66666666666666, - "r_y0": 92.66666666666667, - "r_x1": 224.66666666666666, - "r_y1": 92.66666666666667, - "r_x2": 224.66666666666666, - "r_y2": 78.0, - "r_x3": 150.66666666666666, - "r_y3": 78.0, + "r_x0": 69.6796630536824, + "r_y0": 124.83139494707741, + "r_x1": 504.8720051760782, + "r_y1": 124.83139494707741, + "r_x2": 504.8720051760782, + "r_y2": 104.00000011573796, + "r_x3": 69.6796630536824, + "r_y3": 104.00000011573796, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -1319,320 +419,20 @@ "a": 255 }, "rect": { - "r_x0": 232.0, - "r_y0": 92.66666666666667, - "r_x1": 269.0, - "r_y1": 92.66666666666667, - "r_x2": 269.0, - "r_y2": 78.0, - "r_x3": 232.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 275.0, - "r_y0": 92.66666666666667, - "r_x1": 371.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 371.3333333333333, - "r_y2": 78.0, - "r_x3": 275.0, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 377.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 479.0, - "r_y1": 92.66666666666667, - "r_x2": 479.0, - "r_y2": 78.0, - "r_x3": 377.3333333333333, - "r_y3": 78.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 485.3333333333333, - "r_y0": 92.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 92.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 79.66666666666667, - "r_x3": 485.3333333333333, - "r_y3": 79.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 72.33333333333333, - "r_y0": 119.66666666666667, - "r_x1": 121.33333333333333, - "r_y1": 119.66666666666667, - "r_x2": 121.33333333333333, - "r_y2": 104.66666666666667, - "r_x3": 72.33333333333333, - "r_y3": 104.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 129.0, - "r_y0": 119.66666666666667, - "r_x1": 162.33333333333334, - "r_y1": 119.66666666666667, - "r_x2": 162.33333333333334, - "r_y2": 105.0, - "r_x3": 129.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 170.33333333333334, - "r_y0": 119.66666666666667, - "r_x1": 265.6666666666667, - "r_y1": 119.66666666666667, - "r_x2": 265.6666666666667, - "r_y2": 105.0, - "r_x3": 170.33333333333334, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 273.3333333333333, - "r_y0": 119.33333333333333, - "r_x1": 287.6666666666667, - "r_y1": 119.33333333333333, - "r_x2": 287.6666666666667, - "r_y2": 105.0, - "r_x3": 273.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 294.6666666666667, - "r_y0": 119.66666666666667, - "r_x1": 316.0, - "r_y1": 119.66666666666667, - "r_x2": 316.0, - "r_y2": 108.66666666666667, - "r_x3": 294.6666666666667, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 323.0, - "r_y0": 123.33333333333333, - "r_x1": 365.6666666666667, - "r_y1": 123.33333333333333, - "r_x2": 365.6666666666667, - "r_y2": 108.66666666666667, - "r_x3": 323.0, - "r_y3": 108.66666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 371.0, - "r_y0": 119.66666666666667, - "r_x1": 404.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 404.3333333333333, - "r_y2": 105.0, - "r_x3": 371.0, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 410.3333333333333, - "r_y0": 119.66666666666667, - "r_x1": 503.3333333333333, - "r_y1": 119.66666666666667, - "r_x2": 503.3333333333333, - "r_y2": 105.0, - "r_x3": 410.3333333333333, - "r_y3": 105.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 73.66666666666667, - "r_y0": 150.33333333333334, - "r_x1": 150.66666666666666, - "r_y1": 150.33333333333334, - "r_x2": 150.66666666666666, - "r_y2": 131.66666666666666, - "r_x3": 73.66666666666667, - "r_y3": 131.66666666666666, + "r_x0": 71.84193505100733, + "r_y0": 152.90926970226084, + "r_x1": 153.088934155825, + "r_y1": 152.90926970226084, + "r_x2": 153.088934155825, + "r_y2": 129.797125232046, + "r_x3": 71.84193505100733, + "r_y3": 129.797125232046, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt index f270ebec..405aa96e 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.doctags.txt @@ -1,3 +1,3 @@ -package -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained +package +Docling bundles PDF document conversion to JSON and Markdown in an easy self contained \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json index e68775d8..835b1c74 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.json @@ -45,10 +45,10 @@ { "page_no": 1, "bbox": { - "l": 444.6666666666667, - "t": 150.25502522786462, - "r": 521.6666666666666, - "b": 131.58835856119788, + "l": 441.2561096985719, + "t": 151.87873262042876, + "r": 522.0347860494834, + "b": 131.89488404865142, "coord_origin": "BOTTOMLEFT" }, "charspan": [ @@ -74,10 +74,10 @@ { "page_no": 1, "bbox": { - "l": 92.0, - "t": 123.25502522786462, - "r": 523.0, - "b": 77.92169189453125, + "l": 89.23887497045128, + "t": 124.75312428291147, + "r": 523.208764293368, + "b": 77.02339852098021, "coord_origin": "BOTTOMLEFT" }, "charspan": [ diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json index 5ba51a3b..962861d9 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_180.pages.json @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "text", "bbox": { - "l": 92.0, - "t": 718.6666666666666, - "r": 523.0, - "b": 764.0, + "l": 89.23887497045128, + "t": 717.1685676116198, + "r": 523.208764293368, + "b": 764.898293373551, "coord_origin": "TOPLEFT" }, "confidence": 0.7318570613861084, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -491,320 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, + "confidence": 1.0, "from_ocr": true } ], @@ -814,16 +214,16 @@ "id": 2, "label": "text", "bbox": { - "l": 444.6666666666667, - "t": 691.6666666666666, - "r": 521.6666666666666, - "b": 710.3333333333334, + "l": 441.2561096985719, + "t": 690.0429592741025, + "r": 522.0347860494834, + "b": 710.0268078458798, "coord_origin": "TOPLEFT" }, "confidence": 0.5982133150100708, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -831,20 +231,20 @@ "a": 255 }, "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -869,10 +269,10 @@ "id": 0, "label": "text", "bbox": { - "l": 92.0, - "t": 718.6666666666666, - "r": 523.0, - "b": 764.0, + "l": 89.23887497045128, + "t": 717.1685676116198, + "r": 523.208764293368, + "b": 764.898293373551, "coord_origin": "TOPLEFT" }, "confidence": 0.7318570613861084, @@ -886,20 +286,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -911,320 +311,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, + "confidence": 1.0, "from_ocr": true } ], @@ -1240,16 +340,16 @@ "id": 2, "label": "text", "bbox": { - "l": 444.6666666666667, - "t": 691.6666666666666, - "r": 521.6666666666666, - "b": 710.3333333333334, + "l": 441.2561096985719, + "t": 690.0429592741025, + "r": 522.0347860494834, + "b": 710.0268078458798, "coord_origin": "TOPLEFT" }, "confidence": 0.5982133150100708, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1257,20 +357,20 @@ "a": 255 }, "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], @@ -1288,10 +388,10 @@ "id": 0, "label": "text", "bbox": { - "l": 92.0, - "t": 718.6666666666666, - "r": 523.0, - "b": 764.0, + "l": 89.23887497045128, + "t": 717.1685676116198, + "r": 523.208764293368, + "b": 764.898293373551, "coord_origin": "TOPLEFT" }, "confidence": 0.7318570613861084, @@ -1305,20 +405,20 @@ "a": 255 }, "rect": { - "r_x0": 521.3333333333334, - "r_y0": 745.3333333333334, - "r_x1": 451.3333333333333, - "r_y1": 745.3333333333334, - "r_x2": 451.3333333333333, - "r_y2": 764.0, - "r_x3": 521.3333333333334, - "r_y3": 764.0, + "r_x0": 89.2388782764286, + "r_y0": 764.898293373551, + "r_x1": 521.9863147998661, + "r_y1": 764.898293373551, + "r_x2": 521.9863147998661, + "r_y2": 744.0929853494625, + "r_x3": 89.2388782764286, + "r_y3": 744.0929853494625, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8903511000000001, + "confidence": 1.0, "from_ocr": true }, { @@ -1330,320 +430,20 @@ "a": 255 }, "rect": { - "r_x0": 444.6666666666667, - "r_y0": 749.3333333333334, - "r_x1": 370.6666666666667, - "r_y1": 749.3333333333334, - "r_x2": 370.6666666666667, - "r_y2": 764.0, - "r_x3": 444.6666666666667, - "r_y3": 764.0, + "r_x0": 89.23887497045128, + "r_y0": 739.1977118987292, + "r_x1": 523.208764293368, + "r_y1": 739.1977118987292, + "r_x2": 523.208764293368, + "r_y2": 717.1685676116198, + "r_x3": 89.23887497045128, + "r_y3": 717.1685676116198, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.9643914800000001, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 363.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 326.3333333333333, - "r_y1": 749.3333333333334, - "r_x2": 326.3333333333333, - "r_y2": 764.0, - "r_x3": 363.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.9692087600000001, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 320.3333333333333, - "r_y0": 749.3333333333334, - "r_x1": 224.0, - "r_y1": 749.3333333333334, - "r_x2": 224.0, - "r_y2": 764.0, - "r_x3": 320.3333333333333, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.9600200700000001, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 218.0, - "r_y0": 749.3333333333334, - "r_x1": 116.33333333333333, - "r_y1": 749.3333333333334, - "r_x2": 116.33333333333333, - "r_y2": 764.0, - "r_x3": 218.0, - "r_y3": 764.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9593277, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 110.0, - "r_y0": 749.3333333333334, - "r_x1": 92.0, - "r_y1": 749.3333333333334, - "r_x2": 92.0, - "r_y2": 762.3333333333334, - "r_x3": 110.0, - "r_y3": 762.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96203415, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 523.0, - "r_y0": 722.3333333333334, - "r_x1": 474.0, - "r_y1": 722.3333333333334, - "r_x2": 474.0, - "r_y2": 737.3333333333334, - "r_x3": 523.0, - "r_y3": 737.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.96395119, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 466.3333333333333, - "r_y0": 722.3333333333334, - "r_x1": 433.0, - "r_y1": 722.3333333333334, - "r_x2": 433.0, - "r_y2": 737.0, - "r_x3": 466.3333333333333, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.96402367, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 425.0, - "r_y0": 722.3333333333334, - "r_x1": 329.6666666666667, - "r_y1": 722.3333333333334, - "r_x2": 329.6666666666667, - "r_y2": 737.0, - "r_x3": 425.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96503731, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 322.0, - "r_y0": 722.6666666666666, - "r_x1": 307.6666666666667, - "r_y1": 722.6666666666666, - "r_x2": 307.6666666666667, - "r_y2": 737.0, - "r_x3": 322.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.9625035099999999, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 300.6666666666667, - "r_y0": 722.3333333333334, - "r_x1": 279.3333333333333, - "r_y1": 722.3333333333334, - "r_x2": 279.3333333333333, - "r_y2": 733.3333333333334, - "r_x3": 300.6666666666667, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96585426, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 272.3333333333333, - "r_y0": 718.6666666666666, - "r_x1": 229.66666666666666, - "r_y1": 718.6666666666666, - "r_x2": 229.66666666666666, - "r_y2": 733.3333333333334, - "r_x3": 272.3333333333333, - "r_y3": 733.3333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94413689, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 224.33333333333334, - "r_y0": 722.3333333333334, - "r_x1": 191.0, - "r_y1": 722.3333333333334, - "r_x2": 191.0, - "r_y2": 737.0, - "r_x3": 224.33333333333334, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.96096283, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 185.0, - "r_y0": 722.3333333333334, - "r_x1": 92.0, - "r_y1": 722.3333333333334, - "r_x2": 92.0, - "r_y2": 737.0, - "r_x3": 185.0, - "r_y3": 737.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96607635, + "confidence": 1.0, "from_ocr": true } ], @@ -1659,16 +459,16 @@ "id": 2, "label": "text", "bbox": { - "l": 444.6666666666667, - "t": 691.6666666666666, - "r": 521.6666666666666, - "b": 710.3333333333334, + "l": 441.2561096985719, + "t": 690.0429592741025, + "r": 522.0347860494834, + "b": 710.0268078458798, "coord_origin": "TOPLEFT" }, "confidence": 0.5982133150100708, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1676,20 +476,20 @@ "a": 255 }, "rect": { - "r_x0": 521.6666666666666, - "r_y0": 691.6666666666666, - "r_x1": 444.6666666666667, - "r_y1": 691.6666666666666, - "r_x2": 444.6666666666667, - "r_y2": 710.3333333333334, - "r_x3": 521.6666666666666, - "r_y3": 710.3333333333334, + "r_x0": 441.2561096985719, + "r_y0": 710.0268078458798, + "r_x1": 522.0347860494834, + "r_y1": 710.0268078458798, + "r_x2": 522.0347860494834, + "r_y2": 690.0429592741025, + "r_x3": 441.2561096985719, + "r_y3": 690.0429592741025, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.96362862, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt index 2c343d7b..70ee51c4 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.doctags.txt @@ -1,3 +1,3 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained -package +Docling bundles PDF document conversion to JSON and Markdown in an easy self contained +package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json index 31ffa3bd..69a028d4 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.json @@ -45,10 +45,10 @@ { "page_no": 1, "bbox": { - "l": 718.6666666666666, - "t": 522.8678385416666, - "r": 764.0, - "b": 91.86783854166669, + "l": 717.168585936602, + "t": 524.2990550512769, + "r": 764.8982839673505, + "b": 90.3291657283603, "coord_origin": "BOTTOMLEFT" }, "charspan": [ @@ -74,10 +74,10 @@ { "page_no": 1, "bbox": { - "l": 691.6666666666666, - "t": 521.5345052083334, - "r": 710.3333333333334, - "b": 444.53450520833337, + "l": 690.2441821046808, + "t": 523.076601235155, + "r": 709.8255852011977, + "b": 442.39487414368364, "coord_origin": "BOTTOMLEFT" }, "charspan": [ diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json index 466c5d06..4caa899d 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_270.pages.json @@ -11,47 +11,47 @@ "rect": { "r_x0": 0.0, "r_y0": 0.0, - "r_x1": 841.9216918945312, + "r_x1": 595.201171875, "r_y1": 0.0, - "r_x2": 841.9216918945312, - "r_y2": 595.201171875, + "r_x2": 595.201171875, + "r_y2": 841.9216918945312, "r_x3": 0.0, - "r_y3": 595.201171875, + "r_y3": 841.9216918945312, "coord_origin": "BOTTOMLEFT" }, "boundary_type": "crop_box", "art_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "bleed_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "crop_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "media_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "trim_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" } @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 718.6666666666666, - "t": 72.33333333333333, - "r": 764.0, - "b": 503.3333333333333, + "l": 717.168585936602, + "t": 70.90211682372312, + "r": 764.8982839673505, + "b": 504.8720061466397, "coord_origin": "TOPLEFT" }, "confidence": 0.6915205121040344, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -491,320 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -814,16 +214,16 @@ "id": 8, "label": "text", "bbox": { - "l": 691.6666666666666, - "t": 73.66666666666667, - "r": 710.3333333333334, - "b": 150.66666666666666, + "l": 690.2441821046808, + "t": 72.124570639845, + "r": 709.8255852011977, + "b": 152.80629773131633, "coord_origin": "TOPLEFT" }, - "confidence": 0.9644524400000001, + "confidence": 1.0, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -831,20 +231,20 @@ "a": 255 }, "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -869,10 +269,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 718.6666666666666, - "t": 72.33333333333333, - "r": 764.0, - "b": 503.3333333333333, + "l": 717.168585936602, + "t": 70.90211682372312, + "r": 764.8982839673505, + "b": 504.8720061466397, "coord_origin": "TOPLEFT" }, "confidence": 0.6915205121040344, @@ -886,20 +286,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -911,320 +311,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -1240,16 +340,16 @@ "id": 8, "label": "text", "bbox": { - "l": 691.6666666666666, - "t": 73.66666666666667, - "r": 710.3333333333334, - "b": 150.66666666666666, + "l": 690.2441821046808, + "t": 72.124570639845, + "r": 709.8255852011977, + "b": 152.80629773131633, "coord_origin": "TOPLEFT" }, - "confidence": 0.9644524400000001, + "confidence": 1.0, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1257,20 +357,20 @@ "a": 255 }, "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1288,16 +388,16 @@ "id": 8, "label": "text", "bbox": { - "l": 691.6666666666666, - "t": 73.66666666666667, - "r": 710.3333333333334, - "b": 150.66666666666666, + "l": 690.2441821046808, + "t": 72.124570639845, + "r": 709.8255852011977, + "b": 152.80629773131633, "coord_origin": "TOPLEFT" }, - "confidence": 0.9644524400000001, + "confidence": 1.0, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1305,20 +405,20 @@ "a": 255 }, "rect": { - "r_x0": 691.6666666666666, - "r_y0": 73.66666666666667, - "r_x1": 691.6666666666666, - "r_y1": 150.66666666666666, - "r_x2": 710.3333333333334, - "r_y2": 150.66666666666666, - "r_x3": 691.6666666666666, - "r_y3": 150.66666666666666, + "r_x0": 690.2441821046808, + "r_y0": 152.80629773131633, + "r_x1": 709.8255852011977, + "r_y1": 152.80629773131633, + "r_x2": 709.8255852011977, + "r_y2": 72.124570639845, + "r_x3": 690.2441821046808, + "r_y3": 72.124570639845, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1336,10 +436,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 718.6666666666666, - "t": 72.33333333333333, - "r": 764.0, - "b": 503.3333333333333, + "l": 717.168585936602, + "t": 70.90211682372312, + "r": 764.8982839673505, + "b": 504.8720061466397, "coord_origin": "TOPLEFT" }, "confidence": 0.6915205121040344, @@ -1353,20 +453,20 @@ "a": 255 }, "rect": { - "r_x0": 745.3333333333334, - "r_y0": 74.0, - "r_x1": 745.3333333333334, - "r_y1": 144.0, - "r_x2": 764.0, - "r_y2": 144.0, - "r_x3": 745.3333333333334, - "r_y3": 144.0, + "r_x0": 744.0930045534915, + "r_y0": 504.87200373583954, + "r_x1": 764.8982839673505, + "r_y1": 504.87200373583954, + "r_x2": 764.8982839673505, + "r_y2": 73.34702001188118, + "r_x3": 744.0930045534915, + "r_y3": 73.34702001188118, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -1378,320 +478,20 @@ "a": 255 }, "rect": { - "r_x0": 749.3333333333334, - "r_y0": 150.66666666666666, - "r_x1": 749.3333333333334, - "r_y1": 224.66666666666666, - "r_x2": 764.0, - "r_y2": 224.66666666666666, - "r_x3": 749.3333333333334, - "r_y3": 224.66666666666666, + "r_x0": 717.168585936602, + "r_y0": 504.8720061466397, + "r_x1": 737.9738558137178, + "r_y1": 504.8720061466397, + "r_x2": 737.9738558137178, + "r_y2": 70.90211682372312, + "r_x3": 717.168585936602, + "r_y3": 70.90211682372312, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 232.0, - "r_x1": 749.3333333333334, - "r_y1": 269.0, - "r_x2": 764.0, - "r_y2": 269.0, - "r_x3": 749.3333333333334, - "r_y3": 269.0, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 275.0, - "r_x1": 749.3333333333334, - "r_y1": 371.3333333333333, - "r_x2": 764.0, - "r_y2": 371.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 371.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 377.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 479.0, - "r_x2": 764.0, - "r_y2": 479.0, - "r_x3": 749.3333333333334, - "r_y3": 479.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 749.3333333333334, - "r_y0": 485.3333333333333, - "r_x1": 749.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 762.3333333333334, - "r_y2": 503.3333333333333, - "r_x3": 749.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 72.33333333333333, - "r_x1": 722.3333333333334, - "r_y1": 121.33333333333333, - "r_x2": 737.3333333333334, - "r_y2": 121.33333333333333, - "r_x3": 722.3333333333334, - "r_y3": 121.33333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 129.0, - "r_x1": 722.3333333333334, - "r_y1": 162.33333333333334, - "r_x2": 737.0, - "r_y2": 162.33333333333334, - "r_x3": 722.3333333333334, - "r_y3": 162.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 170.33333333333334, - "r_x1": 722.3333333333334, - "r_y1": 265.6666666666667, - "r_x2": 737.0, - "r_y2": 265.6666666666667, - "r_x3": 722.3333333333334, - "r_y3": 265.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.6666666666666, - "r_y0": 273.3333333333333, - "r_x1": 722.6666666666666, - "r_y1": 287.6666666666667, - "r_x2": 737.0, - "r_y2": 287.6666666666667, - "r_x3": 722.6666666666666, - "r_y3": 287.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 294.6666666666667, - "r_x1": 722.3333333333334, - "r_y1": 316.0, - "r_x2": 733.3333333333334, - "r_y2": 316.0, - "r_x3": 722.3333333333334, - "r_y3": 316.0, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 718.6666666666666, - "r_y0": 323.0, - "r_x1": 718.6666666666666, - "r_y1": 365.6666666666667, - "r_x2": 733.3333333333334, - "r_y2": 365.6666666666667, - "r_x3": 718.6666666666666, - "r_y3": 365.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 371.0, - "r_x1": 722.3333333333334, - "r_y1": 404.3333333333333, - "r_x2": 737.0, - "r_y2": 404.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 404.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 722.3333333333334, - "r_y0": 410.3333333333333, - "r_x1": 722.3333333333334, - "r_y1": 503.3333333333333, - "r_x2": 737.0, - "r_y2": 503.3333333333333, - "r_x3": 722.3333333333334, - "r_y3": 503.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt index a84cb1dd..d8b87216 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.doctags.txt @@ -1,3 +1,3 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained -package +Docling bundles PDF document conversion to JSON and Markdown in an easy self contained +package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json index e3d4c356..94dc806f 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.json @@ -45,10 +45,10 @@ { "page_no": 1, "bbox": { - "l": 78.0, - "t": 503.201171875, - "r": 123.33333333333333, - "b": 72.201171875, + "l": 77.10171545548258, + "t": 506.0744964609271, + "r": 126.08064862014129, + "b": 71.87755635676046, "coord_origin": "BOTTOMLEFT" }, "charspan": [ @@ -74,10 +74,10 @@ { "page_no": 1, "bbox": { - "l": 131.66666666666666, - "t": 150.53450520833331, - "r": 150.33333333333334, - "b": 73.53450520833337, + "l": 131.21306574279092, + "t": 154.19400205373182, + "r": 152.19606490864376, + "b": 74.12495603322407, "coord_origin": "BOTTOMLEFT" }, "charspan": [ diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json index e6f062da..e6bcce8c 100644 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json +++ b/tests/data_scanned/groundtruth/docling_v2/ocr_test_rotated_90.pages.json @@ -11,47 +11,47 @@ "rect": { "r_x0": 0.0, "r_y0": 0.0, - "r_x1": 841.9216918945312, + "r_x1": 595.201171875, "r_y1": 0.0, - "r_x2": 841.9216918945312, - "r_y2": 595.201171875, + "r_x2": 595.201171875, + "r_y2": 841.9216918945312, "r_x3": 0.0, - "r_y3": 595.201171875, + "r_y3": 841.9216918945312, "coord_origin": "BOTTOMLEFT" }, "boundary_type": "crop_box", "art_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "bleed_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "crop_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "media_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" }, "trim_bbox": { "l": 0.0, - "t": 595.201171875, - "r": 841.9216918945312, + "t": 841.9216918945312, + "r": 595.201171875, "b": 0.0, "coord_origin": "BOTTOMLEFT" } @@ -69,20 +69,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -94,20 +94,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, + "confidence": 1.0, "from_ocr": true }, { @@ -119,320 +119,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, - "from_ocr": true - }, - { - "index": 14, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -449,10 +149,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 78.0, - "t": 92.0, - "r": 123.33333333333333, - "b": 523.0, + "l": 77.10171545548258, + "t": 89.1266754140729, + "r": 126.08064862014129, + "b": 523.3236155182395, "coord_origin": "TOPLEFT" }, "confidence": 0.6016772389411926, @@ -466,20 +166,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -491,320 +191,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -814,16 +214,16 @@ "id": 1, "label": "text", "bbox": { - "l": 131.66666666666666, - "t": 444.6666666666667, - "r": 150.33333333333334, - "b": 521.6666666666666, + "l": 131.21306574279092, + "t": 441.0071698212682, + "r": 152.19606490864376, + "b": 521.0762158417759, "coord_origin": "TOPLEFT" }, "confidence": 0.5234212875366211, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -831,20 +231,20 @@ "a": 255 }, "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -869,10 +269,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 78.0, - "t": 92.0, - "r": 123.33333333333333, - "b": 523.0, + "l": 77.10171545548258, + "t": 89.1266754140729, + "r": 126.08064862014129, + "b": 523.3236155182395, "coord_origin": "TOPLEFT" }, "confidence": 0.6016772389411926, @@ -886,20 +286,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -911,320 +311,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], @@ -1240,16 +340,16 @@ "id": 1, "label": "text", "bbox": { - "l": 131.66666666666666, - "t": 444.6666666666667, - "r": 150.33333333333334, - "b": 521.6666666666666, + "l": 131.21306574279092, + "t": 441.0071698212682, + "r": 152.19606490864376, + "b": 521.0762158417759, "coord_origin": "TOPLEFT" }, "confidence": 0.5234212875366211, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1257,20 +357,20 @@ "a": 255 }, "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1288,16 +388,16 @@ "id": 1, "label": "text", "bbox": { - "l": 131.66666666666666, - "t": 444.6666666666667, - "r": 150.33333333333334, - "b": 521.6666666666666, + "l": 131.21306574279092, + "t": 441.0071698212682, + "r": 152.19606490864376, + "b": 521.0762158417759, "coord_origin": "TOPLEFT" }, "confidence": 0.5234212875366211, "cells": [ { - "index": 14, + "index": 2, "rgba": { "r": 0, "g": 0, @@ -1305,20 +405,20 @@ "a": 255 }, "rect": { - "r_x0": 150.33333333333334, - "r_y0": 521.6666666666666, - "r_x1": 150.33333333333334, - "r_y1": 444.6666666666667, - "r_x2": 131.66666666666666, - "r_y2": 444.6666666666667, - "r_x3": 131.66666666666666, - "r_y3": 521.6666666666666, + "r_x0": 131.21306574279092, + "r_y0": 521.0762158417759, + "r_x1": 152.19606490864376, + "r_y1": 521.0762158417759, + "r_x2": 152.19606490864376, + "r_y2": 441.0071698212682, + "r_x3": 131.21306574279092, + "r_y3": 441.0071698212682, "coord_origin": "TOPLEFT" }, "text": "package", "orig": "package", "text_direction": "left_to_right", - "confidence": 0.9644524400000001, + "confidence": 1.0, "from_ocr": true } ], @@ -1336,10 +436,10 @@ "id": 0, "label": "page_header", "bbox": { - "l": 78.0, - "t": 92.0, - "r": 123.33333333333333, - "b": 523.0, + "l": 77.10171545548258, + "t": 89.1266754140729, + "r": 126.08064862014129, + "b": 523.3236155182395, "coord_origin": "TOPLEFT" }, "confidence": 0.6016772389411926, @@ -1353,20 +453,20 @@ "a": 255 }, "rect": { - "r_x0": 96.66666666666667, - "r_y0": 521.3333333333334, - "r_x1": 96.66666666666667, - "r_y1": 451.3333333333333, - "r_x2": 78.0, - "r_y2": 451.3333333333333, - "r_x3": 78.0, - "r_y3": 521.3333333333334, + "r_x0": 77.10171545548258, + "r_y0": 520.7638571913312, + "r_x1": 96.68315797053792, + "r_y1": 520.7638571913312, + "r_x2": 96.68315797053792, + "r_y2": 89.2388734673729, + "r_x3": 77.10171545548258, + "r_y3": 89.2388734673729, "coord_origin": "TOPLEFT" }, - "text": "Docling", - "orig": "Docling", + "text": "Docling bundles PDF document conversion to", + "orig": "Docling bundles PDF document conversion to", "text_direction": "left_to_right", - "confidence": 0.8993061099999999, + "confidence": 1.0, "from_ocr": true }, { @@ -1378,320 +478,20 @@ "a": 255 }, "rect": { - "r_x0": 92.66666666666667, - "r_y0": 444.6666666666667, - "r_x1": 92.66666666666667, - "r_y1": 370.6666666666667, - "r_x2": 78.0, - "r_y2": 370.6666666666667, - "r_x3": 78.0, - "r_y3": 444.6666666666667, + "r_x0": 100.64168123325977, + "r_y0": 523.3236155182395, + "r_x1": 126.08064862014129, + "r_y1": 523.3236155182395, + "r_x2": 126.08064862014129, + "r_y2": 89.1266754140729, + "r_x3": 100.64168123325977, + "r_y3": 89.1266754140729, "coord_origin": "TOPLEFT" }, - "text": "bundles", - "orig": "bundles", + "text": "JSON and Markdown in an easy self contained", + "orig": "JSON and Markdown in an easy self contained", "text_direction": "left_to_right", - "confidence": 0.96306152, - "from_ocr": true - }, - { - "index": 2, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 363.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 326.3333333333333, - "r_x2": 78.0, - "r_y2": 326.3333333333333, - "r_x3": 78.0, - "r_y3": 363.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "PDF", - "orig": "PDF", - "text_direction": "left_to_right", - "confidence": 0.96931, - "from_ocr": true - }, - { - "index": 3, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 320.3333333333333, - "r_x1": 92.66666666666667, - "r_y1": 224.0, - "r_x2": 78.0, - "r_y2": 224.0, - "r_x3": 78.0, - "r_y3": 320.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "document", - "orig": "document", - "text_direction": "left_to_right", - "confidence": 0.96097267, - "from_ocr": true - }, - { - "index": 4, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 218.0, - "r_x1": 92.66666666666667, - "r_y1": 116.33333333333333, - "r_x2": 78.0, - "r_y2": 116.33333333333333, - "r_x3": 78.0, - "r_y3": 218.0, - "coord_origin": "TOPLEFT" - }, - "text": "conversion", - "orig": "conversion", - "text_direction": "left_to_right", - "confidence": 0.9586096999999999, - "from_ocr": true - }, - { - "index": 5, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 92.66666666666667, - "r_y0": 110.0, - "r_x1": 92.66666666666667, - "r_y1": 92.0, - "r_x2": 79.66666666666667, - "r_y2": 92.0, - "r_x3": 79.66666666666667, - "r_y3": 110.0, - "coord_origin": "TOPLEFT" - }, - "text": "to", - "orig": "to", - "text_direction": "left_to_right", - "confidence": 0.96174751, - "from_ocr": true - }, - { - "index": 6, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 523.0, - "r_x1": 119.66666666666667, - "r_y1": 474.0, - "r_x2": 104.66666666666667, - "r_y2": 474.0, - "r_x3": 104.66666666666667, - "r_y3": 523.0, - "coord_origin": "TOPLEFT" - }, - "text": "JSON", - "orig": "JSON", - "text_direction": "left_to_right", - "confidence": 0.9645800800000001, - "from_ocr": true - }, - { - "index": 7, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 466.3333333333333, - "r_x1": 119.66666666666667, - "r_y1": 433.0, - "r_x2": 105.0, - "r_y2": 433.0, - "r_x3": 105.0, - "r_y3": 466.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "and", - "orig": "and", - "text_direction": "left_to_right", - "confidence": 0.9650985, - "from_ocr": true - }, - { - "index": 8, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 425.0, - "r_x1": 119.66666666666667, - "r_y1": 329.6666666666667, - "r_x2": 105.0, - "r_y2": 329.6666666666667, - "r_x3": 105.0, - "r_y3": 425.0, - "coord_origin": "TOPLEFT" - }, - "text": "Markdown", - "orig": "Markdown", - "text_direction": "left_to_right", - "confidence": 0.96493484, - "from_ocr": true - }, - { - "index": 9, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.33333333333333, - "r_y0": 322.0, - "r_x1": 119.33333333333333, - "r_y1": 307.6666666666667, - "r_x2": 105.0, - "r_y2": 307.6666666666667, - "r_x3": 105.0, - "r_y3": 322.0, - "coord_origin": "TOPLEFT" - }, - "text": "in", - "orig": "in", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 10, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 300.6666666666667, - "r_x1": 119.66666666666667, - "r_y1": 279.3333333333333, - "r_x2": 108.66666666666667, - "r_y2": 279.3333333333333, - "r_x3": 108.66666666666667, - "r_y3": 300.6666666666667, - "coord_origin": "TOPLEFT" - }, - "text": "an", - "orig": "an", - "text_direction": "left_to_right", - "confidence": 0.96601158, - "from_ocr": true - }, - { - "index": 11, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 123.33333333333333, - "r_y0": 272.3333333333333, - "r_x1": 123.33333333333333, - "r_y1": 229.66666666666666, - "r_x2": 108.66666666666667, - "r_y2": 229.66666666666666, - "r_x3": 108.66666666666667, - "r_y3": 272.3333333333333, - "coord_origin": "TOPLEFT" - }, - "text": "easy", - "orig": "easy", - "text_direction": "left_to_right", - "confidence": 0.94633133, - "from_ocr": true - }, - { - "index": 12, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 224.33333333333334, - "r_x1": 119.66666666666667, - "r_y1": 191.0, - "r_x2": 105.0, - "r_y2": 191.0, - "r_x3": 105.0, - "r_y3": 224.33333333333334, - "coord_origin": "TOPLEFT" - }, - "text": "self", - "orig": "self", - "text_direction": "left_to_right", - "confidence": 0.9594667800000001, - "from_ocr": true - }, - { - "index": 13, - "rgba": { - "r": 0, - "g": 0, - "b": 0, - "a": 255 - }, - "rect": { - "r_x0": 119.66666666666667, - "r_y0": 185.0, - "r_x1": 119.66666666666667, - "r_y1": 92.0, - "r_x2": 105.0, - "r_y2": 92.0, - "r_x3": 105.0, - "r_y3": 185.0, - "coord_origin": "TOPLEFT" - }, - "text": "contained", - "orig": "contained", - "text_direction": "left_to_right", - "confidence": 0.96332787, + "confidence": 1.0, "from_ocr": true } ], diff --git a/tests/test_e2e_ocr_conversion.py b/tests/test_e2e_ocr_conversion.py index b34824a1..7669cd5a 100644 --- a/tests/test_e2e_ocr_conversion.py +++ b/tests/test_e2e_ocr_conversion.py @@ -57,14 +57,14 @@ def test_e2e_conversions(): pdf_paths = get_pdf_paths() engines: List[Tuple[OcrOptions, bool]] = [ - (EasyOcrOptions(), False), (TesseractOcrOptions(), True), (TesseractCliOcrOptions(), True), - (EasyOcrOptions(force_full_page_ocr=True), False), + (EasyOcrOptions(), False), (TesseractOcrOptions(force_full_page_ocr=True), True), (TesseractOcrOptions(force_full_page_ocr=True, lang=["auto"]), True), (TesseractCliOcrOptions(force_full_page_ocr=True), True), (TesseractCliOcrOptions(force_full_page_ocr=True, lang=["auto"]), True), + (EasyOcrOptions(force_full_page_ocr=True), False), ] # rapidocr is only available for Python >=3.6,<3.13