diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.doctags.txt deleted file mode 100644 index b00cc668..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.json deleted file mode 100644 index 89d65d4e..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.json +++ /dev/null @@ -1 +0,0 @@ -{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "ocr_test.pdf", "filename-prov": null, "document-hash": "73f23122e9edbdb0a115b448e03c8064a0ea8bdc21d02917ce220cf032454f31", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "8c5c5b766c1bdb92242142ca37260089b02380f9c57729703350f646cdf4771e", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [69.0, 688.58837890625, 506.6666564941406, 767.2550048828125], "page": 1, "span": [0, 94], "__ref_s3_data": null}], "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 841.9216918945312, "page": 1, "width": 595.201171875}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.md b/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.pages.json deleted file mode 100644 index 2b9a13e3..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.easyocr.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 69.0, "t": 74.66666666666663, "r": 506.6666666666667, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 69.0, "t": 74.66666666666663, "r": 506.6666666666667, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 69.0, "t": 74.66666666666663, "r": 506.6666666666667, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.doctags.txt deleted file mode 100644 index b00cc668..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.json deleted file mode 100644 index 229dc520..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.json +++ /dev/null @@ -1 +0,0 @@ -{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "ocr_test.pdf", "filename-prov": null, "document-hash": "73f23122e9edbdb0a115b448e03c8064a0ea8bdc21d02917ce220cf032454f31", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "8c5c5b766c1bdb92242142ca37260089b02380f9c57729703350f646cdf4771e", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [70.90211486816406, 689.2166748046875, 504.87200927734375, 765.0995483398438], "page": 1, "span": [0, 94], "__ref_s3_data": null}], "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 841.9216918945312, "page": 1, "width": 595.201171875}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.md b/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.pages.json deleted file mode 100644 index b9389bb9..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.ocrmac.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 70.90211866351085, "t": 76.82212829589844, "r": 504.8720079864275, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 70.90211866351085, "t": 76.82212829589844, "r": 504.8720079864275, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 70.90211866351085, "t": 76.82212829589844, "r": 504.8720079864275, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.doctags.txt deleted file mode 100644 index b00cc668..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.json deleted file mode 100644 index 24195672..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.json +++ /dev/null @@ -1 +0,0 @@ -{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "ocr_test.pdf", "filename-prov": null, "document-hash": "73f23122e9edbdb0a115b448e03c8064a0ea8bdc21d02917ce220cf032454f31", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "8c5c5b766c1bdb92242142ca37260089b02380f9c57729703350f646cdf4771e", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [71.35887908935547, 690.8582153320312, 504.0870056152344, 765.0995483398438], "page": 1, "span": [0, 94], "__ref_s3_data": null}], "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 841.9216918945312, "page": 1, "width": 595.201171875}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.md b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.pages.json deleted file mode 100644 index bc164563..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesseract.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.doctags.txt b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.doctags.txt deleted file mode 100644 index b00cc668..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.json deleted file mode 100644 index 24195672..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.json +++ /dev/null @@ -1 +0,0 @@ -{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "ocr_test.pdf", "filename-prov": null, "document-hash": "73f23122e9edbdb0a115b448e03c8064a0ea8bdc21d02917ce220cf032454f31", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "8c5c5b766c1bdb92242142ca37260089b02380f9c57729703350f646cdf4771e", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [71.35887908935547, 690.8582153320312, 504.0870056152344, 765.0995483398438], "page": 1, "span": [0, 94], "__ref_s3_data": null}], "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 841.9216918945312, "page": 1, "width": 595.201171875}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.md b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.pages.json b/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.pages.json deleted file mode 100644 index 7524275f..00000000 --- a/tests/data_scanned/groundtruth/docling_v1/ocr_test.tesserocr.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.doctags.txt deleted file mode 100644 index d79782a1..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.json deleted file mode 100644 index bfac30a1..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.json +++ /dev/null @@ -1 +0,0 @@ -{"schema_name": "DoclingDocument", "version": "1.0.0", "name": "ocr_test", "origin": {"mimetype": "application/pdf", "binary_hash": 14853448746796404529, "filename": "ocr_test.pdf", "uri": null}, "furniture": {"self_ref": "#/furniture", "parent": null, "children": [], "name": "_root_", "label": "unspecified"}, "body": {"self_ref": "#/body", "parent": null, "children": [{"cref": "#/texts/0"}], "name": "_root_", "label": "unspecified"}, "groups": [], "texts": [{"self_ref": "#/texts/0", "parent": {"cref": "#/body"}, "children": [], "label": "text", "prov": [{"page_no": 1, "bbox": {"l": 69.0, "t": 767.2550048828125, "r": 506.6666564941406, "b": 688.58837890625, "coord_origin": "BOTTOMLEFT"}, "charspan": [0, 94]}], "orig": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "pictures": [], "tables": [], "key_value_items": [], "pages": {"1": {"size": {"width": 595.201171875, "height": 841.9216918945312}, "image": null, "page_no": 1}}} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.md b/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.pages.json deleted file mode 100644 index 2b9a13e3..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.easyocr.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 69.0, "t": 74.66666666666663, "r": 506.6666666666667, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 69.0, "t": 74.66666666666663, "r": 506.6666666666667, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 69.0, "t": 74.66666666666663, "r": 506.6666666666667, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 71.33333333333333, "t": 74.66666666666663, "r": 506.6666666666667, "b": 99.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 69.0, "t": 100.66666666666663, "r": 506.6666666666667, "b": 126.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 70.66666666666667, "t": 128.66666666666663, "r": 154.0, "b": 153.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.doctags.txt deleted file mode 100644 index d79782a1..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.json deleted file mode 100644 index fe74306e..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.json +++ /dev/null @@ -1 +0,0 @@ -{"schema_name": "DoclingDocument", "version": "1.0.0", "name": "ocr_test", "origin": {"mimetype": "application/pdf", "binary_hash": 14853448746796404529, "filename": "ocr_test.pdf", "uri": null}, "furniture": {"self_ref": "#/furniture", "parent": null, "children": [], "name": "_root_", "label": "unspecified"}, "body": {"self_ref": "#/body", "parent": null, "children": [{"cref": "#/texts/0"}], "name": "_root_", "label": "unspecified"}, "groups": [], "texts": [{"self_ref": "#/texts/0", "parent": {"cref": "#/body"}, "children": [], "label": "text", "prov": [{"page_no": 1, "bbox": {"l": 70.90211486816406, "t": 765.0995483398438, "r": 504.87200927734375, "b": 689.2166748046875, "coord_origin": "BOTTOMLEFT"}, "charspan": [0, 94]}], "orig": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "pictures": [], "tables": [], "key_value_items": [], "pages": {"1": {"size": {"width": 595.201171875, "height": 841.9216918945312}, "image": null, "page_no": 1}}} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.md b/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.pages.json deleted file mode 100644 index b9389bb9..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.ocrmac.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 70.90211866351085, "t": 76.82212829589844, "r": 504.8720079864275, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 70.90211866351085, "t": 76.82212829589844, "r": 504.8720079864275, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 70.90211866351085, "t": 76.82212829589844, "r": 504.8720079864275, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 73.34702132031646, "t": 76.99999977896755, "r": 503.64955224479564, "b": 97.99999977896755, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 70.90211866351085, "t": 102.66666671251767, "r": 504.8720079864275, "b": 124.83139551297336, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.10852522817731, "t": 130.0013615789096, "r": 153.04479435252625, "b": 152.70503335218427, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.doctags.txt deleted file mode 100644 index d79782a1..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.json deleted file mode 100644 index 6488f943..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.json +++ /dev/null @@ -1 +0,0 @@ -{"schema_name": "DoclingDocument", "version": "1.0.0", "name": "ocr_test", "origin": {"mimetype": "application/pdf", "binary_hash": 14853448746796404529, "filename": "ocr_test.pdf", "uri": null}, "furniture": {"self_ref": "#/furniture", "parent": null, "children": [], "name": "_root_", "label": "unspecified"}, "body": {"self_ref": "#/body", "parent": null, "children": [{"cref": "#/texts/0"}], "name": "_root_", "label": "unspecified"}, "groups": [], "texts": [{"self_ref": "#/texts/0", "parent": {"cref": "#/body"}, "children": [], "label": "text", "prov": [{"page_no": 1, "bbox": {"l": 71.35887908935547, "t": 765.0995483398438, "r": 504.0870056152344, "b": 690.8582153320312, "coord_origin": "BOTTOMLEFT"}, "charspan": [0, 94]}], "orig": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "pictures": [], "tables": [], "key_value_items": [], "pages": {"1": {"size": {"width": 595.201171875, "height": 841.9216918945312}, "image": null, "page_no": 1}}} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.md b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.pages.json deleted file mode 100644 index bc164563..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesseract.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling", "bbox": {"l": 74.0, "t": 78.0, "r": 144.0, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "bundles", "bbox": {"l": 150.66666666666666, "t": 78.0, "r": 224.66666666666666, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "PDF", "bbox": {"l": 232.0, "t": 78.0, "r": 269.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 3, "text": "document", "bbox": {"l": 275.0, "t": 78.0, "r": 371.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 4, "text": "conversion", "bbox": {"l": 377.3333333333333, "t": 78.0, "r": 479.0, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 5, "text": "to", "bbox": {"l": 485.3333333333333, "t": 79.66666666666663, "r": 503.3333333333333, "b": 92.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 6, "text": "JSON", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 121.33333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 7, "text": "and", "bbox": {"l": 129.0, "t": 105.0, "r": 162.33333333333334, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 8, "text": "Markdown", "bbox": {"l": 170.33333333333334, "t": 105.0, "r": 265.6666666666667, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 9, "text": "in", "bbox": {"l": 273.3333333333333, "t": 105.0, "r": 287.6666666666667, "b": 119.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 10, "text": "an", "bbox": {"l": 294.6666666666667, "t": 108.66666666666663, "r": 316.0, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 11, "text": "easy", "bbox": {"l": 323.0, "t": 108.66666666666663, "r": 365.6666666666667, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 12, "text": "self", "bbox": {"l": 371.0, "t": 105.0, "r": 404.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 13, "text": "contained", "bbox": {"l": 410.3333333333333, "t": 105.0, "r": 503.3333333333333, "b": 119.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 14, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.doctags.txt b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.doctags.txt deleted file mode 100644 index d79782a1..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.doctags.txt +++ /dev/null @@ -1,3 +0,0 @@ - -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package - \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.json deleted file mode 100644 index 6488f943..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.json +++ /dev/null @@ -1 +0,0 @@ -{"schema_name": "DoclingDocument", "version": "1.0.0", "name": "ocr_test", "origin": {"mimetype": "application/pdf", "binary_hash": 14853448746796404529, "filename": "ocr_test.pdf", "uri": null}, "furniture": {"self_ref": "#/furniture", "parent": null, "children": [], "name": "_root_", "label": "unspecified"}, "body": {"self_ref": "#/body", "parent": null, "children": [{"cref": "#/texts/0"}], "name": "_root_", "label": "unspecified"}, "groups": [], "texts": [{"self_ref": "#/texts/0", "parent": {"cref": "#/body"}, "children": [], "label": "text", "prov": [{"page_no": 1, "bbox": {"l": 71.35887908935547, "t": 765.0995483398438, "r": 504.0870056152344, "b": 690.8582153320312, "coord_origin": "BOTTOMLEFT"}, "charspan": [0, 94]}], "orig": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package", "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "pictures": [], "tables": [], "key_value_items": [], "pages": {"1": {"size": {"width": 595.201171875, "height": 841.9216918945312}, "image": null, "page_no": 1}}} \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.md b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.md deleted file mode 100644 index 42896546..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.md +++ /dev/null @@ -1 +0,0 @@ -Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package \ No newline at end of file diff --git a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.pages.json b/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.pages.json deleted file mode 100644 index 7524275f..00000000 --- a/tests/data_scanned/groundtruth/docling_v2/ocr_test.tesserocr.pages.json +++ /dev/null @@ -1 +0,0 @@ -[{"page_no": 0, "size": {"width": 595.201171875, "height": 841.9216918945312}, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "body": [{"label": "text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "text", "bbox": {"l": 71.35887908935547, "t": 76.82212829589844, "r": 504.0870056152344, "b": 151.06346130371094, "coord_origin": "TOPLEFT"}, "confidence": 0.9715733528137207, "cells": [{"id": 0, "text": "Docling bundles PDF document conversion to", "bbox": {"l": 74.0, "t": 78.0, "r": 503.3333333333333, "b": 96.66666666666663, "coord_origin": "TOPLEFT"}}, {"id": 1, "text": "JSON and Markdown in an easy self contained", "bbox": {"l": 72.33333333333333, "t": 104.66666666666663, "r": 503.3333333333333, "b": 123.33333333333337, "coord_origin": "TOPLEFT"}}, {"id": 2, "text": "package", "bbox": {"l": 73.66666666666667, "t": 131.66666666666663, "r": 150.66666666666666, "b": 150.33333333333337, "coord_origin": "TOPLEFT"}}]}, "text": "Docling bundles PDF document conversion to JSON and Markdown in an easy self contained package"}], "headers": []}}] \ No newline at end of file diff --git a/tests/test_e2e_ocr_conversion.py b/tests/test_e2e_ocr_conversion.py index 035ff50d..68dac33e 100644 --- a/tests/test_e2e_ocr_conversion.py +++ b/tests/test_e2e_ocr_conversion.py @@ -78,7 +78,6 @@ def test_e2e_conversions(): input_path=pdf_path, doc_result=doc_result, generate=GENERATE_V1, - ocr_engine=ocr_options.kind, fuzzy=True, ) @@ -86,6 +85,5 @@ def test_e2e_conversions(): input_path=pdf_path, doc_result=doc_result, generate=GENERATE_V2, - ocr_engine=ocr_options.kind, fuzzy=True, )