Fixes and test updates

Signed-off-by: Christoph Auer <cau@zurich.ibm.com>
2025-12-08 20:58:11 +00:00 · 2025-03-11 16:06:28 +01:00
parent 78353f1697
commit f411772569
28 changed files with 239 additions and 505 deletions
--- a/tests/test_backend_docling_parse.py
+++ b/tests/test_backend_docling_parse.py
@@ -1,77 +0,0 @@
-from pathlib import Path
-
-import pytest
-from docling_core.types.doc import BoundingBox
-
-from docling.backend.docling_parse_backend import (
-    DoclingParseDocumentBackend,
-    DoclingParsePageBackend,
-)
-from docling.datamodel.base_models import InputFormat
-from docling.datamodel.document import InputDocument
-
-
-@pytest.fixture
-def test_doc_path():
-    return Path("./tests/data/pdf/2206.01062.pdf")
-
-
-def _get_backend(pdf_doc):
-    in_doc = InputDocument(
-        path_or_stream=pdf_doc,
-        format=InputFormat.PDF,
-        backend=DoclingParseDocumentBackend,
-    )
-
-    doc_backend = in_doc._backend
-    return doc_backend
-
-
-def test_text_cell_counts():
-    pdf_doc = Path("./tests/data/pdf/redp5110_sampled.pdf")
-
-    doc_backend = _get_backend(pdf_doc)
-
-    for page_index in range(0, doc_backend.page_count()):
-        last_cell_count = None
-        for i in range(10):
-            page_backend: DoclingParsePageBackend = doc_backend.load_page(0)
-            cells = list(page_backend.get_text_cells())
-
-            if last_cell_count is None:
-                last_cell_count = len(cells)
-
-            if len(cells) != last_cell_count:
-                assert (
-                    False
-                ), "Loading page multiple times yielded non-identical text cell counts"
-            last_cell_count = len(cells)
-
-
-def test_get_text_from_rect(test_doc_path):
-    doc_backend = _get_backend(test_doc_path)
-    page_backend: DoclingParsePageBackend = doc_backend.load_page(0)
-
-    # Get the title text of the DocLayNet paper
-    textpiece = page_backend.get_text_in_rect(
-        bbox=BoundingBox(l=102, t=77, r=511, b=124)
-    )
-    ref = "DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis"
-
-    assert textpiece.strip() == ref
-
-
-def test_crop_page_image(test_doc_path):
-    doc_backend = _get_backend(test_doc_path)
-    page_backend: DoclingParsePageBackend = doc_backend.load_page(0)
-
-    # Crop out "Figure 1" from the DocLayNet paper
-    im = page_backend.get_page_image(
-        scale=2, cropbox=BoundingBox(l=317, t=246, r=574, b=527)
-    )
-    # im.show()
-
-
-def test_num_pages(test_doc_path):
-    doc_backend = _get_backend(test_doc_path)
-    doc_backend.page_count() == 9
--- a/tests/test_backend_docling_parse_v3.py
+++ b/tests/test_backend_docling_parse_v3.py
@@ -12,7 +12,7 @@ from docling.datamodel.document import InputDocument

@pytest.fixture
 def test_doc_path():
-    return Path("./tests/data/2206.01062.pdf")
+    return Path("./tests/data/pdf/2206.01062.pdf")


 def _get_backend(pdf_doc):
--- a/tests/test_code_formula.py
+++ b/tests/test_code_formula.py
@@ -3,7 +3,6 @@ from pathlib import Path
 from docling_core.types.doc import CodeItem, TextItem
 from docling_core.types.doc.labels import CodeLanguageLabel, DocItemLabel

-from docling.backend.docling_parse_backend import DoclingParseDocumentBackend
 from docling.backend.docling_parse_v2_backend import DoclingParseV2DocumentBackend
 from docling.datamodel.base_models import InputFormat
 from docling.datamodel.document import ConversionResult
--- a/tests/test_e2e_conversion.py
+++ b/tests/test_e2e_conversion.py
@@ -1,6 +1,6 @@
 from pathlib import Path

-from docling.backend.docling_parse_backend import DoclingParseDocumentBackend
+from docling.backend.docling_parse_v3_backend import DoclingParseV3DocumentBackend
 from docling.datamodel.base_models import InputFormat
 from docling.datamodel.document import ConversionResult
 from docling.datamodel.pipeline_options import AcceleratorDevice, PdfPipelineOptions
@@ -33,7 +33,7 @@ def get_converter():
    converter = DocumentConverter(
        format_options={
            InputFormat.PDF: PdfFormatOption(
-                pipeline_options=pipeline_options, backend=DoclingParseDocumentBackend
+                pipeline_options=pipeline_options, backend=DoclingParseV3DocumentBackend
            )
        }
    )
--- a/tests/test_e2e_ocr_conversion.py
+++ b/tests/test_e2e_ocr_conversion.py
@@ -2,7 +2,7 @@ import sys
 from pathlib import Path
 from typing import List

-from docling.backend.docling_parse_backend import DoclingParseDocumentBackend
+from docling.backend.docling_parse_v3_backend import DoclingParseV3DocumentBackend
 from docling.datamodel.base_models import InputFormat
 from docling.datamodel.document import ConversionResult
 from docling.datamodel.pipeline_options import (
@@ -44,7 +44,7 @@ def get_converter(ocr_options: OcrOptions):
        format_options={
            InputFormat.PDF: PdfFormatOption(
                pipeline_options=pipeline_options,
-                backend=DoclingParseDocumentBackend,
+                backend=DoclingParseV3DocumentBackend,
            )
        }
    )
--- a/tests/test_interfaces.py
+++ b/tests/test_interfaces.py
@@ -3,7 +3,7 @@ from pathlib import Path

 import pytest

-from docling.backend.docling_parse_backend import DoclingParseDocumentBackend
+from docling.backend.docling_parse_v3_backend import DoclingParseV3DocumentBackend
 from docling.datamodel.base_models import DocumentStream, InputFormat
 from docling.datamodel.pipeline_options import PdfPipelineOptions
 from docling.document_converter import DocumentConverter, PdfFormatOption
@@ -30,7 +30,7 @@ def converter():
    converter = DocumentConverter(
        format_options={
            InputFormat.PDF: PdfFormatOption(
-                pipeline_options=pipeline_options, backend=DoclingParseDocumentBackend
+                pipeline_options=pipeline_options, backend=DoclingParseV3DocumentBackend
            )
        }
    )
--- a/tests/test_options.py
+++ b/tests/test_options.py
@@ -3,7 +3,7 @@ from pathlib import Path

 import pytest

-from docling.backend.docling_parse_backend import DoclingParseDocumentBackend
+from docling.backend.docling_parse_v3_backend import DoclingParseV3DocumentBackend
 from docling.datamodel.base_models import ConversionStatus, InputFormat
 from docling.datamodel.document import ConversionResult
 from docling.datamodel.pipeline_options import (
@@ -33,7 +33,7 @@ def get_converters_with_table_options():
                format_options={
                    InputFormat.PDF: PdfFormatOption(
                        pipeline_options=pipeline_options,
-                        backend=DoclingParseDocumentBackend,
+                        backend=DoclingParseV3DocumentBackend,
                    )
                }
            )
--- a/tests/verify_utils.py
+++ b/tests/verify_utils.py
@@ -79,8 +79,8 @@ def verify_cells(doc_pred_pages: List[Page], doc_true_pages: List[Page]):
            pred_text = cell_pred_item.text
            assert true_text == pred_text, f"{true_text}!={pred_text}"

-            true_bbox = cell_true_item.bbox.as_tuple()
-            pred_bbox = cell_pred_item.bbox.as_tuple()
+            true_bbox = cell_true_item.rect.to_bounding_box().as_tuple()
+            pred_bbox = cell_pred_item.rect.to_bounding_box().as_tuple()
            assert (
                true_bbox == pred_bbox
            ), f"bbox is not the same: {true_bbox} != {pred_bbox}"