fix(OCR): Skip zero area OCR cells for all OCR engines

Signed-off-by: Nikos Livathinos <nli@zurich.ibm.com>
2025-07-26 20:14:47 +00:00 · 2024-10-07 17:01:47 +02:00 · 2024-10-07 17:01:47 +02:00 · 6faff146e0
commit 6faff146e0
parent a9b22a8694
3 changed files with 9 additions and 0 deletions
--- a/docling/models/easyocr_model.py
+++ b/docling/models/easyocr_model.py
@ -43,6 +43,9 @@ class EasyOcrModel(BaseOcrModel):

            all_ocr_cells = []
            for ocr_rect in ocr_rects:
+                # Skip zero area boxes
+                if ocr_rect.area() == 0:
+                    continue
                high_res_image = page._backend.get_page_image(
                    scale=self.scale, cropbox=ocr_rect
                )
--- a/docling/models/tesseract_model.py
+++ b/docling/models/tesseract_model.py
@ -108,6 +108,9 @@ class TesseractOcrModel(BaseOcrModel):

            all_ocr_cells = []
            for ocr_rect in ocr_rects:
+                # Skip zero area boxes
+                if ocr_rect.area() == 0:
+                    continue
                high_res_image = page._backend.get_page_image(
                    scale=self.scale, cropbox=ocr_rect
                )
--- a/docling/models/tesserocr_model.py
+++ b/docling/models/tesserocr_model.py
@ -61,6 +61,9 @@ class TesserOcrModel(BaseOcrModel):

            all_ocr_cells = []
            for ocr_rect in ocr_rects:
+                # Skip zero area boxes
+                if ocr_rect.area() == 0:
+                    continue
                high_res_image = page._backend.get_page_image(
                    scale=self.scale, cropbox=ocr_rect
                )