More elegant solution in removing the input prompt

Signed-off-by: Maksym Lysak <mly@zurich.ibm.com>
2025-12-10 13:48:13 +00:00 · 2025-02-12 18:48:48 +01:00
parent e486eb1720
commit 66532eadb6
1 changed files with 3 additions and 8 deletions
--- a/docling/models/smol_docling_model.py
+++ b/docling/models/smol_docling_model.py
@@ -117,17 +117,12 @@ class SmolDoclingModel(BasePageModel):
                    )
                    generation_time = time.time() - start_time
                    generated_texts = self.processor.batch_decode(
-                        generated_ids, skip_special_tokens=False
+                        generated_ids[:, inputs["input_ids"].shape[1] :],
                        skip_special_tokens=False,
                    )[0]
                    num_tokens = len(generated_ids[0])
                    # DELETE NOISE BEFORE "Assistant: "
                    starting_point = "Assistant: "
                    generated_texts = generated_texts[
                        generated_texts.index(starting_point) + len(starting_point) :
                    ]
                    # generated_texts = generated_texts.replace("Assistant: ", "")
                    page_tags = generated_texts
                    inference_time = time.time() - start_time