docling

mirror of https://github.com/DS4SD/docling.git synced 2025-07-27 12:34:22 +00:00

Author	SHA1	Message	Date
Christoph Auer	6a8e4f565e	Add ErrorItem and evaluate page valid status Signed-off-by: Christoph Auer <cau@zurich.ibm.com>	2024-08-23 16:03:51 +02:00
Christoph Auer	a8c6b29a67	feat: Upgrade docling-parse PDF backend and interface to use page-by-page parsing (#44 ) * Use docling-parse page-by-page Signed-off-by: Christoph Auer <cau@zurich.ibm.com> * Propagate document_hash to PDF backends, use docling-parse 1.0.0 Signed-off-by: Christoph Auer <cau@zurich.ibm.com> * Upgrade lockfile Signed-off-by: Christoph Auer <cau@zurich.ibm.com> * repin after more packages on pypi Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> --------- Signed-off-by: Christoph Auer <cau@zurich.ibm.com> Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> Co-authored-by: Michele Dolfi <dol@zurich.ibm.com>	2024-08-22 13:49:37 +02:00
Michele Dolfi	78347bf679	feat: allow computing page images on-demand with scale and cache them (#36 ) * feat: allow computing page images on-demand and cache them Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> * feat: expose scale for export of page images and document elements Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> * fix comment Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> --------- Signed-off-by: Michele Dolfi <dol@zurich.ibm.com>	2024-08-20 13:27:19 +02:00
Christoph Auer	c253dd743a	Add redbooks to test data, small additions (#35 ) Signed-off-by: Christoph Auer <cau@zurich.ibm.com> Co-authored-by: Christoph Auer <cau@zurich.ibm.com>	2024-08-20 12:36:00 +02:00
Michele Dolfi	63d80edca2	feat: output page images and extracted bbox (#31 ) * Add assemble options and example saving pages and figures Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> * add options for different page elements, improve example and flip name of assemble_options Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> --------- Signed-off-by: Michele Dolfi <dol@zurich.ibm.com>	2024-08-12 18:25:45 +02:00
Michele Dolfi	9550db8e64	docs: improve examples (#27 ) Signed-off-by: Michele Dolfi <dol@zurich.ibm.com>	2024-08-07 17:16:35 +02:00
Maxim Lysak	b8f5e38a8c	feat: introducing docling_backend (#26 ) Uses our own docling_parse to reliably get PDF cells To get page images, this backend uses pypdfium2 Signed-off-by: Maxim Lysak <mly@zurich.ibm.com> Co-authored-by: Maxim Lysak <mly@zurich.ibm.com>	2024-08-07 16:22:36 +02:00
Maxim Lysak	f4bf3d25b9	fix: Correct text extraction for table cells (#21 ) * - Fixes for scaling transformation for table cell bounding boxes when using do_cell_matching = False - Corrected examples/convert.py with appropriate parameter, for good quality example conversion Signed-off-by: Maxim Lysak <mly@zurich.ibm.com> * Completed checks Signed-off-by: Maxim Lysak <mly@zurich.ibm.com> --------- Signed-off-by: Maxim Lysak <mly@zurich.ibm.com> Co-authored-by: Maxim Lysak <mly@zurich.ibm.com>	2024-07-30 14:51:47 +02:00
Christoph Auer	b9dc892385	Update convert.py (#3 ) Signed-off-by: Christoph Auer <60343111+cau-git@users.noreply.github.com>	2024-07-15 18:02:42 +02:00
Christoph Auer	e2d996753b	Initial commit	2024-07-15 09:42:42 +02:00

10 Commits