From b3293ffc7523e0a769fa4cb930b91ea0b113c635 Mon Sep 17 00:00:00 2001 From: Michele Dolfi Date: Thu, 3 Oct 2024 19:04:02 +0200 Subject: [PATCH] update test results Signed-off-by: Michele Dolfi --- .../scanned_01.easyocr.doctags.txt | 6 +- tests/data_scanned/scanned_01.easyocr.json | 2 +- tests/data_scanned/scanned_01.easyocr.md | 4 +- .../scanned_01.easyocr.pages.json | 2 +- .../scanned_01.tesseract.doctags.txt | 33 +++++----- tests/data_scanned/scanned_01.tesseract.json | 2 +- tests/data_scanned/scanned_01.tesseract.md | 26 ++++---- .../scanned_01.tesseract.pages.json | 2 +- .../scanned_01.tesserocr.doctags.txt | 41 +++++++------ tests/data_scanned/scanned_01.tesserocr.json | 2 +- tests/data_scanned/scanned_01.tesserocr.md | 60 +++++++++++-------- .../scanned_01.tesserocr.pages.json | 2 +- .../scanned_02.easyocr.doctags.txt | 16 ++--- tests/data_scanned/scanned_02.easyocr.json | 2 +- tests/data_scanned/scanned_02.easyocr.md | 11 ++-- .../scanned_02.easyocr.pages.json | 2 +- .../scanned_02.tesseract.doctags.txt | 36 +++++------ tests/data_scanned/scanned_02.tesseract.json | 2 +- tests/data_scanned/scanned_02.tesseract.md | 25 ++++---- .../scanned_02.tesseract.pages.json | 2 +- .../scanned_02.tesserocr.doctags.txt | 45 +++++++------- tests/data_scanned/scanned_02.tesserocr.json | 2 +- tests/data_scanned/scanned_02.tesserocr.md | 55 ++++++++--------- .../scanned_02.tesserocr.pages.json | 2 +- 24 files changed, 184 insertions(+), 198 deletions(-) diff --git a/tests/data_scanned/scanned_01.easyocr.doctags.txt b/tests/data_scanned/scanned_01.easyocr.doctags.txt index 92d368b8..aad73772 100644 --- a/tests/data_scanned/scanned_01.easyocr.doctags.txt +++ b/tests/data_scanned/scanned_01.easyocr.doctags.txt @@ -1,5 +1,5 @@ -TableFormer: Table Structure Understanding with Transformers +TableFormer: Table Structure Understanding with Transformers 1. Details on the datasets 1.1. Data preparation As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict" tables, i.e. tables where every row has exactly the same length. @@ -7,8 +7,8 @@ Figure 7 illustrates the distribution of the tables across different dimensions per dataset. 1.2. Synthetic datasets Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear - -Supplementary Material -ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every +Supplementary Material +ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O%o , 109) . style Every The process of generating a synthetic dataset can be decomposed into the following steps: 1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g 2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans diff --git a/tests/data_scanned/scanned_01.easyocr.json b/tests/data_scanned/scanned_01.easyocr.json index 2f1053de..ec35842a 100644 --- a/tests/data_scanned/scanned_01.easyocr.json +++ b/tests/data_scanned/scanned_01.easyocr.json @@ -1 +1 @@ -{"_name": "", "type": "pdf-document", "description": {"logs": []}, "file-info": {"filename": "scanned_01.pdf", "document-hash": "fe922641468f2a4496c1d6bf69b6ec8e9eb3aa8d8a4b4cd1ca66ed054a160f1d", "#-pages": 1, "page-hashes": [{"hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [131.3333282470703, 668.7353515625, 468.0, 686.0686645507812], "page": 1, "span": [0, 60]}], "text": "TableFormer: Table Structure Understanding with Transformers", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [49.0, 621.0686645507812, 178.3333282470703, 633.0686645507812], "page": 1, "span": [0, 26]}], "text": "1. Details on the datasets", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [49.0, 599.0686645507812, 152.3333282470703, 614.0686645507812], "page": 1, "span": [0, 21]}], "text": "1.1. Data preparation", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [47.66666793823242, 401.7353210449219, 289.0, 595.4019775390625], "page": 1, "span": [0, 932]}], "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [47.712337493896484, 161.73533630371094, 288.6666564941406, 402.4020080566406], "page": 1, "span": [0, 1149]}], "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [48.66666793823242, 139.73533630371094, 287.6666564941406, 163.06866455078125], "page": 1, "span": [0, 92]}], "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [49.0, 118.4020004272461, 155.6666717529297, 131.73533630371094], "page": 1, "span": [0, 23]}], "text": "1.2. Synthetic datasets", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [48.0, 76.06866455078125, 288.3333435058594, 114.4020004272461], "page": 1, "span": [0, 168]}], "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [217.3333282470703, 653.0686645507812, 377.0, 673.4019775390625], "page": 1, "span": [0, 22]}], "text": "Supplementary Material", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [307.0, 583.0686645507812, 546.6666870117188, 632.4019775390625], "page": 1, "span": [0, 223]}], "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [306.6666564941406, 557.7353515625, 546.3333129882812, 583.4019775390625], "page": 1, "span": [0, 89]}], "text": "The process of generating a synthetic dataset can be decomposed into the following steps:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [306.0, 475.06866455078125, 547.3333129882812, 559.4019775390625], "page": 1, "span": [0, 372]}], "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.3333435058594, 341.7353210449219, 547.3333129882812, 473.7353210449219], "page": 1, "span": [0, 566]}], "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.3333435058594, 293.4020080566406, 546.6666870117188, 341.06866455078125], "page": 1, "span": [0, 193]}], "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [307.0, 244.06866455078125, 547.0, 294.06866455078125], "page": 1, "span": [0, 217]}], "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.6666564941406, 184.73533630371094, 547.6666870117188, 245.40199279785156], "page": 1, "span": [0, 237]}], "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.6666564941406, 146.06866455078125, 547.6666870117188, 172.73533630371094], "page": 1, "span": [0, 48]}], "text": "2. Prediction post-processing for PDF documents", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [307.3333435058594, 75.11044311523438, 547.0, 138.06866455078125], "page": 1, "span": [0, 249]}], "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7", "type": "paragraph", "name": "Text"}], "figures": [], "tables": [], "equations": [], "footnotes": [], "page-dimensions": [{"height": 792.0686645507812, "page": 1, "width": 612.0530395507812}], "page-footers": [], "page-headers": []} \ No newline at end of file +{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "scanned_01.pdf", "filename-prov": null, "document-hash": "fe922641468f2a4496c1d6bf69b6ec8e9eb3aa8d8a4b4cd1ca66ed054a160f1d", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [131.3333282470703, 657.211181640625, 468.0, 686.0686645507812], "page": 1, "span": [0, 60], "__ref_s3_data": null}], "text": "TableFormer: Table Structure Understanding with Transformers", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.0, 620.4759521484375, 178.3333282470703, 633.0686645507812], "page": 1, "span": [0, 26], "__ref_s3_data": null}], "text": "1. Details on the datasets", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.0, 599.0686645507812, 152.3333282470703, 614.0686645507812], "page": 1, "span": [0, 21], "__ref_s3_data": null}], "text": "1.1. Data preparation", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [47.66666793823242, 401.7353210449219, 289.0, 595.4019775390625], "page": 1, "span": [0, 932], "__ref_s3_data": null}], "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [47.712337493896484, 161.73533630371094, 288.6666564941406, 402.4020080566406], "page": 1, "span": [0, 1149], "__ref_s3_data": null}], "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [48.66666793823242, 139.73533630371094, 287.6666564941406, 163.06866455078125], "page": 1, "span": [0, 92], "__ref_s3_data": null}], "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [49.0, 118.4020004272461, 155.6666717529297, 131.73533630371094], "page": 1, "span": [0, 23], "__ref_s3_data": null}], "text": "1.2. Synthetic datasets", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [48.0, 76.06866455078125, 288.3333435058594, 114.4020004272461], "page": 1, "span": [0, 168], "__ref_s3_data": null}], "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [217.3333282470703, 653.0686645507812, 377.0, 673.4019775390625], "page": 1, "span": [0, 22], "__ref_s3_data": null}], "text": "Supplementary Material", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [307.0, 583.0686645507812, 546.6666870117188, 632.4019775390625], "page": 1, "span": [0, 224], "__ref_s3_data": null}], "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O%o , 109) . style Every", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [306.6666564941406, 557.7353515625, 546.3333129882812, 583.4019775390625], "page": 1, "span": [0, 89], "__ref_s3_data": null}], "text": "The process of generating a synthetic dataset can be decomposed into the following steps:", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [306.0, 475.06866455078125, 547.3333129882812, 559.4019775390625], "page": 1, "span": [0, 372], "__ref_s3_data": null}], "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [306.3333435058594, 341.7353210449219, 547.3333129882812, 473.7353210449219], "page": 1, "span": [0, 566], "__ref_s3_data": null}], "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [306.3333435058594, 293.4020080566406, 546.6666870117188, 341.06866455078125], "page": 1, "span": [0, 193], "__ref_s3_data": null}], "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [307.0, 244.06866455078125, 547.0, 294.06866455078125], "page": 1, "span": [0, 217], "__ref_s3_data": null}], "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [306.6666564941406, 184.73533630371094, 547.6666870117188, 245.40199279785156], "page": 1, "span": [0, 237], "__ref_s3_data": null}], "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [306.6666564941406, 145.74542236328125, 547.6666870117188, 172.73533630371094], "page": 1, "span": [0, 48], "__ref_s3_data": null}], "text": "2. Prediction post-processing for PDF documents", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [307.3333435058594, 75.11044311523438, 547.0, 138.06866455078125], "page": 1, "span": [0, 249], "__ref_s3_data": null}], "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 792.0686645507812, "page": 1, "width": 612.0530395507812}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.easyocr.md b/tests/data_scanned/scanned_01.easyocr.md index eaecb853..58486577 100644 --- a/tests/data_scanned/scanned_01.easyocr.md +++ b/tests/data_scanned/scanned_01.easyocr.md @@ -14,9 +14,9 @@ Figure 7 illustrates the distribution of the tables across different dimensions Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear - -Supplementary Material +## Supplementary Material -ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every +ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O%o , 109) . style Every The process of generating a synthetic dataset can be decomposed into the following steps: diff --git a/tests/data_scanned/scanned_01.easyocr.pages.json b/tests/data_scanned/scanned_01.easyocr.pages.json index bf6874d1..91a5148a 100644 --- a/tests/data_scanned/scanned_01.easyocr.pages.json +++ b/tests/data_scanned/scanned_01.easyocr.pages.json @@ -1 +1 @@ -[{"page_no": 0, "page_hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "size": {"width": 612.0530395507812, "height": 792.0686645507812}, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}, {"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}, {"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, {"id": 1, "label": "Text", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, {"id": 7, "label": "List-item", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, {"id": 8, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, {"id": 10, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.0, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "List-item", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "List-item", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.0, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "List-item", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "List-item", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.0, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "headers": []}}] \ No newline at end of file +[{"page_no": 0, "page_hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "size": {"width": 612.0530395507812, "height": 792.0686645507812}, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}, {"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}, {"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, {"id": 1, "label": "Section-header", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, {"id": 8, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, {"id": 10, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, {"id": 11, "label": "Text", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, {"id": 12, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O%o , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O%o , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesseract.doctags.txt b/tests/data_scanned/scanned_01.tesseract.doctags.txt index 92d368b8..39e8ce28 100644 --- a/tests/data_scanned/scanned_01.tesseract.doctags.txt +++ b/tests/data_scanned/scanned_01.tesseract.doctags.txt @@ -1,20 +1,19 @@ -TableFormer: Table Structure Understanding with Transformers +TableFormer: Table Structure Understanding with Transformers Supplementary Material 1. Details on the datasets -1.1. Data preparation -As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict" tables, i.e. tables where every row has exactly the same length. -We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing -Figure 7 illustrates the distribution of the tables across different dimensions per dataset. -1.2. Synthetic datasets -Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear - -Supplementary Material -ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every -The process of generating a synthetic dataset can be decomposed into the following steps: -1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g -2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans -3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content. -4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table. -5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process. -2. Prediction post-processing for PDF documents -Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7 +1.1. Data preparation +As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have "strict" tables, i.e. tables where every row has exactly the same length. +We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes. +Figure 7 illustrates the distribution of the tables across different dimensions per dataset. +1.2. Synthetic datasets +Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear- +ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%). +The process of generating a synthetic dataset can be decomposed into the following steps: +1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.). +2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. +3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content. +4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table. +5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process. +2. Prediction post-processing for PDF documents +Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons: \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesseract.json b/tests/data_scanned/scanned_01.tesseract.json index 2f1053de..a6bf9d7a 100644 --- a/tests/data_scanned/scanned_01.tesseract.json +++ b/tests/data_scanned/scanned_01.tesseract.json @@ -1 +1 @@ -{"_name": "", "type": "pdf-document", "description": {"logs": []}, "file-info": {"filename": "scanned_01.pdf", "document-hash": "fe922641468f2a4496c1d6bf69b6ec8e9eb3aa8d8a4b4cd1ca66ed054a160f1d", "#-pages": 1, "page-hashes": [{"hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [131.3333282470703, 668.7353515625, 468.0, 686.0686645507812], "page": 1, "span": [0, 60]}], "text": "TableFormer: Table Structure Understanding with Transformers", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [49.0, 621.0686645507812, 178.3333282470703, 633.0686645507812], "page": 1, "span": [0, 26]}], "text": "1. Details on the datasets", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [49.0, 599.0686645507812, 152.3333282470703, 614.0686645507812], "page": 1, "span": [0, 21]}], "text": "1.1. Data preparation", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [47.66666793823242, 401.7353210449219, 289.0, 595.4019775390625], "page": 1, "span": [0, 932]}], "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [47.712337493896484, 161.73533630371094, 288.6666564941406, 402.4020080566406], "page": 1, "span": [0, 1149]}], "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [48.66666793823242, 139.73533630371094, 287.6666564941406, 163.06866455078125], "page": 1, "span": [0, 92]}], "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [49.0, 118.4020004272461, 155.6666717529297, 131.73533630371094], "page": 1, "span": [0, 23]}], "text": "1.2. Synthetic datasets", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [48.0, 76.06866455078125, 288.3333435058594, 114.4020004272461], "page": 1, "span": [0, 168]}], "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [217.3333282470703, 653.0686645507812, 377.0, 673.4019775390625], "page": 1, "span": [0, 22]}], "text": "Supplementary Material", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [307.0, 583.0686645507812, 546.6666870117188, 632.4019775390625], "page": 1, "span": [0, 223]}], "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [306.6666564941406, 557.7353515625, 546.3333129882812, 583.4019775390625], "page": 1, "span": [0, 89]}], "text": "The process of generating a synthetic dataset can be decomposed into the following steps:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [306.0, 475.06866455078125, 547.3333129882812, 559.4019775390625], "page": 1, "span": [0, 372]}], "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.3333435058594, 341.7353210449219, 547.3333129882812, 473.7353210449219], "page": 1, "span": [0, 566]}], "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.3333435058594, 293.4020080566406, 546.6666870117188, 341.06866455078125], "page": 1, "span": [0, 193]}], "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [307.0, 244.06866455078125, 547.0, 294.06866455078125], "page": 1, "span": [0, 217]}], "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.6666564941406, 184.73533630371094, 547.6666870117188, 245.40199279785156], "page": 1, "span": [0, 237]}], "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [306.6666564941406, 146.06866455078125, 547.6666870117188, 172.73533630371094], "page": 1, "span": [0, 48]}], "text": "2. Prediction post-processing for PDF documents", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [307.3333435058594, 75.11044311523438, 547.0, 138.06866455078125], "page": 1, "span": [0, 249]}], "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7", "type": "paragraph", "name": "Text"}], "figures": [], "tables": [], "equations": [], "footnotes": [], "page-dimensions": [{"height": 792.0686645507812, "page": 1, "width": 612.0530395507812}], "page-footers": [], "page-headers": []} \ No newline at end of file +{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "scanned_01.pdf", "filename-prov": null, "document-hash": "fe922641468f2a4496c1d6bf69b6ec8e9eb3aa8d8a4b4cd1ca66ed054a160f1d", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [132.81927490234375, 656.7353515625, 465.6957702636719, 682.2496337890625], "page": 1, "span": [0, 83], "__ref_s3_data": null}], "text": "TableFormer: Table Structure Understanding with Transformers Supplementary Material", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.808494567871094, 620.4759521484375, 175.76251220703125, 631.7353515625], "page": 1, "span": [0, 26], "__ref_s3_data": null}], "text": "1. Details on the datasets", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.78814697265625, 601.5794067382812, 150.2134552001953, 611.7353515625], "page": 1, "span": [0, 21], "__ref_s3_data": null}], "text": "1.1. Data preparation", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.627410888671875, 403.86474609375, 286.6666564941406, 594.0686645507812], "page": 1, "span": [0, 931], "__ref_s3_data": null}], "text": "As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \"strict\" tables, i.e. tables where every row has exactly the same length.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [49.640533447265625, 164.73533630371094, 286.6666564941406, 401.4757080078125], "page": 1, "span": [0, 1149], "__ref_s3_data": null}], "text": "We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [49.99413299560547, 140.72369384765625, 286.0, 162.12548828125], "page": 1, "span": [0, 92], "__ref_s3_data": null}], "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [49.898033142089844, 120.0264892578125, 153.34835815429688, 130.1524658203125], "page": 1, "span": [0, 23], "__ref_s3_data": null}], "text": "1.2. Synthetic datasets", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.784549713134766, 78.06866455078125, 286.6666564941406, 111.517578125], "page": 1, "span": [0, 167], "__ref_s3_data": null}], "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.32464599609375, 585.029541015625, 545.0006713867188, 630.302978515625], "page": 1, "span": [0, 221], "__ref_s3_data": null}], "text": "ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%).", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.44775390625, 559.7149658203125, 544.8419799804688, 581.6553344726562], "page": 1, "span": [0, 89], "__ref_s3_data": null}], "text": "The process of generating a synthetic dataset can be decomposed into the following steps:", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.4111022949219, 475.9466247558594, 545.0, 556.837646484375], "page": 1, "span": [0, 373], "__ref_s3_data": null}], "text": "1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.).", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.2052001953125, 343.34527587890625, 545.3333129882812, 472.8642578125], "page": 1, "span": [0, 572], "__ref_s3_data": null}], "text": "2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.17218017578125, 295.06866455078125, 545.3333129882812, 340.3298645019531], "page": 1, "span": [0, 194], "__ref_s3_data": null}], "text": "3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.402587890625, 246.40199279785156, 545.0632934570312, 291.58770751953125], "page": 1, "span": [0, 218], "__ref_s3_data": null}], "text": "4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.32305908203125, 185.31219482421875, 545.078857421875, 243.50390625], "page": 1, "span": [0, 238], "__ref_s3_data": null}], "text": "5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.37005615234375, 145.74542236328125, 544.79541015625, 170.553466796875], "page": 1, "span": [0, 47], "__ref_s3_data": null}], "text": "2. Prediction post-processing for PDF documents", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [308.54010009765625, 78.03363037109375, 544.7320556640625, 135.74932861328125], "page": 1, "span": [0, 247], "__ref_s3_data": null}], "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons:", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 792.0686645507812, "page": 1, "width": 612.0530395507812}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesseract.md b/tests/data_scanned/scanned_01.tesseract.md index eaecb853..0d918197 100644 --- a/tests/data_scanned/scanned_01.tesseract.md +++ b/tests/data_scanned/scanned_01.tesseract.md @@ -1,35 +1,33 @@ -## TableFormer: Table Structure Understanding with Transformers +## TableFormer: Table Structure Understanding with Transformers Supplementary Material ## 1. Details on the datasets ## 1.1. Data preparation -As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict" tables, i.e. tables where every row has exactly the same length. +As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have "strict" tables, i.e. tables where every row has exactly the same length. -We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing +We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes. Figure 7 illustrates the distribution of the tables across different dimensions per dataset. ## 1.2. Synthetic datasets -Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear - +Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear- -Supplementary Material - -ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every +ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%). The process of generating a synthetic dataset can be decomposed into the following steps: -1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g +1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.). -2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans +2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. -3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content. +3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content. -4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table. +4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table. -5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process. +5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process. -## 2. Prediction post-processing for PDF documents +## 2. Prediction post-processing for PDF documents -Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7 \ No newline at end of file +Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons: \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesseract.pages.json b/tests/data_scanned/scanned_01.tesseract.pages.json index bf6874d1..d753b910 100644 --- a/tests/data_scanned/scanned_01.tesseract.pages.json +++ b/tests/data_scanned/scanned_01.tesseract.pages.json @@ -1 +1 @@ -[{"page_no": 0, "page_hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "size": {"width": 612.0530395507812, "height": 792.0686645507812}, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}, {"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}, {"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, {"id": 1, "label": "Text", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, {"id": 7, "label": "List-item", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, {"id": 8, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, {"id": 10, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.0, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "List-item", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "List-item", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.0, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O% , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O% , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "List-item", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "List-item", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.0, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "headers": []}}] \ No newline at end of file +[{"page_no": 0, "page_hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "size": {"width": 612.0530395507812, "height": 792.0686645507812}, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}, {"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}, {"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}, {"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}, {"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}, {"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}, {"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}, {"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}, {"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}, {"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}, {"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 132.81927490234375, "t": 109.81901550292969, "r": 465.6957702636719, "b": 135.33333333333337, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}]}, {"id": 1, "label": "Section-header", "bbox": {"l": 49.808494567871094, "t": 160.33333333333337, "r": 175.76251220703125, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 180.33333333333337, "r": 150.2134552001953, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 49.627410888671875, "t": 198.0, "r": 286.6666666666667, "b": 388.20391845703125, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}]}, {"id": 4, "label": "Text", "bbox": {"l": 49.640533447265625, "t": 390.59295654296875, "r": 286.6666666666667, "b": 627.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 49.99413299560547, "t": 629.9431762695312, "r": 286.0, "b": 651.344970703125, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}]}, {"id": 6, "label": "Section-header", "bbox": {"l": 49.898033142089844, "t": 661.9161987304688, "r": 153.34835815429688, "b": 672.0421752929688, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 49.784549713134766, "t": 680.5510864257812, "r": 286.6666666666667, "b": 714.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}]}, {"id": 8, "label": "Text", "bbox": {"l": 308.32464599609375, "t": 161.7657012939453, "r": 545.0006713867188, "b": 207.03915405273438, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}]}, {"id": 9, "label": "Text", "bbox": {"l": 308.44775390625, "t": 210.41331481933594, "r": 544.8419799804688, "b": 232.35369873046875, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}]}, {"id": 10, "label": "Text", "bbox": {"l": 308.4111022949219, "t": 235.2310333251953, "r": 545.0, "b": 316.1220397949219, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}]}, {"id": 11, "label": "Text", "bbox": {"l": 308.2052001953125, "t": 319.20440673828125, "r": 545.3333333333334, "b": 448.723388671875, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}]}, {"id": 12, "label": "Text", "bbox": {"l": 308.17218017578125, "t": 451.7388000488281, "r": 545.3333333333334, "b": 497.0, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}]}, {"id": 13, "label": "Text", "bbox": {"l": 308.402587890625, "t": 500.48095703125, "r": 545.0632934570312, "b": 545.6666666666666, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 308.32305908203125, "t": 548.5647583007812, "r": 545.078857421875, "b": 606.7564697265625, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}]}, {"id": 15, "label": "Section-header", "bbox": {"l": 308.37005615234375, "t": 621.5151977539062, "r": 544.79541015625, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}]}, {"id": 16, "label": "Text", "bbox": {"l": 308.54010009765625, "t": 656.3193359375, "r": 544.7320556640625, "b": 714.0350341796875, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 132.81927490234375, "t": 109.81901550292969, "r": 465.6957702636719, "b": 135.33333333333337, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers Supplementary Material"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 49.808494567871094, "t": 160.33333333333337, "r": 175.76251220703125, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 180.33333333333337, "r": 150.2134552001953, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 49.627410888671875, "t": 198.0, "r": 286.6666666666667, "b": 388.20391845703125, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \u201cstrict\u201d tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 49.640533447265625, "t": 390.59295654296875, "r": 286.6666666666667, "b": 627.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}]}, "text": "We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes."}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 49.99413299560547, "t": 629.9431762695312, "r": 286.0, "b": 651.344970703125, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 49.898033142089844, "t": 661.9161987304688, "r": 153.34835815429688, "b": 672.0421752929688, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 49.784549713134766, "t": 680.5510864257812, "r": 286.6666666666667, "b": 714.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}]}, "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 308.32464599609375, "t": 161.7657012939453, "r": 545.0006713867188, "b": 207.03915405273438, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}]}, "text": "ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%)."}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 308.44775390625, "t": 210.41331481933594, "r": 544.8419799804688, "b": 232.35369873046875, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 308.4111022949219, "t": 235.2310333251953, "r": 545.0, "b": 316.1220397949219, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}]}, "text": "1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.)."}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 308.2052001953125, "t": 319.20440673828125, "r": 545.3333333333334, "b": 448.723388671875, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}]}, "text": "2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 308.17218017578125, "t": 451.7388000488281, "r": 545.3333333333334, "b": 497.0, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}]}, "text": "3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content."}, {"label": "Text", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Text", "bbox": {"l": 308.402587890625, "t": 500.48095703125, "r": 545.0632934570312, "b": 545.6666666666666, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}]}, "text": "4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table."}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 308.32305908203125, "t": 548.5647583007812, "r": 545.078857421875, "b": 606.7564697265625, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}]}, "text": "5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 308.37005615234375, "t": 621.5151977539062, "r": 544.79541015625, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 308.54010009765625, "t": 656.3193359375, "r": 544.7320556640625, "b": 714.0350341796875, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons:"}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 132.81927490234375, "t": 109.81901550292969, "r": 465.6957702636719, "b": 135.33333333333337, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers Supplementary Material"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 49.808494567871094, "t": 160.33333333333337, "r": 175.76251220703125, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 180.33333333333337, "r": 150.2134552001953, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 49.627410888671875, "t": 198.0, "r": 286.6666666666667, "b": 388.20391845703125, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \u201cstrict\u201d tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 49.640533447265625, "t": 390.59295654296875, "r": 286.6666666666667, "b": 627.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}]}, "text": "We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes."}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 49.99413299560547, "t": 629.9431762695312, "r": 286.0, "b": 651.344970703125, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 49.898033142089844, "t": 661.9161987304688, "r": 153.34835815429688, "b": 672.0421752929688, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 49.784549713134766, "t": 680.5510864257812, "r": 286.6666666666667, "b": 714.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}]}, "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 308.32464599609375, "t": 161.7657012939453, "r": 545.0006713867188, "b": 207.03915405273438, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}]}, "text": "ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%)."}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 308.44775390625, "t": 210.41331481933594, "r": 544.8419799804688, "b": 232.35369873046875, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 308.4111022949219, "t": 235.2310333251953, "r": 545.0, "b": 316.1220397949219, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}]}, "text": "1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.)."}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 308.2052001953125, "t": 319.20440673828125, "r": 545.3333333333334, "b": 448.723388671875, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}]}, "text": "2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 308.17218017578125, "t": 451.7388000488281, "r": 545.3333333333334, "b": 497.0, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}]}, "text": "3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content."}, {"label": "Text", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Text", "bbox": {"l": 308.402587890625, "t": 500.48095703125, "r": 545.0632934570312, "b": 545.6666666666666, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}]}, "text": "4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table."}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 308.32305908203125, "t": 548.5647583007812, "r": 545.078857421875, "b": 606.7564697265625, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}]}, "text": "5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 308.37005615234375, "t": 621.5151977539062, "r": 544.79541015625, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 308.54010009765625, "t": 656.3193359375, "r": 544.7320556640625, "b": 714.0350341796875, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons:"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesserocr.doctags.txt b/tests/data_scanned/scanned_01.tesserocr.doctags.txt index 9fac2b9d..d65c5ca5 100644 --- a/tests/data_scanned/scanned_01.tesserocr.doctags.txt +++ b/tests/data_scanned/scanned_01.tesserocr.doctags.txt @@ -1,20 +1,25 @@ -TableFormer: Table Structure Understanding with Transformers -Supplementary Material -1. Details on the datasets -1.1. Data preparation -As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have "strict" tables, i.e. tables where every row has exactly the same length. -We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes. -Figure 7 illustrates the distribution of the tables across different dimensions per dataset. -1.2. Synthetic datasets -Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear- -ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%). -The process of generating a synthetic dataset can be decomposed into the following steps: -1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.). -2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. -3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content. -4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table. -5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process. -2. Prediction post-processing for PDF documents -Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons: +Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear- +1.2. Synthetic datasets the bounding boxes for tables recognized inside PDF docu- +Figure / illustrates the distribution of the tables across different dimensions per dataset. +tables require the generation of bounding boxes. +ing FinlabNet, 68% of the simple and 98% of the complex +48% of the simple and 69% of the complex tables. Regard- +ing FinlabNet, 68% of the simple and 98% of the complex +missing bounding box out of its neighbors. As a first step. we use the annotation data to generate the most fine-grained erid that covers the table structure. In case of strict HIML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it 1s possible to compute the geometrical border lines between the grid rows and columns. Eventually this information 1s used to generate the missing bounding boxes. Additionally, the existence of unused grid Squares indicates that the table rows have unequal number of columns and the overall structure 1s non-strict. [he generation of missing bounding boxes for non-strict HI ML tables 1s ambiguous and therefore quite challenging. lhus, we have decided to simply discard those tables. In case of Pub labNet we have computed missing bounding boxes for +1.1. Data preparation As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured 1n the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HI ML structure 1f every row has the same number of columns after taking into account any row or column spans. [Therefore a strict HI ML structure looks always rectangular. However, HI ML 1s a lenient encoding format, 1.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. [hese implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have 'strict' tables, 1.e. tables where every row has exactly the same length. We have developed a technique that tries to derive a +1. Details on the datasets +ments, this 1s not enough when a full reconstruction of the original table 1s required. [his happens mainly due the following reasons +Although lableFormer can predict the table structure and +ments +utilized to optimize the runtime overhead of the rendering DIOCESS. 2. Prediction post-processing for PDF docu- +finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique 1s +can be combined with purely random text to produce the synthetic content. 4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates 1s first manually selected. Ihen, a style is randomly selected to format the appearance of the synthesized table. 5. Render the complete tables: The synthetic table 1s +tentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header - body boundary. Ihe table structure 1s described by the parameters: Total number of table rows and columns. number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. Generate content: Based on the dataset theme. a set of suitable content templates 1s chosen first. Then, this content +frequently used terms out of non-synthetic datasets (e.g. Pub labNet, Fin LabNet, etc.). 2. Generate table structures: [he structure of each synthetic dataset assumes a horizontal table header which po- +templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data. marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most +up to 600K synthetic examples. All datasets are divided into Train, lest and Val splits (8O%, 10%, 10%). The process of generating a synthetic dataset can be decomposed into the following steps: |. Prepare styling and content templates: The styling +Every synthetic dataset contains 150k examples, summing +ances in regard to their size, structure, style and content. +TableFormer: Table Structure Understanding with Transformers Supplementary Material \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesserocr.json b/tests/data_scanned/scanned_01.tesserocr.json index f546b85d..baa6067f 100644 --- a/tests/data_scanned/scanned_01.tesserocr.json +++ b/tests/data_scanned/scanned_01.tesserocr.json @@ -1 +1 @@ -{"_name": "", "type": "pdf-document", "description": {"logs": []}, "file-info": {"filename": "scanned_01.pdf", "document-hash": "fe922641468f2a4496c1d6bf69b6ec8e9eb3aa8d8a4b4cd1ca66ed054a160f1d", "#-pages": 1, "page-hashes": [{"hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [132.14317321777344, 670.513671875, 465.32891845703125, 682.2955932617188], "page": 1, "span": [0, 60]}], "text": "TableFormer: Table Structure Understanding with Transformers", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [219.6844940185547, 656.481689453125, 374.7943115234375, 670.4019775390625], "page": 1, "span": [0, 22]}], "text": "Supplementary Material", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [50.30490493774414, 622.5154418945312, 175.9722442626953, 632.1181640625], "page": 1, "span": [0, 26]}], "text": "1. Details on the datasets", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [50.14659118652344, 601.16650390625, 150.20310974121094, 612.2466430664062], "page": 1, "span": [0, 21]}], "text": "1.1. Data preparation", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [49.30127716064453, 403.1863708496094, 286.7478942871094, 594.0686645507812], "page": 1, "span": [0, 931]}], "text": "As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \"strict\" tables, i.e. tables where every row has exactly the same length.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [49.231502532958984, 164.21945190429688, 286.8056945800781, 401.8910217285156], "page": 1, "span": [0, 1149]}], "text": "We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [49.582130432128906, 140.73533630371094, 286.52978515625, 162.6186065673828], "page": 1, "span": [0, 92]}], "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [50.194217681884766, 120.06866455078125, 153.73101806640625, 130.51358032226562], "page": 1, "span": [0, 23]}], "text": "1.2. Synthetic datasets", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [49.35072326660156, 77.70955657958984, 286.8587646484375, 111.79745483398438], "page": 1, "span": [0, 167]}], "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [307.98834228515625, 584.9177856445312, 545.3289184570312, 630.791015625], "page": 1, "span": [0, 221]}], "text": "ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%).", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [308.1005859375, 559.8198852539062, 544.837890625, 581.8519287109375], "page": 1, "span": [0, 89]}], "text": "The process of generating a synthetic dataset can be decomposed into the following steps:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [308.1255798339844, 476.4949951171875, 545.2532958984375, 557.4121704101562], "page": 1, "span": [0, 373]}], "text": "1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.).", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [307.8786926269531, 343.1073913574219, 545.4119873046875, 473.0121765136719], "page": 1, "span": [0, 572]}], "text": "2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [307.8202819824219, 295.06866455078125, 545.53955078125, 340.7937927246094], "page": 1, "span": [0, 194]}], "text": "3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [308.003662109375, 246.10302734375, 545.3137817382812, 291.92535400390625], "page": 1, "span": [0, 218]}], "text": "4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [308.03753662109375, 185.276123046875, 545.3392333984375, 243.6220245361328], "page": 1, "span": [0, 238]}], "text": "5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process.", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [308.099853515625, 147.43630981445312, 544.6666870117188, 170.69789123535156], "page": 1, "span": [0, 47]}], "text": "2. Prediction post-processing for PDF documents", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [308.2200622558594, 77.7415771484375, 545.1013793945312, 135.9070281982422], "page": 1, "span": [0, 247]}], "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons:", "type": "paragraph", "name": "Text"}], "figures": [], "tables": [], "equations": [], "footnotes": [], "page-dimensions": [{"height": 792.0686645507812, "page": 1, "width": 612.0530395507812}], "page-footers": [], "page-headers": []} \ No newline at end of file +{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "scanned_01.pdf", "filename-prov": null, "document-hash": "fe922641468f2a4496c1d6bf69b6ec8e9eb3aa8d8a4b4cd1ca66ed054a160f1d", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [50.33333206176758, 681.0, 286.6666564941406, 714.0], "page": 1, "span": [0, 167], "__ref_s3_data": null}], "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [51.0, 657.211181640625, 544.6666870117188, 682.2496337890625], "page": 1, "span": [0, 81], "__ref_s3_data": null}], "text": "1.2. Synthetic datasets the bounding boxes for tables recognized inside PDF docu-", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [50.33333206176758, 630.6666870117188, 286.0, 651.3333129882812], "page": 1, "span": [0, 92], "__ref_s3_data": null}], "text": "Figure / illustrates the distribution of the tables across different dimensions per dataset.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [49.808494567871094, 618.0, 241.6666717529297, 631.7197875976562], "page": 1, "span": [0, 48], "__ref_s3_data": null}], "text": "tables require the generation of bounding boxes.", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.78814697265625, 601.5794067382812, 285.6666564941406, 615.3333129882812], "page": 1, "span": [0, 55], "__ref_s3_data": null}], "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [50.0, 594.0, 286.0, 603.3333129882812], "page": 1, "span": [0, 56], "__ref_s3_data": null}], "text": "48% of the simple and 69% of the complex tables. Regard-", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [49.78814697265625, 601.5794067382812, 285.6666564941406, 615.3333129882812], "page": 1, "span": [0, 55], "__ref_s3_data": null}], "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [49.627410888671875, 403.0, 286.6666564941406, 593.2393798828125], "page": 1, "span": [0, 938], "__ref_s3_data": null}], "text": "missing bounding box out of its neighbors. As a first step. we use the annotation data to generate the most fine-grained erid that covers the table structure. In case of strict HIML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it 1s possible to compute the geometrical border lines between the grid rows and columns. Eventually this information 1s used to generate the missing bounding boxes. Additionally, the existence of unused grid Squares indicates that the table rows have unequal number of columns and the overall structure 1s non-strict. [he generation of missing bounding boxes for non-strict HI ML tables 1s ambiguous and therefore quite challenging. lhus, we have decided to simply discard those tables. In case of Pub labNet we have computed missing bounding boxes for", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [49.640533447265625, 164.86993408203125, 286.6666564941406, 401.4757080078125], "page": 1, "span": [0, 1010], "__ref_s3_data": null}], "text": "1.1. Data preparation As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured 1n the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HI ML structure 1f every row has the same number of columns after taking into account any row or column spans. [Therefore a strict HI ML structure looks always rectangular. However, HI ML 1s a lenient encoding format, 1.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. [hese implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have 'strict' tables, 1.e. tables where every row has exactly the same length. We have developed a technique that tries to derive a", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [51.0, 160.3333282470703, 175.6666717529297, 169.0], "page": 1, "span": [0, 26], "__ref_s3_data": null}], "text": "1. Details on the datasets", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [309.0, 681.0, 544.6666870117188, 714.0], "page": 1, "span": [0, 133], "__ref_s3_data": null}], "text": "ments, this 1s not enough when a full reconstruction of the original table 1s required. [his happens mainly due the following reasons", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [321.0, 657.0, 544.6666870117188, 666.0], "page": 1, "span": [0, 56], "__ref_s3_data": null}], "text": "Although lableFormer can predict the table structure and", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [327.0, 636.6666870117188, 357.0, 644.3333129882812], "page": 1, "span": [0, 5], "__ref_s3_data": null}], "text": "ments", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.32464599609375, 585.029541015625, 545.0006713867188, 632.6666870117188], "page": 1, "span": [0, 111], "__ref_s3_data": null}], "text": "utilized to optimize the runtime overhead of the rendering DIOCESS. 2. Prediction post-processing for PDF docu-", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.44775390625, 559.7149658203125, 544.8419799804688, 582.6666870117188], "page": 1, "span": [0, 116], "__ref_s3_data": null}], "text": "finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique 1s", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.4111022949219, 475.9466247558594, 545.0, 558.6666870117188], "page": 1, "span": [0, 346], "__ref_s3_data": null}], "text": "can be combined with purely random text to produce the synthetic content. 4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates 1s first manually selected. Ihen, a style is randomly selected to format the appearance of the synthesized table. 5. Render the complete tables: The synthetic table 1s", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.2052001953125, 343.34527587890625, 545.3333129882812, 473.0], "page": 1, "span": [0, 579], "__ref_s3_data": null}], "text": "tentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header - body boundary. Ihe table structure 1s described by the parameters: Total number of table rows and columns. number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. Generate content: Based on the dataset theme. a set of suitable content templates 1s chosen first. Then, this content", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.17218017578125, 295.2091369628906, 544.9503173828125, 341.0], "page": 1, "span": [0, 202], "__ref_s3_data": null}], "text": "frequently used terms out of non-synthetic datasets (e.g. Pub labNet, Fin LabNet, etc.). 2. Generate table structures: [he structure of each synthetic dataset assumes a horizontal table header which po-", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.402587890625, 246.614013671875, 545.0632934570312, 292.6666564941406], "page": 1, "span": [0, 232], "__ref_s3_data": null}], "text": "templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data. marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.32305908203125, 185.31219482421875, 545.078857421875, 244.6666717529297], "page": 1, "span": [0, 248], "__ref_s3_data": null}], "text": "up to 600K synthetic examples. All datasets are divided into Train, lest and Val splits (8O%, 10%, 10%). The process of generating a synthetic dataset can be decomposed into the following steps: |. Prepare styling and content templates: The styling", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [309.0, 174.0, 544.6666870117188, 183.0], "page": 1, "span": [0, 55], "__ref_s3_data": null}], "text": "Every synthetic dataset contains 150k examples, summing", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [308.37005615234375, 145.74542236328125, 544.79541015625, 171.0], "page": 1, "span": [0, 60], "__ref_s3_data": null}], "text": "ances in regard to their size, structure, style and content.", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [133.0, 78.03363037109375, 544.7320556640625, 135.74932861328125], "page": 1, "span": [0, 83], "__ref_s3_data": null}], "text": "TableFormer: Table Structure Understanding with Transformers Supplementary Material", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 792.0686645507812, "page": 1, "width": 612.0530395507812}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesserocr.md b/tests/data_scanned/scanned_01.tesserocr.md index c575a5cb..2f135004 100644 --- a/tests/data_scanned/scanned_01.tesserocr.md +++ b/tests/data_scanned/scanned_01.tesserocr.md @@ -1,35 +1,45 @@ -## TableFormer: Table Structure Understanding with Transformers - -Supplementary Material - -## 1. Details on the datasets - -## 1.1. Data preparation - -As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have "strict" tables, i.e. tables where every row has exactly the same length. - -We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes. - -Figure 7 illustrates the distribution of the tables across different dimensions per dataset. - -## 1.2. Synthetic datasets - Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear- -ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%). +## 1.2. Synthetic datasets the bounding boxes for tables recognized inside PDF docu- -The process of generating a synthetic dataset can be decomposed into the following steps: +Figure / illustrates the distribution of the tables across different dimensions per dataset. -1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.). +## tables require the generation of bounding boxes. -2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. +## ing FinlabNet, 68% of the simple and 98% of the complex -3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content. +48% of the simple and 69% of the complex tables. Regard- -4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table. +## ing FinlabNet, 68% of the simple and 98% of the complex -5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process. +missing bounding box out of its neighbors. As a first step. we use the annotation data to generate the most fine-grained erid that covers the table structure. In case of strict HIML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it 1s possible to compute the geometrical border lines between the grid rows and columns. Eventually this information 1s used to generate the missing bounding boxes. Additionally, the existence of unused grid Squares indicates that the table rows have unequal number of columns and the overall structure 1s non-strict. [he generation of missing bounding boxes for non-strict HI ML tables 1s ambiguous and therefore quite challenging. lhus, we have decided to simply discard those tables. In case of Pub labNet we have computed missing bounding boxes for -## 2. Prediction post-processing for PDF documents +1.1. Data preparation As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured 1n the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HI ML structure 1f every row has the same number of columns after taking into account any row or column spans. [Therefore a strict HI ML structure looks always rectangular. However, HI ML 1s a lenient encoding format, 1.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. [hese implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have 'strict' tables, 1.e. tables where every row has exactly the same length. We have developed a technique that tries to derive a -Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons: \ No newline at end of file +1. Details on the datasets + +ments, this 1s not enough when a full reconstruction of the original table 1s required. [his happens mainly due the following reasons + +## Although lableFormer can predict the table structure and + +ments + +utilized to optimize the runtime overhead of the rendering DIOCESS. 2. Prediction post-processing for PDF docu- + +finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique 1s + +can be combined with purely random text to produce the synthetic content. 4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates 1s first manually selected. Ihen, a style is randomly selected to format the appearance of the synthesized table. 5. Render the complete tables: The synthetic table 1s + +tentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header - body boundary. Ihe table structure 1s described by the parameters: Total number of table rows and columns. number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. Generate content: Based on the dataset theme. a set of suitable content templates 1s chosen first. Then, this content + +frequently used terms out of non-synthetic datasets (e.g. Pub labNet, Fin LabNet, etc.). 2. Generate table structures: [he structure of each synthetic dataset assumes a horizontal table header which po- + +templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data. marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most + +up to 600K synthetic examples. All datasets are divided into Train, lest and Val splits (8O%, 10%, 10%). The process of generating a synthetic dataset can be decomposed into the following steps: |. Prepare styling and content templates: The styling + +Every synthetic dataset contains 150k examples, summing + +## ances in regard to their size, structure, style and content. + +TableFormer: Table Structure Understanding with Transformers Supplementary Material \ No newline at end of file diff --git a/tests/data_scanned/scanned_01.tesserocr.pages.json b/tests/data_scanned/scanned_01.tesserocr.pages.json index 58ffa8b2..2dfdc3a7 100644 --- a/tests/data_scanned/scanned_01.tesserocr.pages.json +++ b/tests/data_scanned/scanned_01.tesserocr.pages.json @@ -1 +1 @@ -[{"page_no": 0, "page_hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "size": {"width": 612.0530395507812, "height": 792.0686645507812}, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}, {"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}, {"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}, {"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}, {"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}, {"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}, {"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}, {"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}, {"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}, {"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}, {"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 132.14316844940186, "t": 109.7731006622314, "r": 465.3289112091064, "b": 121.55499343872066, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}]}, {"id": 1, "label": "Text", "bbox": {"l": 219.6844882965088, "t": 121.66666666666663, "r": 374.7943199157715, "b": 135.58697376251223, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 50.3049060344696, "t": 159.95050048828125, "r": 175.9722370147705, "b": 169.55322933197021, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}]}, {"id": 3, "label": "Section-header", "bbox": {"l": 50.14659132957458, "t": 179.82202835083012, "r": 150.203111743927, "b": 190.9021814346313, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}]}, {"id": 4, "label": "Text", "bbox": {"l": 49.30127835273743, "t": 198.0, "r": 286.7478813171387, "b": 388.8822978973389, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 49.23150315284729, "t": 390.1776546478272, "r": 286.8056917190552, "b": 627.8492202758789, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}]}, {"id": 6, "label": "Text", "bbox": {"l": 49.582130098342894, "t": 629.4500621795654, "r": 286.52977180480957, "b": 651.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}]}, {"id": 7, "label": "Section-header", "bbox": {"l": 50.19421706199646, "t": 661.5550827026367, "r": 153.73101997375488, "b": 672.0, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}]}, {"id": 8, "label": "Text", "bbox": {"l": 49.35072433948517, "t": 680.2712127685546, "r": 286.8587745666504, "b": 714.3591110229492, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}]}, {"id": 9, "label": "Text", "bbox": {"l": 307.9883451461792, "t": 161.2776746749878, "r": 545.328935623169, "b": 207.15086460113525, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}]}, {"id": 10, "label": "Text", "bbox": {"l": 308.1005807876587, "t": 210.2167625427246, "r": 544.8379119873047, "b": 232.248779296875, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 308.125590133667, "t": 234.65651893615723, "r": 545.2532947540284, "b": 315.57367858886715, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 307.878706741333, "t": 319.05648880004884, "r": 545.4119888305664, "b": 448.9612838745117, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}]}, {"id": 13, "label": "List-item", "bbox": {"l": 307.8202835083008, "t": 451.2748741149902, "r": 545.5395744323731, "b": 497.0, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}]}, {"id": 14, "label": "List-item", "bbox": {"l": 308.00366592407227, "t": 500.1433216094971, "r": 545.3137607574463, "b": 545.9656414031982, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}]}, {"id": 15, "label": "List-item", "bbox": {"l": 308.0375467300415, "t": 548.446646118164, "r": 545.3392078399658, "b": 606.7925354003906, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}]}, {"id": 16, "label": "Section-header", "bbox": {"l": 308.09985122680666, "t": 621.3707748413086, "r": 544.6666666666666, "b": 644.6323608398437, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 308.2200536727905, "t": 656.1616401672363, "r": 545.1013710021972, "b": 714.3270858764648, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 132.14316844940186, "t": 109.7731006622314, "r": 465.3289112091064, "b": 121.55499343872066, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 219.6844882965088, "t": 121.66666666666663, "r": 374.7943199157715, "b": 135.58697376251223, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 50.3049060344696, "t": 159.95050048828125, "r": 175.9722370147705, "b": 169.55322933197021, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Section-header", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Section-header", "bbox": {"l": 50.14659132957458, "t": 179.82202835083012, "r": 150.203111743927, "b": 190.9021814346313, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 49.30127835273743, "t": 198.0, "r": 286.7478813171387, "b": 388.8822978973389, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \u201cstrict\u201d tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 49.23150315284729, "t": 390.1776546478272, "r": 286.8056917190552, "b": 627.8492202758789, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}]}, "text": "We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 49.582130098342894, "t": 629.4500621795654, "r": 286.52977180480957, "b": 651.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Section-header", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Section-header", "bbox": {"l": 50.19421706199646, "t": 661.5550827026367, "r": 153.73101997375488, "b": 672.0, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 49.35072433948517, "t": 680.2712127685546, "r": 286.8587745666504, "b": 714.3591110229492, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}]}, "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 307.9883451461792, "t": 161.2776746749878, "r": 545.328935623169, "b": 207.15086460113525, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}]}, "text": "ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%)."}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 308.1005807876587, "t": 210.2167625427246, "r": 544.8379119873047, "b": 232.248779296875, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 308.125590133667, "t": 234.65651893615723, "r": 545.2532947540284, "b": 315.57367858886715, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}]}, "text": "1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.)."}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 307.878706741333, "t": 319.05648880004884, "r": 545.4119888305664, "b": 448.9612838745117, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}]}, "text": "2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans."}, {"label": "List-item", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "List-item", "bbox": {"l": 307.8202835083008, "t": 451.2748741149902, "r": 545.5395744323731, "b": 497.0, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}]}, "text": "3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content."}, {"label": "List-item", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "List-item", "bbox": {"l": 308.00366592407227, "t": 500.1433216094971, "r": 545.3137607574463, "b": 545.9656414031982, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}]}, "text": "4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table."}, {"label": "List-item", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "List-item", "bbox": {"l": 308.0375467300415, "t": 548.446646118164, "r": 545.3392078399658, "b": 606.7925354003906, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}]}, "text": "5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 308.09985122680666, "t": 621.3707748413086, "r": 544.6666666666666, "b": 644.6323608398437, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 308.2200536727905, "t": 656.1616401672363, "r": 545.1013710021972, "b": 714.3270858764648, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons:"}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 132.14316844940186, "t": 109.7731006622314, "r": 465.3289112091064, "b": 121.55499343872066, "coord_origin": "1"}, "confidence": 0.7128022909164429, "cells": [{"id": 0, "text": "TableFormer:", "bbox": {"l": 133.0, "t": 110.0, "r": 203.0, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 1, "text": "Table", "bbox": {"l": 207.66666666666666, "t": 110.0, "r": 235.33333333333334, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 2, "text": "Structure", "bbox": {"l": 239.0, "t": 110.0, "r": 287.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 3, "text": "Understanding", "bbox": {"l": 290.6666666666667, "t": 110.0, "r": 366.6666666666667, "b": 121.0, "coord_origin": "1"}}, {"id": 4, "text": "with", "bbox": {"l": 370.3333333333333, "t": 110.0, "r": 392.3333333333333, "b": 118.66666666666663, "coord_origin": "1"}}, {"id": 5, "text": "Transformers", "bbox": {"l": 395.6666666666667, "t": 110.0, "r": 465.0, "b": 118.66666666666663, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 219.6844882965088, "t": 121.66666666666663, "r": 374.7943199157715, "b": 135.58697376251223, "coord_origin": "1"}, "confidence": 0.720852792263031, "cells": [{"id": 6, "text": "Supplementary", "bbox": {"l": 220.66666666666666, "t": 121.66666666666663, "r": 315.6666666666667, "b": 135.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "Material", "bbox": {"l": 321.6666666666667, "t": 121.66666666666663, "r": 374.6666666666667, "b": 132.33333333333337, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 50.3049060344696, "t": 159.95050048828125, "r": 175.9722370147705, "b": 169.55322933197021, "coord_origin": "1"}, "confidence": 0.9396139979362488, "cells": [{"id": 8, "text": "1.", "bbox": {"l": 51.0, "t": 160.66666666666663, "r": 58.666666666666664, "b": 169.0, "coord_origin": "1"}}, {"id": 9, "text": "Details", "bbox": {"l": 62.333333333333336, "t": 160.33333333333337, "r": 97.0, "b": 169.0, "coord_origin": "1"}}, {"id": 10, "text": "on", "bbox": {"l": 100.33333333333333, "t": 163.0, "r": 112.66666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 11, "text": "the", "bbox": {"l": 116.0, "t": 160.66666666666663, "r": 131.66666666666666, "b": 169.0, "coord_origin": "1"}}, {"id": 12, "text": "datasets", "bbox": {"l": 135.0, "t": 160.66666666666663, "r": 175.66666666666666, "b": 169.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Section-header", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Section-header", "bbox": {"l": 50.14659132957458, "t": 179.82202835083012, "r": 150.203111743927, "b": 190.9021814346313, "coord_origin": "1"}, "confidence": 0.9440858364105225, "cells": [{"id": 13, "text": "1.1.", "bbox": {"l": 51.0, "t": 180.33333333333337, "r": 66.0, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 14, "text": "Data", "bbox": {"l": 69.66666666666667, "t": 180.33333333333337, "r": 91.33333333333333, "b": 188.33333333333337, "coord_origin": "1"}}, {"id": 15, "text": "preparation", "bbox": {"l": 94.66666666666667, "t": 180.33333333333337, "r": 150.0, "b": 190.33333333333337, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 49.30127835273743, "t": 198.0, "r": 286.7478813171387, "b": 388.8822978973389, "coord_origin": "1"}, "confidence": 0.9874077439308167, "cells": [{"id": 16, "text": "As", "bbox": {"l": 62.333333333333336, "t": 199.66666666666663, "r": 72.66666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "a", "bbox": {"l": 74.0, "t": 198.0, "r": 78.0, "b": 210.0, "coord_origin": "1"}}, {"id": 18, "text": "first", "bbox": {"l": 84.33333333333333, "t": 199.33333333333337, "r": 99.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "step", "bbox": {"l": 102.66666666666667, "t": 200.66666666666663, "r": 118.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 20, "text": "of", "bbox": {"l": 121.66666666666667, "t": 199.33333333333337, "r": 130.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 21, "text": "our", "bbox": {"l": 133.33333333333334, "t": 201.66666666666663, "r": 146.33333333333334, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 22, "text": "data", "bbox": {"l": 149.33333333333334, "t": 199.33333333333337, "r": 165.66666666666666, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "preparation", "bbox": {"l": 169.33333333333334, "t": 199.33333333333337, "r": 214.0, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 24, "text": "process,", "bbox": {"l": 217.66666666666666, "t": 201.66666666666663, "r": 249.33333333333334, "b": 208.66666666666663, "coord_origin": "1"}}, {"id": 25, "text": "we", "bbox": {"l": 253.33333333333334, "t": 201.66666666666663, "r": 264.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 26, "text": "have", "bbox": {"l": 268.3333333333333, "t": 199.33333333333337, "r": 286.0, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 27, "text": "calculated", "bbox": {"l": 50.333333333333336, "t": 211.33333333333337, "r": 90.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 28, "text": "statistics", "bbox": {"l": 94.33333333333333, "t": 211.33333333333337, "r": 128.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 29, "text": "over", "bbox": {"l": 132.0, "t": 213.66666666666663, "r": 149.33333333333334, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 30, "text": "the", "bbox": {"l": 153.0, "t": 211.33333333333337, "r": 164.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 31, "text": "datasets", "bbox": {"l": 168.66666666666666, "t": 211.33333333333337, "r": 199.66666666666666, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 32, "text": "across", "bbox": {"l": 204.0, "t": 213.66666666666663, "r": 228.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 33, "text": "the", "bbox": {"l": 232.33333333333334, "t": 211.33333333333337, "r": 244.0, "b": 218.33333333333337, "coord_origin": "1"}}, {"id": 34, "text": "following", "bbox": {"l": 248.33333333333334, "t": 211.33333333333337, "r": 286.0, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 35, "text": "dimensions:", "bbox": {"l": 50.333333333333336, "t": 223.33333333333337, "r": 97.33333333333333, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 36, "text": "(1)", "bbox": {"l": 102.33333333333333, "t": 223.66666666666663, "r": 113.0, "b": 231.66666666666663, "coord_origin": "1"}}, {"id": 37, "text": "table", "bbox": {"l": 116.66666666666667, "t": 223.33333333333337, "r": 135.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 38, "text": "size", "bbox": {"l": 138.66666666666666, "t": 223.33333333333337, "r": 153.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 39, "text": "measured", "bbox": {"l": 157.0, "t": 223.33333333333337, "r": 194.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 40, "text": "in", "bbox": {"l": 198.0, "t": 223.33333333333337, "r": 205.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 41, "text": "the", "bbox": {"l": 208.33333333333334, "t": 223.33333333333337, "r": 220.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 42, "text": "number", "bbox": {"l": 223.33333333333334, "t": 223.33333333333337, "r": 253.33333333333334, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 43, "text": "of", "bbox": {"l": 256.3333333333333, "t": 223.33333333333337, "r": 265.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 44, "text": "rows", "bbox": {"l": 267.3333333333333, "t": 225.66666666666663, "r": 286.0, "b": 230.33333333333337, "coord_origin": "1"}}, {"id": 45, "text": "and", "bbox": {"l": 50.333333333333336, "t": 235.33333333333337, "r": 64.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 46, "text": "columns,", "bbox": {"l": 67.66666666666667, "t": 235.33333333333337, "r": 103.66666666666667, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 47, "text": "(2)", "bbox": {"l": 108.0, "t": 235.33333333333337, "r": 118.66666666666667, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 48, "text": "complexity", "bbox": {"l": 122.66666666666667, "t": 235.33333333333337, "r": 166.66666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 49, "text": "of", "bbox": {"l": 170.66666666666666, "t": 235.33333333333337, "r": 179.0, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 50, "text": "the", "bbox": {"l": 182.33333333333334, "t": 235.33333333333337, "r": 193.66666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 51, "text": "table,", "bbox": {"l": 197.66666666666666, "t": 235.33333333333337, "r": 218.66666666666666, "b": 243.33333333333337, "coord_origin": "1"}}, {"id": 52, "text": "(3)", "bbox": {"l": 223.0, "t": 235.33333333333337, "r": 234.0, "b": 243.66666666666663, "coord_origin": "1"}}, {"id": 53, "text": "strictness", "bbox": {"l": 238.0, "t": 235.33333333333337, "r": 274.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 54, "text": "of", "bbox": {"l": 278.3333333333333, "t": 235.33333333333337, "r": 286.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 55, "text": "the", "bbox": {"l": 50.333333333333336, "t": 247.33333333333337, "r": 62.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 56, "text": "provided", "bbox": {"l": 65.0, "t": 247.33333333333337, "r": 99.66666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 57, "text": "HTML", "bbox": {"l": 103.0, "t": 247.33333333333337, "r": 130.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 58, "text": "structure", "bbox": {"l": 133.66666666666666, "t": 248.66666666666663, "r": 167.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 59, "text": "and", "bbox": {"l": 170.66666666666666, "t": 247.33333333333337, "r": 184.66666666666666, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 60, "text": "(4)", "bbox": {"l": 187.66666666666666, "t": 247.33333333333337, "r": 198.66666666666666, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 61, "text": "completeness", "bbox": {"l": 201.66666666666666, "t": 247.33333333333337, "r": 255.0, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 62, "text": "(i.e.", "bbox": {"l": 258.3333333333333, "t": 247.33333333333337, "r": 272.6666666666667, "b": 255.66666666666663, "coord_origin": "1"}}, {"id": 63, "text": "no", "bbox": {"l": 276.6666666666667, "t": 249.66666666666663, "r": 286.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 64, "text": "omitted", "bbox": {"l": 50.333333333333336, "t": 259.33333333333326, "r": 80.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "bounding", "bbox": {"l": 82.66666666666667, "t": 259.33333333333326, "r": 120.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 66, "text": "boxes).", "bbox": {"l": 122.33333333333333, "t": 259.33333333333326, "r": 150.33333333333334, "b": 267.66666666666674, "coord_origin": "1"}}, {"id": 67, "text": "A", "bbox": {"l": 155.0, "t": 259.66666666666674, "r": 158.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "table", "bbox": {"l": 163.66666666666666, "t": 259.33333333333326, "r": 182.33333333333334, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "is", "bbox": {"l": 185.0, "t": 259.33333333333326, "r": 191.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "considered", "bbox": {"l": 193.33333333333334, "t": 259.33333333333326, "r": 236.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 71, "text": "to", "bbox": {"l": 239.0, "t": 260.66666666666674, "r": 246.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "be", "bbox": {"l": 248.66666666666666, "t": 259.33333333333326, "r": 257.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "simple", "bbox": {"l": 260.0, "t": 259.33333333333326, "r": 286.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 74, "text": "if", "bbox": {"l": 50.333333333333336, "t": 271.33333333333326, "r": 56.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "it", "bbox": {"l": 59.0, "t": 271.33333333333326, "r": 63.666666666666664, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "does", "bbox": {"l": 66.66666666666667, "t": 271.33333333333326, "r": 84.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "not", "bbox": {"l": 87.66666666666667, "t": 272.66666666666674, "r": 99.66666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "contain", "bbox": {"l": 102.66666666666667, "t": 271.33333333333326, "r": 131.66666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "row", "bbox": {"l": 134.66666666666666, "t": 273.66666666666674, "r": 149.33333333333334, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "spans", "bbox": {"l": 152.33333333333334, "t": 273.66666666666674, "r": 174.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "or", "bbox": {"l": 177.0, "t": 273.66666666666674, "r": 185.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "column", "bbox": {"l": 187.66666666666666, "t": 271.33333333333326, "r": 217.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "spans.", "bbox": {"l": 220.33333333333334, "t": 273.66666666666674, "r": 244.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 84, "text": "Addition-", "bbox": {"l": 248.0, "t": 271.33333333333326, "r": 286.0, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "ally,", "bbox": {"l": 50.333333333333336, "t": 283.0, "r": 66.33333333333333, "b": 292.0, "coord_origin": "1"}}, {"id": 86, "text": "a", "bbox": {"l": 69.33333333333333, "t": 285.0, "r": 73.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 87, "text": "table", "bbox": {"l": 76.0, "t": 283.0, "r": 94.66666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 88, "text": "has", "bbox": {"l": 97.66666666666667, "t": 283.0, "r": 110.33333333333333, "b": 290.0, "coord_origin": "1"}}, {"id": 89, "text": "a", "bbox": {"l": 113.0, "t": 285.0, "r": 117.0, "b": 290.0, "coord_origin": "1"}}, {"id": 90, "text": "strict", "bbox": {"l": 120.0, "t": 283.0, "r": 139.0, "b": 290.0, "coord_origin": "1"}}, {"id": 91, "text": "HTML", "bbox": {"l": 142.0, "t": 283.0, "r": 169.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 92, "text": "structure", "bbox": {"l": 172.33333333333334, "t": 284.3333333333333, "r": 206.33333333333334, "b": 290.0, "coord_origin": "1"}}, {"id": 93, "text": "if", "bbox": {"l": 209.33333333333334, "t": 283.0, "r": 215.66666666666666, "b": 290.0, "coord_origin": "1"}}, {"id": 94, "text": "every", "bbox": {"l": 217.33333333333334, "t": 285.0, "r": 238.66666666666666, "b": 292.0, "coord_origin": "1"}}, {"id": 95, "text": "row", "bbox": {"l": 241.33333333333334, "t": 285.0, "r": 256.0, "b": 290.0, "coord_origin": "1"}}, {"id": 96, "text": "has", "bbox": {"l": 259.0, "t": 283.0, "r": 271.6666666666667, "b": 290.0, "coord_origin": "1"}}, {"id": 97, "text": "the", "bbox": {"l": 274.3333333333333, "t": 283.0, "r": 286.0, "b": 290.0, "coord_origin": "1"}}, {"id": 98, "text": "same", "bbox": {"l": 50.333333333333336, "t": 297.0, "r": 70.0, "b": 302.0, "coord_origin": "1"}}, {"id": 99, "text": "number", "bbox": {"l": 73.66666666666667, "t": 295.0, "r": 103.66666666666667, "b": 302.0, "coord_origin": "1"}}, {"id": 100, "text": "of", "bbox": {"l": 106.66666666666667, "t": 295.0, "r": 115.33333333333333, "b": 302.0, "coord_origin": "1"}}, {"id": 101, "text": "columns", "bbox": {"l": 117.66666666666667, "t": 295.0, "r": 150.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 102, "text": "after", "bbox": {"l": 154.0, "t": 295.0, "r": 172.0, "b": 302.0, "coord_origin": "1"}}, {"id": 103, "text": "taking", "bbox": {"l": 175.0, "t": 295.0, "r": 199.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 104, "text": "into", "bbox": {"l": 202.66666666666666, "t": 295.0, "r": 217.66666666666666, "b": 302.0, "coord_origin": "1"}}, {"id": 105, "text": "account", "bbox": {"l": 220.66666666666666, "t": 296.3333333333333, "r": 251.0, "b": 302.0, "coord_origin": "1"}}, {"id": 106, "text": "any", "bbox": {"l": 254.33333333333334, "t": 297.0, "r": 268.0, "b": 304.0, "coord_origin": "1"}}, {"id": 107, "text": "row", "bbox": {"l": 271.3333333333333, "t": 297.0, "r": 286.0, "b": 302.0, "coord_origin": "1"}}, {"id": 108, "text": "or", "bbox": {"l": 50.333333333333336, "t": 309.0, "r": 58.333333333333336, "b": 314.0, "coord_origin": "1"}}, {"id": 109, "text": "column", "bbox": {"l": 61.333333333333336, "t": 307.0, "r": 90.66666666666667, "b": 314.0, "coord_origin": "1"}}, {"id": 110, "text": "spans.", "bbox": {"l": 94.66666666666667, "t": 309.0, "r": 118.0, "b": 316.0, "coord_origin": "1"}}, {"id": 111, "text": "Therefore", "bbox": {"l": 123.33333333333333, "t": 307.0, "r": 162.0, "b": 314.0, "coord_origin": "1"}}, {"id": 112, "text": "a", "bbox": {"l": 165.66666666666666, "t": 309.0, "r": 169.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 113, "text": "strict", "bbox": {"l": 173.33333333333334, "t": 307.0, "r": 192.33333333333334, "b": 314.0, "coord_origin": "1"}}, {"id": 114, "text": "HTML", "bbox": {"l": 196.0, "t": 307.0, "r": 223.66666666666666, "b": 314.0, "coord_origin": "1"}}, {"id": 115, "text": "structure", "bbox": {"l": 227.33333333333334, "t": 308.3333333333333, "r": 261.3333333333333, "b": 314.0, "coord_origin": "1"}}, {"id": 116, "text": "looks", "bbox": {"l": 265.0, "t": 307.0, "r": 286.0, "b": 314.0, "coord_origin": "1"}}, {"id": 117, "text": "always", "bbox": {"l": 50.333333333333336, "t": 319.0, "r": 77.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 118, "text": "rectangular.", "bbox": {"l": 80.66666666666667, "t": 319.0, "r": 126.33333333333333, "b": 328.0, "coord_origin": "1"}}, {"id": 119, "text": "However,", "bbox": {"l": 131.66666666666666, "t": 319.0, "r": 168.66666666666666, "b": 326.6666666666667, "coord_origin": "1"}}, {"id": 120, "text": "HTML", "bbox": {"l": 172.33333333333334, "t": 319.0, "r": 200.0, "b": 326.0, "coord_origin": "1"}}, {"id": 121, "text": "is", "bbox": {"l": 203.66666666666666, "t": 319.0, "r": 209.33333333333334, "b": 326.0, "coord_origin": "1"}}, {"id": 122, "text": "a", "bbox": {"l": 211.33333333333334, "t": 317.6666666666667, "r": 214.33333333333334, "b": 329.3333333333333, "coord_origin": "1"}}, {"id": 123, "text": "lenient", "bbox": {"l": 220.33333333333334, "t": 319.0, "r": 246.66666666666666, "b": 326.0, "coord_origin": "1"}}, {"id": 124, "text": "encoding", "bbox": {"l": 250.0, "t": 319.0, "r": 286.0, "b": 328.0, "coord_origin": "1"}}, {"id": 125, "text": "format,", "bbox": {"l": 50.666666666666664, "t": 331.0, "r": 78.66666666666667, "b": 338.6666666666667, "coord_origin": "1"}}, {"id": 126, "text": "i.e.", "bbox": {"l": 83.33333333333333, "t": 331.0, "r": 94.66666666666667, "b": 338.0, "coord_origin": "1"}}, {"id": 127, "text": "tables", "bbox": {"l": 101.66666666666667, "t": 331.0, "r": 124.33333333333333, "b": 338.0, "coord_origin": "1"}}, {"id": 128, "text": "with", "bbox": {"l": 128.66666666666666, "t": 331.0, "r": 145.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 129, "text": "rows", "bbox": {"l": 149.66666666666666, "t": 333.0, "r": 168.33333333333334, "b": 338.0, "coord_origin": "1"}}, {"id": 130, "text": "of", "bbox": {"l": 172.33333333333334, "t": 331.0, "r": 181.0, "b": 338.0, "coord_origin": "1"}}, {"id": 131, "text": "different", "bbox": {"l": 184.33333333333334, "t": 331.0, "r": 217.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 132, "text": "sizes", "bbox": {"l": 222.0, "t": 331.0, "r": 240.66666666666666, "b": 338.0, "coord_origin": "1"}}, {"id": 133, "text": "might", "bbox": {"l": 245.0, "t": 331.0, "r": 267.6666666666667, "b": 340.0, "coord_origin": "1"}}, {"id": 134, "text": "still", "bbox": {"l": 271.6666666666667, "t": 331.0, "r": 286.0, "b": 338.0, "coord_origin": "1"}}, {"id": 135, "text": "be", "bbox": {"l": 50.333333333333336, "t": 343.0, "r": 59.0, "b": 350.0, "coord_origin": "1"}}, {"id": 136, "text": "regarded", "bbox": {"l": 62.666666666666664, "t": 343.0, "r": 96.66666666666667, "b": 352.0, "coord_origin": "1"}}, {"id": 137, "text": "as", "bbox": {"l": 100.33333333333333, "t": 345.0, "r": 108.0, "b": 350.0, "coord_origin": "1"}}, {"id": 138, "text": "correct", "bbox": {"l": 111.66666666666667, "t": 344.3333333333333, "r": 138.66666666666666, "b": 350.0, "coord_origin": "1"}}, {"id": 139, "text": "due", "bbox": {"l": 142.33333333333334, "t": 343.0, "r": 156.0, "b": 350.0, "coord_origin": "1"}}, {"id": 140, "text": "to", "bbox": {"l": 159.66666666666666, "t": 344.3333333333333, "r": 167.0, "b": 350.0, "coord_origin": "1"}}, {"id": 141, "text": "implicit", "bbox": {"l": 170.66666666666666, "t": 343.0, "r": 201.0, "b": 352.0, "coord_origin": "1"}}, {"id": 142, "text": "display", "bbox": {"l": 204.33333333333334, "t": 343.0, "r": 232.33333333333334, "b": 352.0, "coord_origin": "1"}}, {"id": 143, "text": "rules.", "bbox": {"l": 236.33333333333334, "t": 343.0, "r": 257.3333333333333, "b": 350.0, "coord_origin": "1"}}, {"id": 144, "text": "These", "bbox": {"l": 262.6666666666667, "t": 343.0, "r": 286.0, "b": 350.0, "coord_origin": "1"}}, {"id": 145, "text": "implicit", "bbox": {"l": 50.333333333333336, "t": 355.0, "r": 80.66666666666667, "b": 364.0, "coord_origin": "1"}}, {"id": 146, "text": "rules", "bbox": {"l": 84.33333333333333, "t": 355.0, "r": 103.33333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 147, "text": "leave", "bbox": {"l": 107.0, "t": 355.0, "r": 126.66666666666667, "b": 362.0, "coord_origin": "1"}}, {"id": 148, "text": "room", "bbox": {"l": 130.33333333333334, "t": 357.0, "r": 151.0, "b": 362.0, "coord_origin": "1"}}, {"id": 149, "text": "for", "bbox": {"l": 154.66666666666666, "t": 355.0, "r": 165.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 150, "text": "ambiguity,", "bbox": {"l": 169.0, "t": 355.0, "r": 210.66666666666666, "b": 364.0, "coord_origin": "1"}}, {"id": 151, "text": "which", "bbox": {"l": 214.66666666666666, "t": 355.0, "r": 238.33333333333334, "b": 362.0, "coord_origin": "1"}}, {"id": 152, "text": "we", "bbox": {"l": 242.0, "t": 357.0, "r": 252.66666666666666, "b": 362.0, "coord_origin": "1"}}, {"id": 153, "text": "want", "bbox": {"l": 256.6666666666667, "t": 356.3333333333333, "r": 275.3333333333333, "b": 362.0, "coord_origin": "1"}}, {"id": 154, "text": "to", "bbox": {"l": 279.0, "t": 356.3333333333333, "r": 286.0, "b": 362.0, "coord_origin": "1"}}, {"id": 155, "text": "avoid.", "bbox": {"l": 50.333333333333336, "t": 367.0, "r": 73.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 156, "text": "As", "bbox": {"l": 78.0, "t": 367.0, "r": 88.66666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 157, "text": "such,", "bbox": {"l": 92.0, "t": 367.0, "r": 112.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 158, "text": "we", "bbox": {"l": 115.66666666666667, "t": 369.0, "r": 126.33333333333333, "b": 374.0, "coord_origin": "1"}}, {"id": 159, "text": "prefer", "bbox": {"l": 129.66666666666666, "t": 367.0, "r": 153.33333333333334, "b": 376.0, "coord_origin": "1"}}, {"id": 160, "text": "to", "bbox": {"l": 156.33333333333334, "t": 368.3333333333333, "r": 163.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 161, "text": "have", "bbox": {"l": 166.33333333333334, "t": 367.0, "r": 184.33333333333334, "b": 374.0, "coord_origin": "1"}}, {"id": 162, "text": "\u201cstrict\u201d", "bbox": {"l": 187.66666666666666, "t": 367.0, "r": 215.66666666666666, "b": 374.0, "coord_origin": "1"}}, {"id": 163, "text": "tables,", "bbox": {"l": 219.0, "t": 367.0, "r": 244.0, "b": 374.6666666666667, "coord_origin": "1"}}, {"id": 164, "text": "i.e.", "bbox": {"l": 247.66666666666666, "t": 367.0, "r": 258.6666666666667, "b": 374.0, "coord_origin": "1"}}, {"id": 165, "text": "tables", "bbox": {"l": 263.3333333333333, "t": 367.0, "r": 286.0, "b": 374.0, "coord_origin": "1"}}, {"id": 166, "text": "where", "bbox": {"l": 50.333333333333336, "t": 379.0, "r": 74.0, "b": 386.0, "coord_origin": "1"}}, {"id": 167, "text": "every", "bbox": {"l": 77.0, "t": 381.0, "r": 98.0, "b": 388.0, "coord_origin": "1"}}, {"id": 168, "text": "row", "bbox": {"l": 101.33333333333333, "t": 381.0, "r": 116.0, "b": 386.0, "coord_origin": "1"}}, {"id": 169, "text": "has", "bbox": {"l": 119.0, "t": 379.0, "r": 131.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 170, "text": "exactly", "bbox": {"l": 134.66666666666666, "t": 379.0, "r": 162.66666666666666, "b": 388.0, "coord_origin": "1"}}, {"id": 171, "text": "the", "bbox": {"l": 166.0, "t": 379.0, "r": 177.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 172, "text": "same", "bbox": {"l": 180.66666666666666, "t": 381.0, "r": 200.66666666666666, "b": 386.0, "coord_origin": "1"}}, {"id": 173, "text": "length.", "bbox": {"l": 203.66666666666666, "t": 379.0, "r": 230.0, "b": 388.0, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row or column spans. Therefore a strict HTML structure looks always rectangular. However, HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \u201cstrict\u201d tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 49.23150315284729, "t": 390.1776546478272, "r": 286.8056917190552, "b": 627.8492202758789, "coord_origin": "1"}, "confidence": 0.984846830368042, "cells": [{"id": 174, "text": "We", "bbox": {"l": 62.333333333333336, "t": 391.0, "r": 74.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 175, "text": "have", "bbox": {"l": 80.0, "t": 391.0, "r": 97.66666666666667, "b": 398.0, "coord_origin": "1"}}, {"id": 176, "text": "developed", "bbox": {"l": 102.66666666666667, "t": 391.0, "r": 142.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 147.66666666666666, "t": 393.0, "r": 151.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 178, "text": "technique", "bbox": {"l": 156.66666666666666, "t": 391.0, "r": 194.66666666666666, "b": 400.0, "coord_origin": "1"}}, {"id": 179, "text": "that", "bbox": {"l": 200.0, "t": 391.0, "r": 214.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 180, "text": "tries", "bbox": {"l": 219.33333333333334, "t": 391.0, "r": 235.66666666666666, "b": 398.0, "coord_origin": "1"}}, {"id": 181, "text": "to", "bbox": {"l": 241.0, "t": 392.3333333333333, "r": 248.33333333333334, "b": 398.0, "coord_origin": "1"}}, {"id": 182, "text": "derive", "bbox": {"l": 253.0, "t": 391.0, "r": 277.0, "b": 398.0, "coord_origin": "1"}}, {"id": 183, "text": "a", "bbox": {"l": 282.3333333333333, "t": 393.0, "r": 286.3333333333333, "b": 398.0, "coord_origin": "1"}}, {"id": 184, "text": "missing", "bbox": {"l": 50.333333333333336, "t": 403.0, "r": 80.66666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 185, "text": "bounding", "bbox": {"l": 84.33333333333333, "t": 403.0, "r": 121.33333333333333, "b": 412.0, "coord_origin": "1"}}, {"id": 186, "text": "box", "bbox": {"l": 125.0, "t": 403.0, "r": 139.0, "b": 410.0, "coord_origin": "1"}}, {"id": 187, "text": "out", "bbox": {"l": 142.66666666666666, "t": 404.3333333333333, "r": 155.0, "b": 410.0, "coord_origin": "1"}}, {"id": 188, "text": "of", "bbox": {"l": 158.33333333333334, "t": 403.0, "r": 167.0, "b": 410.0, "coord_origin": "1"}}, {"id": 189, "text": "its", "bbox": {"l": 169.66666666666666, "t": 403.0, "r": 178.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 190, "text": "neighbors.", "bbox": {"l": 182.0, "t": 403.0, "r": 222.66666666666666, "b": 412.0, "coord_origin": "1"}}, {"id": 191, "text": "As", "bbox": {"l": 228.33333333333334, "t": 403.0, "r": 238.66666666666666, "b": 410.0, "coord_origin": "1"}}, {"id": 192, "text": "a", "bbox": {"l": 239.33333333333334, "t": 401.6666666666667, "r": 243.66666666666666, "b": 413.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "first", "bbox": {"l": 250.0, "t": 403.0, "r": 264.6666666666667, "b": 410.0, "coord_origin": "1"}}, {"id": 194, "text": "step,", "bbox": {"l": 268.3333333333333, "t": 404.3333333333333, "r": 285.6666666666667, "b": 412.0, "coord_origin": "1"}}, {"id": 195, "text": "we", "bbox": {"l": 50.333333333333336, "t": 417.0, "r": 61.333333333333336, "b": 422.0, "coord_origin": "1"}}, {"id": 196, "text": "use", "bbox": {"l": 64.33333333333333, "t": 417.0, "r": 76.66666666666667, "b": 422.0, "coord_origin": "1"}}, {"id": 197, "text": "the", "bbox": {"l": 79.66666666666667, "t": 415.0, "r": 91.0, "b": 422.0, "coord_origin": "1"}}, {"id": 198, "text": "annotation", "bbox": {"l": 94.0, "t": 415.0, "r": 135.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 199, "text": "data", "bbox": {"l": 138.0, "t": 415.0, "r": 154.33333333333334, "b": 422.0, "coord_origin": "1"}}, {"id": 200, "text": "to", "bbox": {"l": 156.66666666666666, "t": 416.3333333333333, "r": 164.0, "b": 422.0, "coord_origin": "1"}}, {"id": 201, "text": "generate", "bbox": {"l": 166.66666666666666, "t": 416.3333333333333, "r": 199.66666666666666, "b": 424.0, "coord_origin": "1"}}, {"id": 202, "text": "the", "bbox": {"l": 202.66666666666666, "t": 415.0, "r": 214.0, "b": 422.0, "coord_origin": "1"}}, {"id": 203, "text": "most", "bbox": {"l": 217.0, "t": 416.3333333333333, "r": 235.66666666666666, "b": 422.0, "coord_origin": "1"}}, {"id": 204, "text": "fine-grained", "bbox": {"l": 238.66666666666666, "t": 415.0, "r": 286.0, "b": 424.0, "coord_origin": "1"}}, {"id": 205, "text": "grid", "bbox": {"l": 50.333333333333336, "t": 427.0, "r": 65.66666666666667, "b": 436.0, "coord_origin": "1"}}, {"id": 206, "text": "that", "bbox": {"l": 69.33333333333333, "t": 427.0, "r": 83.33333333333333, "b": 434.0, "coord_origin": "1"}}, {"id": 207, "text": "covers", "bbox": {"l": 86.66666666666667, "t": 429.0, "r": 112.0, "b": 434.0, "coord_origin": "1"}}, {"id": 208, "text": "the", "bbox": {"l": 115.33333333333333, "t": 427.0, "r": 126.66666666666667, "b": 434.0, "coord_origin": "1"}}, {"id": 209, "text": "table", "bbox": {"l": 130.33333333333334, "t": 427.0, "r": 149.0, "b": 434.0, "coord_origin": "1"}}, {"id": 210, "text": "structure.", "bbox": {"l": 152.66666666666666, "t": 428.3333333333333, "r": 188.66666666666666, "b": 434.0, "coord_origin": "1"}}, {"id": 211, "text": "In", "bbox": {"l": 193.66666666666666, "t": 427.0, "r": 201.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 212, "text": "case", "bbox": {"l": 204.66666666666666, "t": 429.0, "r": 221.33333333333334, "b": 434.0, "coord_origin": "1"}}, {"id": 213, "text": "of", "bbox": {"l": 224.66666666666666, "t": 427.0, "r": 233.0, "b": 434.0, "coord_origin": "1"}}, {"id": 214, "text": "strict", "bbox": {"l": 235.66666666666666, "t": 427.0, "r": 255.0, "b": 434.0, "coord_origin": "1"}}, {"id": 215, "text": "HTML", "bbox": {"l": 258.3333333333333, "t": 427.0, "r": 286.0, "b": 434.0, "coord_origin": "1"}}, {"id": 216, "text": "tables,", "bbox": {"l": 50.333333333333336, "t": 439.0, "r": 75.33333333333333, "b": 446.6666666666667, "coord_origin": "1"}}, {"id": 217, "text": "all", "bbox": {"l": 79.66666666666667, "t": 439.0, "r": 88.66666666666667, "b": 446.0, "coord_origin": "1"}}, {"id": 218, "text": "grid", "bbox": {"l": 92.66666666666667, "t": 439.0, "r": 108.0, "b": 448.0, "coord_origin": "1"}}, {"id": 219, "text": "squares", "bbox": {"l": 112.0, "t": 441.0, "r": 141.33333333333334, "b": 448.0, "coord_origin": "1"}}, {"id": 220, "text": "are", "bbox": {"l": 145.0, "t": 441.0, "r": 156.33333333333334, "b": 446.0, "coord_origin": "1"}}, {"id": 221, "text": "associated", "bbox": {"l": 160.33333333333334, "t": 439.0, "r": 200.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 222, "text": "with", "bbox": {"l": 204.66666666666666, "t": 439.0, "r": 221.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 223, "text": "some", "bbox": {"l": 225.66666666666666, "t": 441.0, "r": 245.66666666666666, "b": 446.0, "coord_origin": "1"}}, {"id": 224, "text": "table", "bbox": {"l": 249.66666666666666, "t": 439.0, "r": 268.3333333333333, "b": 446.0, "coord_origin": "1"}}, {"id": 225, "text": "cell", "bbox": {"l": 272.0, "t": 439.0, "r": 286.0, "b": 446.0, "coord_origin": "1"}}, {"id": 226, "text": "and", "bbox": {"l": 50.333333333333336, "t": 451.0, "r": 64.0, "b": 458.0, "coord_origin": "1"}}, {"id": 227, "text": "in", "bbox": {"l": 67.0, "t": 451.0, "r": 74.0, "b": 458.0, "coord_origin": "1"}}, {"id": 228, "text": "the", "bbox": {"l": 77.0, "t": 451.0, "r": 88.33333333333333, "b": 458.0, "coord_origin": "1"}}, {"id": 229, "text": "presence", "bbox": {"l": 91.33333333333333, "t": 453.0, "r": 125.33333333333333, "b": 460.0, "coord_origin": "1"}}, {"id": 230, "text": "of", "bbox": {"l": 128.33333333333334, "t": 451.0, "r": 137.0, "b": 458.0, "coord_origin": "1"}}, {"id": 231, "text": "table", "bbox": {"l": 139.0, "t": 451.0, "r": 157.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 232, "text": "spans", "bbox": {"l": 160.66666666666666, "t": 453.0, "r": 182.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 233, "text": "a", "bbox": {"l": 184.66666666666666, "t": 453.0, "r": 189.0, "b": 458.0, "coord_origin": "1"}}, {"id": 234, "text": "cell", "bbox": {"l": 191.33333333333334, "t": 451.0, "r": 205.0, "b": 458.0, "coord_origin": "1"}}, {"id": 235, "text": "extends", "bbox": {"l": 208.0, "t": 451.0, "r": 237.66666666666666, "b": 458.0, "coord_origin": "1"}}, {"id": 236, "text": "across", "bbox": {"l": 240.66666666666666, "t": 453.0, "r": 265.0, "b": 458.0, "coord_origin": "1"}}, {"id": 237, "text": "mul-", "bbox": {"l": 268.0, "t": 451.0, "r": 286.0, "b": 458.0, "coord_origin": "1"}}, {"id": 238, "text": "tiple", "bbox": {"l": 50.333333333333336, "t": 462.6666666666667, "r": 67.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 239, "text": "grid", "bbox": {"l": 70.0, "t": 462.6666666666667, "r": 85.33333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 240, "text": "squares.", "bbox": {"l": 88.33333333333333, "t": 464.6666666666667, "r": 119.66666666666667, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 241, "text": "When", "bbox": {"l": 123.33333333333333, "t": 462.6666666666667, "r": 146.66666666666666, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 242, "text": "enough", "bbox": {"l": 149.33333333333334, "t": 462.6666666666667, "r": 178.0, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 243, "text": "bounding", "bbox": {"l": 180.66666666666666, "t": 462.6666666666667, "r": 217.66666666666666, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 244, "text": "boxes", "bbox": {"l": 220.33333333333334, "t": 462.6666666666667, "r": 243.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 245, "text": "are", "bbox": {"l": 245.66666666666666, "t": 464.6666666666667, "r": 257.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 246, "text": "known", "bbox": {"l": 259.6666666666667, "t": 462.6666666666667, "r": 286.0, "b": 469.3333333333333, "coord_origin": "1"}}, {"id": 247, "text": "for", "bbox": {"l": 50.666666666666664, "t": 474.6666666666667, "r": 61.666666666666664, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 248, "text": "a", "bbox": {"l": 65.66666666666667, "t": 476.6666666666667, "r": 69.66666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 249, "text": "rectangular", "bbox": {"l": 73.66666666666667, "t": 474.6666666666667, "r": 118.33333333333333, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 250, "text": "table,", "bbox": {"l": 122.0, "t": 474.6666666666667, "r": 143.33333333333334, "b": 482.3333333333333, "coord_origin": "1"}}, {"id": 251, "text": "it", "bbox": {"l": 148.0, "t": 474.6666666666667, "r": 152.66666666666666, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 252, "text": "is", "bbox": {"l": 157.33333333333334, "t": 474.6666666666667, "r": 163.33333333333334, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 253, "text": "possible", "bbox": {"l": 167.33333333333334, "t": 474.6666666666667, "r": 199.33333333333334, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 254, "text": "to", "bbox": {"l": 203.66666666666666, "t": 475.6666666666667, "r": 211.0, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 255, "text": "compute", "bbox": {"l": 215.0, "t": 475.6666666666667, "r": 248.66666666666666, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 256, "text": "the", "bbox": {"l": 253.33333333333334, "t": 474.6666666666667, "r": 264.6666666666667, "b": 481.3333333333333, "coord_origin": "1"}}, {"id": 257, "text": "geo-", "bbox": {"l": 268.6666666666667, "t": 476.6666666666667, "r": 286.0, "b": 483.6666666666667, "coord_origin": "1"}}, {"id": 258, "text": "metrical", "bbox": {"l": 50.333333333333336, "t": 486.6666666666667, "r": 82.33333333333333, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 259, "text": "border", "bbox": {"l": 86.33333333333333, "t": 486.6666666666667, "r": 112.33333333333333, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 260, "text": "lines", "bbox": {"l": 116.0, "t": 486.6666666666667, "r": 134.0, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 261, "text": "between", "bbox": {"l": 138.0, "t": 486.6666666666667, "r": 170.66666666666666, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 262, "text": "the", "bbox": {"l": 174.66666666666666, "t": 486.6666666666667, "r": 186.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 263, "text": "grid", "bbox": {"l": 190.33333333333334, "t": 486.6666666666667, "r": 206.0, "b": 495.6666666666667, "coord_origin": "1"}}, {"id": 264, "text": "rows", "bbox": {"l": 210.0, "t": 488.6666666666667, "r": 228.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 265, "text": "and", "bbox": {"l": 232.33333333333334, "t": 486.6666666666667, "r": 246.33333333333334, "b": 493.3333333333333, "coord_origin": "1"}}, {"id": 266, "text": "columns.", "bbox": {"l": 250.33333333333334, "t": 486.6666666666667, "r": 285.6666666666667, "b": 493.6666666666667, "coord_origin": "1"}}, {"id": 267, "text": "Eventually", "bbox": {"l": 50.333333333333336, "t": 498.6666666666667, "r": 92.66666666666667, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 268, "text": "this", "bbox": {"l": 96.33333333333333, "t": 498.6666666666667, "r": 110.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 269, "text": "information", "bbox": {"l": 113.33333333333333, "t": 498.6666666666667, "r": 159.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 270, "text": "is", "bbox": {"l": 163.33333333333334, "t": 498.6666666666667, "r": 169.0, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 271, "text": "used", "bbox": {"l": 172.66666666666666, "t": 498.6666666666667, "r": 190.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 272, "text": "to", "bbox": {"l": 193.66666666666666, "t": 499.6666666666667, "r": 200.66666666666666, "b": 505.3333333333333, "coord_origin": "1"}}, {"id": 273, "text": "generate", "bbox": {"l": 204.0, "t": 500.0, "r": 237.33333333333334, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 274, "text": "the", "bbox": {"l": 240.66666666666666, "t": 498.6666666666667, "r": 252.0, "b": 505.6666666666667, "coord_origin": "1"}}, {"id": 275, "text": "missing", "bbox": {"l": 255.66666666666666, "t": 498.6666666666667, "r": 286.0, "b": 507.6666666666667, "coord_origin": "1"}}, {"id": 276, "text": "bounding", "bbox": {"l": 50.333333333333336, "t": 510.6666666666667, "r": 87.33333333333333, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 277, "text": "boxes.", "bbox": {"l": 90.66666666666667, "t": 510.6666666666667, "r": 115.33333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 278, "text": "Additionally,", "bbox": {"l": 119.66666666666667, "t": 510.6666666666667, "r": 171.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 279, "text": "the", "bbox": {"l": 174.66666666666666, "t": 510.6666666666667, "r": 186.0, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 280, "text": "existence", "bbox": {"l": 189.0, "t": 510.6666666666667, "r": 225.66666666666666, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 281, "text": "of", "bbox": {"l": 228.66666666666666, "t": 510.6666666666667, "r": 237.33333333333334, "b": 517.3333333333334, "coord_origin": "1"}}, {"id": 282, "text": "unused", "bbox": {"l": 240.0, "t": 510.6666666666667, "r": 267.3333333333333, "b": 517.6666666666666, "coord_origin": "1"}}, {"id": 283, "text": "grid", "bbox": {"l": 270.3333333333333, "t": 510.6666666666667, "r": 286.0, "b": 519.6666666666666, "coord_origin": "1"}}, {"id": 284, "text": "squares", "bbox": {"l": 50.333333333333336, "t": 524.6666666666666, "r": 79.66666666666667, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 285, "text": "indicates", "bbox": {"l": 83.33333333333333, "t": 522.6666666666666, "r": 118.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 286, "text": "that", "bbox": {"l": 122.0, "t": 522.6666666666666, "r": 136.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 287, "text": "the", "bbox": {"l": 140.0, "t": 522.6666666666666, "r": 151.33333333333334, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 288, "text": "table", "bbox": {"l": 155.33333333333334, "t": 522.6666666666666, "r": 174.0, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 289, "text": "rows", "bbox": {"l": 177.66666666666666, "t": 524.6666666666666, "r": 196.0, "b": 529.3333333333334, "coord_origin": "1"}}, {"id": 290, "text": "have", "bbox": {"l": 200.0, "t": 522.6666666666666, "r": 217.66666666666666, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 291, "text": "unequal", "bbox": {"l": 221.66666666666666, "t": 522.6666666666666, "r": 252.33333333333334, "b": 531.6666666666666, "coord_origin": "1"}}, {"id": 292, "text": "number", "bbox": {"l": 256.3333333333333, "t": 522.6666666666666, "r": 286.3333333333333, "b": 529.6666666666666, "coord_origin": "1"}}, {"id": 293, "text": "of", "bbox": {"l": 50.333333333333336, "t": 534.6666666666666, "r": 59.0, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 294, "text": "columns", "bbox": {"l": 61.0, "t": 534.6666666666666, "r": 94.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 295, "text": "and", "bbox": {"l": 97.66666666666667, "t": 534.6666666666666, "r": 111.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 296, "text": "the", "bbox": {"l": 114.66666666666667, "t": 534.6666666666666, "r": 126.33333333333333, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 297, "text": "overall", "bbox": {"l": 129.66666666666666, "t": 534.6666666666666, "r": 156.33333333333334, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 298, "text": "structure", "bbox": {"l": 159.66666666666666, "t": 536.0, "r": 193.66666666666666, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 299, "text": "is", "bbox": {"l": 197.33333333333334, "t": 534.6666666666666, "r": 203.33333333333334, "b": 541.3333333333334, "coord_origin": "1"}}, {"id": 300, "text": "non-strict.", "bbox": {"l": 206.66666666666666, "t": 534.6666666666666, "r": 246.0, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 301, "text": "The", "bbox": {"l": 250.66666666666666, "t": 534.6666666666666, "r": 265.6666666666667, "b": 541.6666666666666, "coord_origin": "1"}}, {"id": 302, "text": "gen-", "bbox": {"l": 268.6666666666667, "t": 536.6666666666666, "r": 286.0, "b": 543.6666666666666, "coord_origin": "1"}}, {"id": 303, "text": "eration", "bbox": {"l": 50.333333333333336, "t": 546.6666666666666, "r": 77.33333333333333, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 304, "text": "of", "bbox": {"l": 80.33333333333333, "t": 546.6666666666666, "r": 89.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 305, "text": "missing", "bbox": {"l": 91.33333333333333, "t": 546.6666666666666, "r": 121.66666666666667, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 306, "text": "bounding", "bbox": {"l": 125.0, "t": 546.6666666666666, "r": 162.0, "b": 555.6666666666666, "coord_origin": "1"}}, {"id": 307, "text": "boxes", "bbox": {"l": 165.0, "t": 546.6666666666666, "r": 187.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 308, "text": "for", "bbox": {"l": 190.66666666666666, "t": 546.6666666666666, "r": 202.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 309, "text": "non-strict", "bbox": {"l": 204.66666666666666, "t": 546.6666666666666, "r": 242.33333333333334, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 310, "text": "HTML", "bbox": {"l": 245.33333333333334, "t": 546.6666666666666, "r": 273.0, "b": 553.3333333333334, "coord_origin": "1"}}, {"id": 311, "text": "ta-", "bbox": {"l": 276.0, "t": 547.6666666666666, "r": 286.0, "b": 553.6666666666666, "coord_origin": "1"}}, {"id": 312, "text": "bles", "bbox": {"l": 50.333333333333336, "t": 558.6666666666666, "r": 65.66666666666667, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 313, "text": "is", "bbox": {"l": 70.0, "t": 558.6666666666666, "r": 76.0, "b": 565.3333333333334, "coord_origin": "1"}}, {"id": 314, "text": "ambiguous", "bbox": {"l": 80.0, "t": 558.6666666666666, "r": 123.33333333333333, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 315, "text": "and", "bbox": {"l": 127.66666666666667, "t": 558.6666666666666, "r": 141.33333333333334, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 316, "text": "therefore", "bbox": {"l": 145.66666666666666, "t": 558.6666666666666, "r": 181.0, "b": 565.6666666666666, "coord_origin": "1"}}, {"id": 317, "text": "quite", "bbox": {"l": 185.0, "t": 558.6666666666666, "r": 204.33333333333334, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 318, "text": "challenging.", "bbox": {"l": 208.66666666666666, "t": 558.6666666666666, "r": 256.6666666666667, "b": 567.6666666666666, "coord_origin": "1"}}, {"id": 319, "text": "Thus,", "bbox": {"l": 264.0, "t": 558.6666666666666, "r": 285.6666666666667, "b": 566.6666666666666, "coord_origin": "1"}}, {"id": 320, "text": "we", "bbox": {"l": 50.333333333333336, "t": 572.6666666666666, "r": 61.333333333333336, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 321, "text": "have", "bbox": {"l": 65.0, "t": 570.6666666666666, "r": 82.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 322, "text": "decided", "bbox": {"l": 86.33333333333333, "t": 570.6666666666666, "r": 116.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 323, "text": "to", "bbox": {"l": 120.33333333333333, "t": 572.0, "r": 127.66666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 324, "text": "simply", "bbox": {"l": 131.0, "t": 570.6666666666666, "r": 157.33333333333334, "b": 579.6666666666666, "coord_origin": "1"}}, {"id": 325, "text": "discard", "bbox": {"l": 161.0, "t": 570.6666666666666, "r": 189.33333333333334, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 326, "text": "those", "bbox": {"l": 192.66666666666666, "t": 570.6666666666666, "r": 213.0, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 327, "text": "tables.", "bbox": {"l": 216.66666666666666, "t": 570.6666666666666, "r": 241.66666666666666, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 328, "text": "In", "bbox": {"l": 247.0, "t": 570.6666666666666, "r": 254.66666666666666, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 329, "text": "case", "bbox": {"l": 258.0, "t": 572.6666666666666, "r": 274.6666666666667, "b": 577.6666666666666, "coord_origin": "1"}}, {"id": 330, "text": "of", "bbox": {"l": 278.3333333333333, "t": 570.6666666666666, "r": 286.6666666666667, "b": 577.3333333333334, "coord_origin": "1"}}, {"id": 331, "text": "PubTabNet", "bbox": {"l": 50.333333333333336, "t": 582.6666666666666, "r": 94.33333333333333, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 332, "text": "we", "bbox": {"l": 97.66666666666667, "t": 584.6666666666666, "r": 108.66666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 333, "text": "have", "bbox": {"l": 112.0, "t": 582.6666666666666, "r": 129.66666666666666, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 334, "text": "computed", "bbox": {"l": 133.0, "t": 582.6666666666666, "r": 171.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 335, "text": "missing", "bbox": {"l": 175.33333333333334, "t": 582.6666666666666, "r": 205.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 336, "text": "bounding", "bbox": {"l": 209.0, "t": 582.6666666666666, "r": 245.66666666666666, "b": 591.6666666666666, "coord_origin": "1"}}, {"id": 337, "text": "boxes", "bbox": {"l": 249.33333333333334, "t": 582.6666666666666, "r": 271.6666666666667, "b": 589.6666666666666, "coord_origin": "1"}}, {"id": 338, "text": "for", "bbox": {"l": 275.3333333333333, "t": 582.6666666666666, "r": 286.3333333333333, "b": 589.3333333333334, "coord_origin": "1"}}, {"id": 339, "text": "48%", "bbox": {"l": 50.0, "t": 594.0, "r": 67.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 340, "text": "of", "bbox": {"l": 71.0, "t": 594.0, "r": 79.66666666666667, "b": 601.0, "coord_origin": "1"}}, {"id": 341, "text": "the", "bbox": {"l": 82.0, "t": 594.0, "r": 93.33333333333333, "b": 601.0, "coord_origin": "1"}}, {"id": 342, "text": "simple", "bbox": {"l": 96.66666666666667, "t": 594.0, "r": 122.66666666666667, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 343, "text": "and", "bbox": {"l": 125.66666666666667, "t": 594.0, "r": 139.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 344, "text": "69%", "bbox": {"l": 142.66666666666666, "t": 594.3333333333334, "r": 160.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 345, "text": "of", "bbox": {"l": 163.33333333333334, "t": 594.0, "r": 172.0, "b": 601.0, "coord_origin": "1"}}, {"id": 346, "text": "the", "bbox": {"l": 174.33333333333334, "t": 594.0, "r": 185.66666666666666, "b": 601.0, "coord_origin": "1"}}, {"id": 347, "text": "complex", "bbox": {"l": 189.0, "t": 594.0, "r": 222.33333333333334, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 348, "text": "tables.", "bbox": {"l": 225.66666666666666, "t": 594.0, "r": 250.33333333333334, "b": 601.0, "coord_origin": "1"}}, {"id": 349, "text": "Regard-", "bbox": {"l": 254.66666666666666, "t": 594.0, "r": 286.0, "b": 603.3333333333334, "coord_origin": "1"}}, {"id": 350, "text": "ing", "bbox": {"l": 50.333333333333336, "t": 606.0, "r": 62.666666666666664, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 351, "text": "FinTabNet,", "bbox": {"l": 65.66666666666667, "t": 606.0, "r": 109.66666666666667, "b": 614.0, "coord_origin": "1"}}, {"id": 352, "text": "68%", "bbox": {"l": 113.33333333333333, "t": 606.0, "r": 130.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 353, "text": "of", "bbox": {"l": 134.0, "t": 606.0, "r": 142.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 354, "text": "the", "bbox": {"l": 145.0, "t": 606.0, "r": 156.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 355, "text": "simple", "bbox": {"l": 159.66666666666666, "t": 606.0, "r": 185.66666666666666, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 356, "text": "and", "bbox": {"l": 189.0, "t": 606.0, "r": 202.66666666666666, "b": 613.0, "coord_origin": "1"}}, {"id": 357, "text": "98%", "bbox": {"l": 205.66666666666666, "t": 606.0, "r": 223.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 358, "text": "of", "bbox": {"l": 226.66666666666666, "t": 606.0, "r": 235.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 359, "text": "the", "bbox": {"l": 237.66666666666666, "t": 606.0, "r": 249.33333333333334, "b": 613.0, "coord_origin": "1"}}, {"id": 360, "text": "complex", "bbox": {"l": 252.33333333333334, "t": 606.0, "r": 285.6666666666667, "b": 615.3333333333334, "coord_origin": "1"}}, {"id": 361, "text": "tables", "bbox": {"l": 50.333333333333336, "t": 618.0, "r": 73.0, "b": 625.0, "coord_origin": "1"}}, {"id": 362, "text": "require", "bbox": {"l": 76.0, "t": 618.0, "r": 103.66666666666667, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 363, "text": "the", "bbox": {"l": 106.66666666666667, "t": 618.0, "r": 118.33333333333333, "b": 625.0, "coord_origin": "1"}}, {"id": 364, "text": "generation", "bbox": {"l": 121.33333333333333, "t": 618.0, "r": 163.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 365, "text": "of", "bbox": {"l": 166.0, "t": 618.0, "r": 174.33333333333334, "b": 625.0, "coord_origin": "1"}}, {"id": 366, "text": "bounding", "bbox": {"l": 176.66666666666666, "t": 618.0, "r": 214.0, "b": 627.3333333333334, "coord_origin": "1"}}, {"id": 367, "text": "boxes.", "bbox": {"l": 217.0, "t": 618.0, "r": 241.66666666666666, "b": 625.0, "coord_origin": "1"}}]}, "text": "We have developed a technique that tries to derive a missing bounding box out of its neighbors. As a first step, we use the annotation data to generate the most fine-grained grid that covers the table structure. In case of strict HTML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally, the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML tables is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 48% of the simple and 69% of the complex tables. Regarding FinTabNet, 68% of the simple and 98% of the complex tables require the generation of bounding boxes."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 49.582130098342894, "t": 629.4500621795654, "r": 286.52977180480957, "b": 651.3333333333334, "coord_origin": "1"}, "confidence": 0.9544156193733215, "cells": [{"id": 368, "text": "Figure", "bbox": {"l": 62.333333333333336, "t": 630.6666666666666, "r": 87.66666666666667, "b": 639.6666666666666, "coord_origin": "1"}}, {"id": 369, "text": "7", "bbox": {"l": 91.66666666666667, "t": 630.6666666666666, "r": 96.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 370, "text": "illustrates", "bbox": {"l": 100.33333333333333, "t": 630.6666666666666, "r": 138.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 371, "text": "the", "bbox": {"l": 142.66666666666666, "t": 630.6666666666666, "r": 154.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 372, "text": "distribution", "bbox": {"l": 158.0, "t": 630.6666666666666, "r": 203.33333333333334, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 373, "text": "of", "bbox": {"l": 207.33333333333334, "t": 630.6666666666666, "r": 216.0, "b": 637.3333333333334, "coord_origin": "1"}}, {"id": 374, "text": "the", "bbox": {"l": 219.33333333333334, "t": 630.6666666666666, "r": 230.66666666666666, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 375, "text": "tables", "bbox": {"l": 235.0, "t": 630.6666666666666, "r": 257.6666666666667, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 376, "text": "across", "bbox": {"l": 261.6666666666667, "t": 632.6666666666666, "r": 286.0, "b": 637.6666666666666, "coord_origin": "1"}}, {"id": 377, "text": "different", "bbox": {"l": 50.333333333333336, "t": 642.0, "r": 83.66666666666667, "b": 649.0, "coord_origin": "1"}}, {"id": 378, "text": "dimensions", "bbox": {"l": 86.66666666666667, "t": 642.0, "r": 131.66666666666666, "b": 649.0, "coord_origin": "1"}}, {"id": 379, "text": "per", "bbox": {"l": 134.66666666666666, "t": 644.3333333333334, "r": 147.33333333333334, "b": 651.3333333333334, "coord_origin": "1"}}, {"id": 380, "text": "dataset.", "bbox": {"l": 149.66666666666666, "t": 642.0, "r": 179.0, "b": 649.0, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Section-header", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Section-header", "bbox": {"l": 50.19421706199646, "t": 661.5550827026367, "r": 153.73101997375488, "b": 672.0, "coord_origin": "1"}, "confidence": 0.9388316869735718, "cells": [{"id": 381, "text": "1.2.", "bbox": {"l": 51.0, "t": 662.0, "r": 66.0, "b": 669.6666666666666, "coord_origin": "1"}}, {"id": 382, "text": "Synthetic", "bbox": {"l": 69.66666666666667, "t": 662.0, "r": 113.0, "b": 672.0, "coord_origin": "1"}}, {"id": 383, "text": "datasets", "bbox": {"l": 116.0, "t": 662.0, "r": 153.33333333333334, "b": 669.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 49.35072433948517, "t": 680.2712127685546, "r": 286.8587745666504, "b": 714.3591110229492, "coord_origin": "1"}, "confidence": 0.9819585084915161, "cells": [{"id": 384, "text": "Aiming", "bbox": {"l": 62.333333333333336, "t": 681.0, "r": 92.0, "b": 690.0, "coord_origin": "1"}}, {"id": 385, "text": "to", "bbox": {"l": 96.66666666666667, "t": 682.3333333333334, "r": 104.0, "b": 688.0, "coord_origin": "1"}}, {"id": 386, "text": "train", "bbox": {"l": 108.66666666666667, "t": 681.0, "r": 126.33333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 387, "text": "and", "bbox": {"l": 130.66666666666666, "t": 681.0, "r": 144.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 388, "text": "evaluate", "bbox": {"l": 149.0, "t": 681.0, "r": 181.0, "b": 688.0, "coord_origin": "1"}}, {"id": 389, "text": "our", "bbox": {"l": 185.66666666666666, "t": 683.0, "r": 199.0, "b": 688.0, "coord_origin": "1"}}, {"id": 390, "text": "models", "bbox": {"l": 203.33333333333334, "t": 681.0, "r": 231.33333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 391, "text": "in", "bbox": {"l": 236.0, "t": 681.0, "r": 243.0, "b": 688.0, "coord_origin": "1"}}, {"id": 392, "text": "a", "bbox": {"l": 247.66666666666666, "t": 683.0, "r": 251.66666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 393, "text": "broader", "bbox": {"l": 256.0, "t": 681.0, "r": 286.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 394, "text": "spectrum", "bbox": {"l": 50.333333333333336, "t": 694.3333333333334, "r": 86.33333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 395, "text": "of", "bbox": {"l": 90.33333333333333, "t": 693.0, "r": 99.0, "b": 700.0, "coord_origin": "1"}}, {"id": 396, "text": "table", "bbox": {"l": 102.66666666666667, "t": 693.0, "r": 121.0, "b": 700.0, "coord_origin": "1"}}, {"id": 397, "text": "data", "bbox": {"l": 125.33333333333333, "t": 693.0, "r": 141.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 398, "text": "we", "bbox": {"l": 146.0, "t": 695.0, "r": 156.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 399, "text": "have", "bbox": {"l": 161.0, "t": 693.0, "r": 179.0, "b": 700.0, "coord_origin": "1"}}, {"id": 400, "text": "synthesized", "bbox": {"l": 183.33333333333334, "t": 693.0, "r": 229.0, "b": 702.0, "coord_origin": "1"}}, {"id": 401, "text": "four", "bbox": {"l": 233.33333333333334, "t": 693.0, "r": 249.66666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 402, "text": "types", "bbox": {"l": 253.66666666666666, "t": 694.3333333333334, "r": 274.0, "b": 702.0, "coord_origin": "1"}}, {"id": 403, "text": "of", "bbox": {"l": 278.3333333333333, "t": 693.0, "r": 286.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 404, "text": "datasets.", "bbox": {"l": 50.333333333333336, "t": 705.0, "r": 83.33333333333333, "b": 712.0, "coord_origin": "1"}}, {"id": 405, "text": "Each", "bbox": {"l": 91.66666666666667, "t": 705.0, "r": 110.66666666666667, "b": 712.0, "coord_origin": "1"}}, {"id": 406, "text": "one", "bbox": {"l": 115.0, "t": 707.0, "r": 129.0, "b": 712.0, "coord_origin": "1"}}, {"id": 407, "text": "contains", "bbox": {"l": 133.33333333333334, "t": 705.0, "r": 166.0, "b": 712.0, "coord_origin": "1"}}, {"id": 408, "text": "tables", "bbox": {"l": 170.33333333333334, "t": 705.0, "r": 193.0, "b": 712.0, "coord_origin": "1"}}, {"id": 409, "text": "with", "bbox": {"l": 197.66666666666666, "t": 705.0, "r": 214.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 410, "text": "different", "bbox": {"l": 219.0, "t": 705.0, "r": 252.66666666666666, "b": 712.0, "coord_origin": "1"}}, {"id": 411, "text": "appear-", "bbox": {"l": 257.0, "t": 707.0, "r": 286.0, "b": 714.0, "coord_origin": "1"}}]}, "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 307.9883451461792, "t": 161.2776746749878, "r": 545.328935623169, "b": 207.15086460113525, "coord_origin": "1"}, "confidence": 0.964142918586731, "cells": [{"id": 412, "text": "ances", "bbox": {"l": 309.0, "t": 164.0, "r": 330.6666666666667, "b": 169.0, "coord_origin": "1"}}, {"id": 413, "text": "in", "bbox": {"l": 335.0, "t": 162.0, "r": 342.0, "b": 169.0, "coord_origin": "1"}}, {"id": 414, "text": "regard", "bbox": {"l": 346.6666666666667, "t": 162.0, "r": 371.0, "b": 171.0, "coord_origin": "1"}}, {"id": 415, "text": "to", "bbox": {"l": 375.6666666666667, "t": 163.33333333333337, "r": 383.0, "b": 169.0, "coord_origin": "1"}}, {"id": 416, "text": "their", "bbox": {"l": 387.3333333333333, "t": 162.0, "r": 405.0, "b": 169.0, "coord_origin": "1"}}, {"id": 417, "text": "size,", "bbox": {"l": 409.3333333333333, "t": 162.0, "r": 426.3333333333333, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 418, "text": "structure,", "bbox": {"l": 431.3333333333333, "t": 163.33333333333337, "r": 468.0, "b": 169.66666666666663, "coord_origin": "1"}}, {"id": 419, "text": "style", "bbox": {"l": 472.6666666666667, "t": 162.0, "r": 491.0, "b": 171.0, "coord_origin": "1"}}, {"id": 420, "text": "and", "bbox": {"l": 495.3333333333333, "t": 162.0, "r": 509.0, "b": 169.0, "coord_origin": "1"}}, {"id": 421, "text": "content.", "bbox": {"l": 513.3333333333334, "t": 163.33333333333337, "r": 544.3333333333334, "b": 169.0, "coord_origin": "1"}}, {"id": 422, "text": "Every", "bbox": {"l": 309.0, "t": 174.0, "r": 332.0, "b": 183.0, "coord_origin": "1"}}, {"id": 423, "text": "synthetic", "bbox": {"l": 336.0, "t": 174.0, "r": 371.0, "b": 183.0, "coord_origin": "1"}}, {"id": 424, "text": "dataset", "bbox": {"l": 374.6666666666667, "t": 174.0, "r": 402.0, "b": 181.0, "coord_origin": "1"}}, {"id": 425, "text": "contains", "bbox": {"l": 405.6666666666667, "t": 174.0, "r": 438.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 426, "text": "150k", "bbox": {"l": 443.3333333333333, "t": 174.0, "r": 461.3333333333333, "b": 181.0, "coord_origin": "1"}}, {"id": 427, "text": "examples,", "bbox": {"l": 465.0, "t": 174.0, "r": 504.0, "b": 183.0, "coord_origin": "1"}}, {"id": 428, "text": "summing", "bbox": {"l": 508.3333333333333, "t": 174.0, "r": 544.6666666666666, "b": 183.0, "coord_origin": "1"}}, {"id": 429, "text": "up", "bbox": {"l": 309.0, "t": 188.0, "r": 318.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 430, "text": "to", "bbox": {"l": 321.3333333333333, "t": 187.33333333333337, "r": 328.3333333333333, "b": 193.0, "coord_origin": "1"}}, {"id": 431, "text": "600k", "bbox": {"l": 331.3333333333333, "t": 186.0, "r": 350.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 432, "text": "synthetic", "bbox": {"l": 353.6666666666667, "t": 186.0, "r": 388.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 433, "text": "examples.", "bbox": {"l": 391.6666666666667, "t": 186.0, "r": 430.6666666666667, "b": 195.0, "coord_origin": "1"}}, {"id": 434, "text": "All", "bbox": {"l": 434.6666666666667, "t": 186.0, "r": 446.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 435, "text": "datasets", "bbox": {"l": 449.6666666666667, "t": 186.0, "r": 480.6666666666667, "b": 193.0, "coord_origin": "1"}}, {"id": 436, "text": "are", "bbox": {"l": 483.3333333333333, "t": 188.0, "r": 495.0, "b": 193.0, "coord_origin": "1"}}, {"id": 437, "text": "divided", "bbox": {"l": 497.6666666666667, "t": 186.0, "r": 527.0, "b": 193.0, "coord_origin": "1"}}, {"id": 438, "text": "into", "bbox": {"l": 530.0, "t": 186.0, "r": 545.0, "b": 193.0, "coord_origin": "1"}}, {"id": 439, "text": "Train,", "bbox": {"l": 309.0, "t": 198.0, "r": 332.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 440, "text": "Test", "bbox": {"l": 335.0, "t": 198.0, "r": 351.3333333333333, "b": 205.0, "coord_origin": "1"}}, {"id": 441, "text": "and", "bbox": {"l": 354.3333333333333, "t": 198.0, "r": 368.0, "b": 205.0, "coord_origin": "1"}}, {"id": 442, "text": "Val", "bbox": {"l": 371.0, "t": 198.0, "r": 383.6666666666667, "b": 205.0, "coord_origin": "1"}}, {"id": 443, "text": "splits", "bbox": {"l": 387.0, "t": 198.0, "r": 407.3333333333333, "b": 207.0, "coord_origin": "1"}}, {"id": 444, "text": "(80%,", "bbox": {"l": 410.3333333333333, "t": 198.0, "r": 433.6666666666667, "b": 206.33333333333337, "coord_origin": "1"}}, {"id": 445, "text": "10%,", "bbox": {"l": 438.0, "t": 198.0, "r": 457.0, "b": 205.66666666666663, "coord_origin": "1"}}, {"id": 446, "text": "10%).", "bbox": {"l": 461.3333333333333, "t": 198.0, "r": 483.3333333333333, "b": 206.33333333333337, "coord_origin": "1"}}]}, "text": "ances in regard to their size, structure, style and content. Every synthetic dataset contains 150k examples, summing up to 600k synthetic examples. All datasets are divided into Train, Test and Val splits (80%, 10%, 10%)."}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 308.1005807876587, "t": 210.2167625427246, "r": 544.8379119873047, "b": 232.248779296875, "coord_origin": "1"}, "confidence": 0.9521399736404419, "cells": [{"id": 447, "text": "The", "bbox": {"l": 321.0, "t": 211.0, "r": 336.0, "b": 218.0, "coord_origin": "1"}}, {"id": 448, "text": "process", "bbox": {"l": 339.3333333333333, "t": 213.0, "r": 368.6666666666667, "b": 220.0, "coord_origin": "1"}}, {"id": 449, "text": "of", "bbox": {"l": 372.0, "t": 211.0, "r": 380.3333333333333, "b": 218.0, "coord_origin": "1"}}, {"id": 450, "text": "generating", "bbox": {"l": 382.6666666666667, "t": 211.0, "r": 424.3333333333333, "b": 220.0, "coord_origin": "1"}}, {"id": 451, "text": "a", "bbox": {"l": 427.6666666666667, "t": 213.0, "r": 431.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 452, "text": "synthetic", "bbox": {"l": 435.0, "t": 211.0, "r": 470.0, "b": 220.0, "coord_origin": "1"}}, {"id": 453, "text": "dataset", "bbox": {"l": 473.3333333333333, "t": 211.0, "r": 500.6666666666667, "b": 218.0, "coord_origin": "1"}}, {"id": 454, "text": "can", "bbox": {"l": 504.0, "t": 213.0, "r": 517.0, "b": 218.0, "coord_origin": "1"}}, {"id": 455, "text": "be", "bbox": {"l": 520.6666666666666, "t": 211.0, "r": 529.0, "b": 218.0, "coord_origin": "1"}}, {"id": 456, "text": "de-", "bbox": {"l": 532.6666666666666, "t": 211.0, "r": 544.6666666666666, "b": 218.0, "coord_origin": "1"}}, {"id": 457, "text": "composed", "bbox": {"l": 309.0, "t": 223.0, "r": 348.6666666666667, "b": 232.0, "coord_origin": "1"}}, {"id": 458, "text": "into", "bbox": {"l": 352.0, "t": 223.0, "r": 367.0, "b": 230.0, "coord_origin": "1"}}, {"id": 459, "text": "the", "bbox": {"l": 370.0, "t": 223.0, "r": 381.3333333333333, "b": 230.0, "coord_origin": "1"}}, {"id": 460, "text": "following", "bbox": {"l": 384.6666666666667, "t": 223.0, "r": 422.3333333333333, "b": 232.0, "coord_origin": "1"}}, {"id": 461, "text": "steps:", "bbox": {"l": 425.6666666666667, "t": 224.33333333333337, "r": 447.0, "b": 232.0, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 308.125590133667, "t": 234.65651893615723, "r": 545.2532947540284, "b": 315.57367858886715, "coord_origin": "1"}, "confidence": 0.9635394811630249, "cells": [{"id": 462, "text": "1.", "bbox": {"l": 322.3333333333333, "t": 235.66666666666663, "r": 327.3333333333333, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 463, "text": "Prepare", "bbox": {"l": 335.6666666666667, "t": 235.33333333333337, "r": 365.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 464, "text": "styling", "bbox": {"l": 370.0, "t": 235.33333333333337, "r": 396.3333333333333, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 465, "text": "and", "bbox": {"l": 400.6666666666667, "t": 235.33333333333337, "r": 414.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 466, "text": "content", "bbox": {"l": 419.0, "t": 236.66666666666663, "r": 447.6666666666667, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 467, "text": "templates:", "bbox": {"l": 452.3333333333333, "t": 235.33333333333337, "r": 492.0, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 468, "text": "The", "bbox": {"l": 498.6666666666667, "t": 235.33333333333337, "r": 513.6666666666666, "b": 242.33333333333337, "coord_origin": "1"}}, {"id": 469, "text": "styling", "bbox": {"l": 518.3333333333334, "t": 235.33333333333337, "r": 544.6666666666666, "b": 244.66666666666663, "coord_origin": "1"}}, {"id": 470, "text": "templates", "bbox": {"l": 309.0, "t": 247.33333333333337, "r": 346.6666666666667, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 471, "text": "have", "bbox": {"l": 350.0, "t": 247.33333333333337, "r": 368.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 472, "text": "been", "bbox": {"l": 371.3333333333333, "t": 247.33333333333337, "r": 389.3333333333333, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 473, "text": "manually", "bbox": {"l": 393.0, "t": 247.33333333333337, "r": 429.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 474, "text": "designed", "bbox": {"l": 432.3333333333333, "t": 247.33333333333337, "r": 467.3333333333333, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 475, "text": "and", "bbox": {"l": 471.0, "t": 247.33333333333337, "r": 484.6666666666667, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 476, "text": "organized", "bbox": {"l": 488.0, "t": 247.33333333333337, "r": 526.3333333333334, "b": 256.66666666666674, "coord_origin": "1"}}, {"id": 477, "text": "into", "bbox": {"l": 530.0, "t": 247.33333333333337, "r": 545.0, "b": 254.33333333333337, "coord_origin": "1"}}, {"id": 478, "text": "groups", "bbox": {"l": 309.0, "t": 261.66666666666674, "r": 335.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 479, "text": "of", "bbox": {"l": 339.6666666666667, "t": 259.33333333333326, "r": 348.3333333333333, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 480, "text": "scope", "bbox": {"l": 351.6666666666667, "t": 261.66666666666674, "r": 373.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 481, "text": "specific", "bbox": {"l": 378.0, "t": 259.33333333333326, "r": 407.6666666666667, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 482, "text": "appearances", "bbox": {"l": 412.0, "t": 261.66666666666674, "r": 460.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 483, "text": "(e.g.", "bbox": {"l": 464.3333333333333, "t": 260.0, "r": 481.0, "b": 268.66666666666674, "coord_origin": "1"}}, {"id": 484, "text": "financial", "bbox": {"l": 488.6666666666667, "t": 259.33333333333326, "r": 522.0, "b": 266.33333333333326, "coord_origin": "1"}}, {"id": 485, "text": "data,", "bbox": {"l": 526.0, "t": 259.33333333333326, "r": 544.3333333333334, "b": 267.0, "coord_origin": "1"}}, {"id": 486, "text": "marketing", "bbox": {"l": 309.0, "t": 271.33333333333326, "r": 349.0, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 487, "text": "data,", "bbox": {"l": 353.0, "t": 271.33333333333326, "r": 371.3333333333333, "b": 279.33333333333326, "coord_origin": "1"}}, {"id": 488, "text": "etc.)", "bbox": {"l": 376.0, "t": 271.66666666666674, "r": 393.0, "b": 279.66666666666674, "coord_origin": "1"}}, {"id": 489, "text": "Additionally,", "bbox": {"l": 400.3333333333333, "t": 271.33333333333326, "r": 451.6666666666667, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 490, "text": "we", "bbox": {"l": 456.6666666666667, "t": 273.66666666666674, "r": 467.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 491, "text": "have", "bbox": {"l": 472.0, "t": 271.33333333333326, "r": 489.6666666666667, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 492, "text": "prepared", "bbox": {"l": 494.0, "t": 271.33333333333326, "r": 528.3333333333334, "b": 280.6666666666667, "coord_origin": "1"}}, {"id": 493, "text": "cu-", "bbox": {"l": 532.3333333333334, "t": 273.66666666666674, "r": 544.6666666666666, "b": 278.33333333333326, "coord_origin": "1"}}, {"id": 494, "text": "rated", "bbox": {"l": 309.0, "t": 283.3333333333333, "r": 328.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 495, "text": "collections", "bbox": {"l": 331.0, "t": 283.3333333333333, "r": 373.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 496, "text": "of", "bbox": {"l": 376.3333333333333, "t": 283.3333333333333, "r": 384.6666666666667, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 497, "text": "content", "bbox": {"l": 386.3333333333333, "t": 284.6666666666667, "r": 415.3333333333333, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 498, "text": "templates", "bbox": {"l": 418.0, "t": 283.3333333333333, "r": 455.6666666666667, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 499, "text": "by", "bbox": {"l": 458.0, "t": 283.3333333333333, "r": 467.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 500, "text": "extracting", "bbox": {"l": 470.0, "t": 283.3333333333333, "r": 509.3333333333333, "b": 292.6666666666667, "coord_origin": "1"}}, {"id": 501, "text": "the", "bbox": {"l": 511.6666666666667, "t": 283.3333333333333, "r": 523.3333333333334, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 502, "text": "most", "bbox": {"l": 526.0, "t": 284.6666666666667, "r": 544.6666666666666, "b": 290.3333333333333, "coord_origin": "1"}}, {"id": 503, "text": "frequently", "bbox": {"l": 309.3333333333333, "t": 295.3333333333333, "r": 349.3333333333333, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 504, "text": "used", "bbox": {"l": 354.6666666666667, "t": 295.3333333333333, "r": 372.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 505, "text": "terms", "bbox": {"l": 377.0, "t": 296.6666666666667, "r": 398.3333333333333, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 506, "text": "out", "bbox": {"l": 403.3333333333333, "t": 296.6666666666667, "r": 415.6666666666667, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 507, "text": "of", "bbox": {"l": 420.3333333333333, "t": 295.3333333333333, "r": 429.0, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 508, "text": "non-synthetic", "bbox": {"l": 433.0, "t": 295.3333333333333, "r": 486.6666666666667, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 509, "text": "datasets", "bbox": {"l": 491.6666666666667, "t": 295.3333333333333, "r": 522.6666666666666, "b": 302.3333333333333, "coord_origin": "1"}}, {"id": 510, "text": "(e.g.", "bbox": {"l": 527.6666666666666, "t": 295.6666666666667, "r": 544.3333333333334, "b": 304.6666666666667, "coord_origin": "1"}}, {"id": 511, "text": "PubTabNet,", "bbox": {"l": 309.0, "t": 307.0, "r": 355.3333333333333, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 512, "text": "FinTabNet,", "bbox": {"l": 358.6666666666667, "t": 307.0, "r": 402.6666666666667, "b": 314.6666666666667, "coord_origin": "1"}}, {"id": 513, "text": "etc.).", "bbox": {"l": 406.0, "t": 307.6666666666667, "r": 425.0, "b": 315.3333333333333, "coord_origin": "1"}}]}, "text": "1. Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data, marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets (e.g. PubTabNet, FinTabNet, etc.)."}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 307.878706741333, "t": 319.05648880004884, "r": 545.4119888305664, "b": 448.9612838745117, "coord_origin": "1"}, "confidence": 0.9608827829360962, "cells": [{"id": 514, "text": "2.", "bbox": {"l": 321.0, "t": 320.0, "r": 327.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 515, "text": "Generate", "bbox": {"l": 333.0, "t": 320.0, "r": 368.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 516, "text": "table", "bbox": {"l": 372.0, "t": 320.0, "r": 390.6666666666667, "b": 327.0, "coord_origin": "1"}}, {"id": 517, "text": "structures:", "bbox": {"l": 394.3333333333333, "t": 321.0, "r": 434.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 518, "text": "The", "bbox": {"l": 439.3333333333333, "t": 320.0, "r": 454.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 519, "text": "structure", "bbox": {"l": 458.0, "t": 321.3333333333333, "r": 492.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 520, "text": "of", "bbox": {"l": 495.6666666666667, "t": 320.0, "r": 504.3333333333333, "b": 327.0, "coord_origin": "1"}}, {"id": 521, "text": "each", "bbox": {"l": 507.0, "t": 320.0, "r": 524.6666666666666, "b": 327.0, "coord_origin": "1"}}, {"id": 522, "text": "syn-", "bbox": {"l": 528.3333333333334, "t": 322.0, "r": 544.6666666666666, "b": 329.0, "coord_origin": "1"}}, {"id": 523, "text": "thetic", "bbox": {"l": 309.0, "t": 332.0, "r": 330.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 524, "text": "dataset", "bbox": {"l": 334.3333333333333, "t": 332.0, "r": 361.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 525, "text": "assumes", "bbox": {"l": 365.0, "t": 334.0, "r": 397.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 526, "text": "a", "bbox": {"l": 401.3333333333333, "t": 334.0, "r": 405.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 527, "text": "horizontal", "bbox": {"l": 409.0, "t": 332.0, "r": 448.6666666666667, "b": 339.0, "coord_origin": "1"}}, {"id": 528, "text": "table", "bbox": {"l": 452.6666666666667, "t": 332.0, "r": 471.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 529, "text": "header", "bbox": {"l": 475.0, "t": 332.0, "r": 501.3333333333333, "b": 339.0, "coord_origin": "1"}}, {"id": 530, "text": "which", "bbox": {"l": 504.6666666666667, "t": 332.0, "r": 528.3333333333334, "b": 339.0, "coord_origin": "1"}}, {"id": 531, "text": "po-", "bbox": {"l": 532.0, "t": 334.0, "r": 544.6666666666666, "b": 341.0, "coord_origin": "1"}}, {"id": 532, "text": "tentially", "bbox": {"l": 309.0, "t": 344.0, "r": 341.0, "b": 353.0, "coord_origin": "1"}}, {"id": 533, "text": "spans", "bbox": {"l": 346.0, "t": 346.0, "r": 367.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 534, "text": "over", "bbox": {"l": 372.3333333333333, "t": 346.0, "r": 389.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 535, "text": "multiple", "bbox": {"l": 394.3333333333333, "t": 344.0, "r": 426.6666666666667, "b": 353.0, "coord_origin": "1"}}, {"id": 536, "text": "rows", "bbox": {"l": 431.6666666666667, "t": 346.0, "r": 450.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 537, "text": "and", "bbox": {"l": 455.0, "t": 344.0, "r": 468.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 538, "text": "a", "bbox": {"l": 473.6666666666667, "t": 346.0, "r": 477.6666666666667, "b": 351.0, "coord_origin": "1"}}, {"id": 539, "text": "table", "bbox": {"l": 482.6666666666667, "t": 344.0, "r": 501.3333333333333, "b": 351.0, "coord_origin": "1"}}, {"id": 540, "text": "body", "bbox": {"l": 506.3333333333333, "t": 344.0, "r": 525.3333333333334, "b": 353.0, "coord_origin": "1"}}, {"id": 541, "text": "that", "bbox": {"l": 530.6666666666666, "t": 344.0, "r": 544.6666666666666, "b": 351.0, "coord_origin": "1"}}, {"id": 542, "text": "may", "bbox": {"l": 309.0, "t": 358.0, "r": 325.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 543, "text": "contain", "bbox": {"l": 328.3333333333333, "t": 356.0, "r": 357.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 544, "text": "a", "bbox": {"l": 360.3333333333333, "t": 358.0, "r": 364.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 545, "text": "combination", "bbox": {"l": 367.0, "t": 356.0, "r": 416.0, "b": 363.0, "coord_origin": "1"}}, {"id": 546, "text": "of", "bbox": {"l": 419.0, "t": 356.0, "r": 427.6666666666667, "b": 363.0, "coord_origin": "1"}}, {"id": 547, "text": "row", "bbox": {"l": 429.6666666666667, "t": 358.0, "r": 444.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 548, "text": "spans", "bbox": {"l": 447.3333333333333, "t": 358.0, "r": 468.6666666666667, "b": 365.0, "coord_origin": "1"}}, {"id": 549, "text": "and", "bbox": {"l": 471.6666666666667, "t": 356.0, "r": 485.3333333333333, "b": 363.0, "coord_origin": "1"}}, {"id": 550, "text": "column", "bbox": {"l": 488.3333333333333, "t": 356.0, "r": 517.6666666666666, "b": 363.0, "coord_origin": "1"}}, {"id": 551, "text": "spans.", "bbox": {"l": 520.6666666666666, "t": 358.0, "r": 544.3333333333334, "b": 365.0, "coord_origin": "1"}}, {"id": 552, "text": "However,", "bbox": {"l": 309.3333333333333, "t": 368.0, "r": 346.3333333333333, "b": 375.6666666666667, "coord_origin": "1"}}, {"id": 553, "text": "spans", "bbox": {"l": 350.3333333333333, "t": 370.0, "r": 371.6666666666667, "b": 377.0, "coord_origin": "1"}}, {"id": 554, "text": "are", "bbox": {"l": 375.3333333333333, "t": 370.0, "r": 386.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 555, "text": "not", "bbox": {"l": 390.3333333333333, "t": 369.0, "r": 402.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 556, "text": "allowed", "bbox": {"l": 406.0, "t": 368.0, "r": 436.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 557, "text": "to", "bbox": {"l": 440.3333333333333, "t": 369.3333333333333, "r": 447.6666666666667, "b": 375.0, "coord_origin": "1"}}, {"id": 558, "text": "cross", "bbox": {"l": 451.0, "t": 370.0, "r": 471.0, "b": 375.0, "coord_origin": "1"}}, {"id": 559, "text": "the", "bbox": {"l": 474.6666666666667, "t": 368.0, "r": 486.0, "b": 375.0, "coord_origin": "1"}}, {"id": 560, "text": "header", "bbox": {"l": 489.6666666666667, "t": 368.0, "r": 516.0, "b": 375.0, "coord_origin": "1"}}, {"id": 561, "text": "-", "bbox": {"l": 519.3333333333334, "t": 372.0, "r": 521.6666666666666, "b": 373.0, "coord_origin": "1"}}, {"id": 562, "text": "body", "bbox": {"l": 525.3333333333334, "t": 368.0, "r": 544.6666666666666, "b": 377.0, "coord_origin": "1"}}, {"id": 563, "text": "boundary.", "bbox": {"l": 309.0, "t": 380.0, "r": 347.6666666666667, "b": 389.0, "coord_origin": "1"}}, {"id": 564, "text": "The", "bbox": {"l": 353.6666666666667, "t": 380.0, "r": 368.6666666666667, "b": 387.0, "coord_origin": "1"}}, {"id": 565, "text": "table", "bbox": {"l": 372.3333333333333, "t": 380.0, "r": 391.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 566, "text": "structure", "bbox": {"l": 395.0, "t": 381.3333333333333, "r": 429.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 567, "text": "is", "bbox": {"l": 433.0, "t": 380.0, "r": 439.0, "b": 387.0, "coord_origin": "1"}}, {"id": 568, "text": "described", "bbox": {"l": 442.6666666666667, "t": 380.0, "r": 480.3333333333333, "b": 387.0, "coord_origin": "1"}}, {"id": 569, "text": "by", "bbox": {"l": 484.3333333333333, "t": 380.0, "r": 493.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 570, "text": "the", "bbox": {"l": 497.3333333333333, "t": 380.0, "r": 509.0, "b": 387.0, "coord_origin": "1"}}, {"id": 571, "text": "parame-", "bbox": {"l": 512.6666666666666, "t": 382.0, "r": 544.6666666666666, "b": 389.0, "coord_origin": "1"}}, {"id": 572, "text": "ters:", "bbox": {"l": 309.0, "t": 392.6666666666667, "r": 325.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 573, "text": "Total", "bbox": {"l": 331.0, "t": 391.6666666666667, "r": 350.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 574, "text": "number", "bbox": {"l": 354.6666666666667, "t": 391.6666666666667, "r": 385.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 575, "text": "of", "bbox": {"l": 388.6666666666667, "t": 391.3333333333333, "r": 397.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 576, "text": "table", "bbox": {"l": 400.3333333333333, "t": 391.6666666666667, "r": 419.0, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 577, "text": "rows", "bbox": {"l": 423.0, "t": 393.6666666666667, "r": 441.6666666666667, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 578, "text": "and", "bbox": {"l": 445.6666666666667, "t": 391.3333333333333, "r": 459.3333333333333, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 579, "text": "columns,", "bbox": {"l": 463.3333333333333, "t": 391.3333333333333, "r": 498.6666666666667, "b": 399.0, "coord_origin": "1"}}, {"id": 580, "text": "number", "bbox": {"l": 503.3333333333333, "t": 391.3333333333333, "r": 533.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 581, "text": "of", "bbox": {"l": 537.0, "t": 391.3333333333333, "r": 545.3333333333334, "b": 398.3333333333333, "coord_origin": "1"}}, {"id": 582, "text": "header", "bbox": {"l": 309.0, "t": 403.3333333333333, "r": 335.3333333333333, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 583, "text": "rows,", "bbox": {"l": 339.3333333333333, "t": 405.6666666666667, "r": 360.3333333333333, "b": 411.3333333333333, "coord_origin": "1"}}, {"id": 584, "text": "type", "bbox": {"l": 365.3333333333333, "t": 404.6666666666667, "r": 381.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 585, "text": "of", "bbox": {"l": 386.3333333333333, "t": 403.3333333333333, "r": 394.6666666666667, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 586, "text": "spans", "bbox": {"l": 398.6666666666667, "t": 405.6666666666667, "r": 420.0, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 587, "text": "(header", "bbox": {"l": 424.6666666666667, "t": 403.3333333333333, "r": 454.0, "b": 411.6666666666667, "coord_origin": "1"}}, {"id": 588, "text": "only", "bbox": {"l": 458.0, "t": 403.6666666666667, "r": 475.3333333333333, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 589, "text": "spans,", "bbox": {"l": 480.0, "t": 405.6666666666667, "r": 503.6666666666667, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 590, "text": "row", "bbox": {"l": 508.3333333333333, "t": 405.6666666666667, "r": 523.0, "b": 410.3333333333333, "coord_origin": "1"}}, {"id": 591, "text": "only", "bbox": {"l": 527.6666666666666, "t": 403.6666666666667, "r": 544.6666666666666, "b": 412.6666666666667, "coord_origin": "1"}}, {"id": 592, "text": "spans,", "bbox": {"l": 309.0, "t": 417.6666666666667, "r": 333.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 593, "text": "column", "bbox": {"l": 338.3333333333333, "t": 415.6666666666667, "r": 367.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 594, "text": "only", "bbox": {"l": 372.3333333333333, "t": 415.6666666666667, "r": 389.3333333333333, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 595, "text": "spans,", "bbox": {"l": 394.3333333333333, "t": 417.6666666666667, "r": 418.0, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 596, "text": "both", "bbox": {"l": 423.6666666666667, "t": 415.6666666666667, "r": 440.6666666666667, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 597, "text": "row", "bbox": {"l": 445.3333333333333, "t": 417.6666666666667, "r": 460.0, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 598, "text": "and", "bbox": {"l": 464.6666666666667, "t": 415.6666666666667, "r": 478.3333333333333, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 599, "text": "column", "bbox": {"l": 483.3333333333333, "t": 415.6666666666667, "r": 512.6666666666666, "b": 422.3333333333333, "coord_origin": "1"}}, {"id": 600, "text": "spans),", "bbox": {"l": 517.3333333333334, "t": 415.6666666666667, "r": 544.3333333333334, "b": 424.6666666666667, "coord_origin": "1"}}, {"id": 601, "text": "maximum", "bbox": {"l": 309.0, "t": 427.3333333333333, "r": 348.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 602, "text": "span", "bbox": {"l": 352.6666666666667, "t": 429.6666666666667, "r": 370.0, "b": 436.6666666666667, "coord_origin": "1"}}, {"id": 603, "text": "size", "bbox": {"l": 374.0, "t": 427.3333333333333, "r": 388.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 604, "text": "and", "bbox": {"l": 392.0, "t": 427.6666666666667, "r": 406.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 605, "text": "the", "bbox": {"l": 409.6666666666667, "t": 427.6666666666667, "r": 421.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 606, "text": "ratio", "bbox": {"l": 424.6666666666667, "t": 427.3333333333333, "r": 442.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 607, "text": "of", "bbox": {"l": 445.6666666666667, "t": 427.3333333333333, "r": 454.3333333333333, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 608, "text": "the", "bbox": {"l": 457.3333333333333, "t": 427.6666666666667, "r": 468.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 609, "text": "table", "bbox": {"l": 472.3333333333333, "t": 427.6666666666667, "r": 491.0, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 610, "text": "area", "bbox": {"l": 494.6666666666667, "t": 429.6666666666667, "r": 510.6666666666667, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 611, "text": "covered", "bbox": {"l": 514.0, "t": 427.6666666666667, "r": 544.6666666666666, "b": 434.3333333333333, "coord_origin": "1"}}, {"id": 612, "text": "by", "bbox": {"l": 309.0, "t": 439.6666666666667, "r": 318.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 613, "text": "spans.", "bbox": {"l": 321.6666666666667, "t": 441.6666666666667, "r": 345.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}]}, "text": "2. Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header -body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans."}, {"label": "List-item", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "List-item", "bbox": {"l": 307.8202835083008, "t": 451.2748741149902, "r": 545.5395744323731, "b": 497.0, "coord_origin": "1"}, "confidence": 0.9603065252304077, "cells": [{"id": 614, "text": "3.", "bbox": {"l": 321.0, "t": 452.3333333333333, "r": 327.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 615, "text": "Generate", "bbox": {"l": 331.3333333333333, "t": 452.3333333333333, "r": 366.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 616, "text": "content:", "bbox": {"l": 369.6666666666667, "t": 453.6666666666667, "r": 401.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 617, "text": "Based", "bbox": {"l": 405.0, "t": 452.3333333333333, "r": 428.6666666666667, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 618, "text": "on", "bbox": {"l": 431.3333333333333, "t": 454.6666666666667, "r": 441.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 619, "text": "the", "bbox": {"l": 444.0, "t": 452.3333333333333, "r": 455.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 620, "text": "dataset", "bbox": {"l": 458.3333333333333, "t": 452.3333333333333, "r": 485.3333333333333, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 621, "text": "theme,", "bbox": {"l": 488.3333333333333, "t": 452.3333333333333, "r": 513.6666666666666, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 622, "text": "a", "bbox": {"l": 517.0, "t": 454.6666666666667, "r": 521.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 623, "text": "set", "bbox": {"l": 523.6666666666666, "t": 453.6666666666667, "r": 534.0, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 624, "text": "of", "bbox": {"l": 537.0, "t": 452.3333333333333, "r": 545.3333333333334, "b": 459.3333333333333, "coord_origin": "1"}}, {"id": 625, "text": "suitable", "bbox": {"l": 309.0, "t": 464.0, "r": 339.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 626, "text": "content", "bbox": {"l": 342.3333333333333, "t": 465.3333333333333, "r": 371.0, "b": 471.0, "coord_origin": "1"}}, {"id": 627, "text": "templates", "bbox": {"l": 374.0, "t": 464.0, "r": 411.3333333333333, "b": 473.0, "coord_origin": "1"}}, {"id": 628, "text": "is", "bbox": {"l": 414.3333333333333, "t": 464.0, "r": 420.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 629, "text": "chosen", "bbox": {"l": 423.0, "t": 464.0, "r": 450.3333333333333, "b": 471.0, "coord_origin": "1"}}, {"id": 630, "text": "first.", "bbox": {"l": 453.3333333333333, "t": 464.0, "r": 470.0, "b": 471.0, "coord_origin": "1"}}, {"id": 631, "text": "Then,", "bbox": {"l": 474.0, "t": 464.0, "r": 496.3333333333333, "b": 471.6666666666667, "coord_origin": "1"}}, {"id": 632, "text": "this", "bbox": {"l": 499.3333333333333, "t": 464.0, "r": 513.3333333333334, "b": 471.0, "coord_origin": "1"}}, {"id": 633, "text": "content", "bbox": {"l": 516.0, "t": 465.3333333333333, "r": 544.6666666666666, "b": 471.0, "coord_origin": "1"}}, {"id": 634, "text": "can", "bbox": {"l": 309.0, "t": 478.0, "r": 322.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 635, "text": "be", "bbox": {"l": 326.6666666666667, "t": 476.0, "r": 335.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 636, "text": "combined", "bbox": {"l": 339.6666666666667, "t": 476.0, "r": 378.3333333333333, "b": 483.0, "coord_origin": "1"}}, {"id": 637, "text": "with", "bbox": {"l": 383.0, "t": 476.0, "r": 400.0, "b": 483.0, "coord_origin": "1"}}, {"id": 638, "text": "purely", "bbox": {"l": 404.0, "t": 476.0, "r": 428.6666666666667, "b": 485.0, "coord_origin": "1"}}, {"id": 639, "text": "random", "bbox": {"l": 433.3333333333333, "t": 476.0, "r": 463.0, "b": 483.0, "coord_origin": "1"}}, {"id": 640, "text": "text", "bbox": {"l": 467.3333333333333, "t": 477.3333333333333, "r": 481.6666666666667, "b": 483.0, "coord_origin": "1"}}, {"id": 641, "text": "to", "bbox": {"l": 486.0, "t": 477.3333333333333, "r": 493.0, "b": 483.0, "coord_origin": "1"}}, {"id": 642, "text": "produce", "bbox": {"l": 497.3333333333333, "t": 476.0, "r": 528.6666666666666, "b": 485.0, "coord_origin": "1"}}, {"id": 643, "text": "the", "bbox": {"l": 533.3333333333334, "t": 476.0, "r": 544.6666666666666, "b": 483.0, "coord_origin": "1"}}, {"id": 644, "text": "synthetic", "bbox": {"l": 309.0, "t": 488.0, "r": 344.3333333333333, "b": 497.0, "coord_origin": "1"}}, {"id": 645, "text": "content.", "bbox": {"l": 347.3333333333333, "t": 489.0, "r": 378.3333333333333, "b": 495.0, "coord_origin": "1"}}]}, "text": "3. Generate content: Based on the dataset theme, a set of suitable content templates is chosen first. Then, this content can be combined with purely random text to produce the synthetic content."}, {"label": "List-item", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "List-item", "bbox": {"l": 308.00366592407227, "t": 500.1433216094971, "r": 545.3137607574463, "b": 545.9656414031982, "coord_origin": "1"}, "confidence": 0.9657202959060669, "cells": [{"id": 646, "text": "4.", "bbox": {"l": 320.6666666666667, "t": 501.0, "r": 327.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 647, "text": "Apply", "bbox": {"l": 334.3333333333333, "t": 501.0, "r": 358.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 648, "text": "styling", "bbox": {"l": 363.0, "t": 501.0, "r": 389.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 649, "text": "templates:", "bbox": {"l": 393.3333333333333, "t": 501.0, "r": 433.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 650, "text": "Depending", "bbox": {"l": 439.3333333333333, "t": 501.0, "r": 482.3333333333333, "b": 510.0, "coord_origin": "1"}}, {"id": 651, "text": "on", "bbox": {"l": 486.3333333333333, "t": 503.0, "r": 495.6666666666667, "b": 508.0, "coord_origin": "1"}}, {"id": 652, "text": "the", "bbox": {"l": 500.0, "t": 501.0, "r": 511.3333333333333, "b": 508.0, "coord_origin": "1"}}, {"id": 653, "text": "domain", "bbox": {"l": 515.3333333333334, "t": 501.0, "r": 544.6666666666666, "b": 508.0, "coord_origin": "1"}}, {"id": 654, "text": "of", "bbox": {"l": 309.0, "t": 513.0, "r": 317.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 655, "text": "the", "bbox": {"l": 321.3333333333333, "t": 513.0, "r": 332.6666666666667, "b": 520.0, "coord_origin": "1"}}, {"id": 656, "text": "synthetic", "bbox": {"l": 337.3333333333333, "t": 513.0, "r": 372.3333333333333, "b": 522.0, "coord_origin": "1"}}, {"id": 657, "text": "dataset,", "bbox": {"l": 376.6666666666667, "t": 513.0, "r": 406.3333333333333, "b": 520.6666666666666, "coord_origin": "1"}}, {"id": 658, "text": "a", "bbox": {"l": 411.3333333333333, "t": 515.0, "r": 415.3333333333333, "b": 520.0, "coord_origin": "1"}}, {"id": 659, "text": "set", "bbox": {"l": 419.6666666666667, "t": 514.0, "r": 430.0, "b": 520.0, "coord_origin": "1"}}, {"id": 660, "text": "of", "bbox": {"l": 434.3333333333333, "t": 513.0, "r": 443.0, "b": 520.0, "coord_origin": "1"}}, {"id": 661, "text": "styling", "bbox": {"l": 446.6666666666667, "t": 513.0, "r": 473.0, "b": 522.0, "coord_origin": "1"}}, {"id": 662, "text": "templates", "bbox": {"l": 477.3333333333333, "t": 513.0, "r": 515.0, "b": 522.0, "coord_origin": "1"}}, {"id": 663, "text": "is", "bbox": {"l": 519.6666666666666, "t": 513.0, "r": 525.3333333333334, "b": 520.0, "coord_origin": "1"}}, {"id": 664, "text": "first", "bbox": {"l": 530.0, "t": 513.0, "r": 544.6666666666666, "b": 520.0, "coord_origin": "1"}}, {"id": 665, "text": "manually", "bbox": {"l": 309.0, "t": 525.0, "r": 345.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 666, "text": "selected.", "bbox": {"l": 350.0, "t": 525.0, "r": 383.6666666666667, "b": 532.0, "coord_origin": "1"}}, {"id": 667, "text": "Then,", "bbox": {"l": 391.3333333333333, "t": 525.0, "r": 413.6666666666667, "b": 532.6666666666666, "coord_origin": "1"}}, {"id": 668, "text": "a", "bbox": {"l": 418.3333333333333, "t": 527.0, "r": 422.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 669, "text": "style", "bbox": {"l": 427.0, "t": 525.0, "r": 445.0, "b": 534.0, "coord_origin": "1"}}, {"id": 670, "text": "is", "bbox": {"l": 449.3333333333333, "t": 525.0, "r": 455.3333333333333, "b": 532.0, "coord_origin": "1"}}, {"id": 671, "text": "randomly", "bbox": {"l": 459.6666666666667, "t": 525.0, "r": 497.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 672, "text": "selected", "bbox": {"l": 502.0, "t": 525.0, "r": 533.3333333333334, "b": 532.0, "coord_origin": "1"}}, {"id": 673, "text": "to", "bbox": {"l": 537.6666666666666, "t": 526.0, "r": 545.0, "b": 532.0, "coord_origin": "1"}}, {"id": 674, "text": "format", "bbox": {"l": 309.3333333333333, "t": 536.3333333333334, "r": 335.0, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 675, "text": "the", "bbox": {"l": 338.0, "t": 536.3333333333334, "r": 349.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 676, "text": "appearance", "bbox": {"l": 352.6666666666667, "t": 538.6666666666666, "r": 397.0, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 677, "text": "of", "bbox": {"l": 400.0, "t": 536.3333333333334, "r": 408.6666666666667, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 678, "text": "the", "bbox": {"l": 411.0, "t": 536.6666666666666, "r": 422.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}, {"id": 679, "text": "synthesized", "bbox": {"l": 425.6666666666667, "t": 536.3333333333334, "r": 471.3333333333333, "b": 545.6666666666666, "coord_origin": "1"}}, {"id": 680, "text": "table.", "bbox": {"l": 474.6666666666667, "t": 536.3333333333334, "r": 495.3333333333333, "b": 543.3333333333334, "coord_origin": "1"}}]}, "text": "4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates is first manually selected. Then, a style is randomly selected to format the appearance of the synthesized table."}, {"label": "List-item", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "List-item", "bbox": {"l": 308.0375467300415, "t": 548.446646118164, "r": 545.3392078399658, "b": 606.7925354003906, "coord_origin": "1"}, "confidence": 0.970611035823822, "cells": [{"id": 681, "text": "5.", "bbox": {"l": 321.0, "t": 549.3333333333334, "r": 327.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 682, "text": "Render", "bbox": {"l": 335.6666666666667, "t": 549.3333333333334, "r": 364.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 683, "text": "the", "bbox": {"l": 368.3333333333333, "t": 549.3333333333334, "r": 379.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 684, "text": "complete", "bbox": {"l": 384.0, "t": 549.3333333333334, "r": 420.0, "b": 558.6666666666666, "coord_origin": "1"}}, {"id": 685, "text": "tables:", "bbox": {"l": 424.6666666666667, "t": 549.3333333333334, "r": 449.6666666666667, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 686, "text": "The", "bbox": {"l": 456.3333333333333, "t": 549.3333333333334, "r": 471.3333333333333, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 687, "text": "synthetic", "bbox": {"l": 475.6666666666667, "t": 549.3333333333334, "r": 511.0, "b": 558.3333333333334, "coord_origin": "1"}}, {"id": 688, "text": "table", "bbox": {"l": 515.3333333333334, "t": 549.3333333333334, "r": 534.3333333333334, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 689, "text": "is", "bbox": {"l": 538.6666666666666, "t": 549.3333333333334, "r": 544.6666666666666, "b": 556.3333333333334, "coord_origin": "1"}}, {"id": 690, "text": "finally", "bbox": {"l": 309.3333333333333, "t": 561.3333333333334, "r": 333.6666666666667, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 691, "text": "rendered", "bbox": {"l": 338.0, "t": 561.3333333333334, "r": 372.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 692, "text": "by", "bbox": {"l": 376.6666666666667, "t": 561.3333333333334, "r": 386.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 693, "text": "a", "bbox": {"l": 390.3333333333333, "t": 563.6666666666666, "r": 394.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 694, "text": "web", "bbox": {"l": 398.6666666666667, "t": 561.3333333333334, "r": 414.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 695, "text": "browser", "bbox": {"l": 418.6666666666667, "t": 561.3333333333334, "r": 450.3333333333333, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 696, "text": "engine", "bbox": {"l": 454.0, "t": 561.3333333333334, "r": 480.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 697, "text": "to", "bbox": {"l": 484.3333333333333, "t": 562.6666666666666, "r": 491.6666666666667, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 698, "text": "generate", "bbox": {"l": 495.6666666666667, "t": 562.6666666666666, "r": 529.0, "b": 570.6666666666666, "coord_origin": "1"}}, {"id": 699, "text": "the", "bbox": {"l": 533.3333333333334, "t": 561.3333333333334, "r": 544.6666666666666, "b": 568.3333333333334, "coord_origin": "1"}}, {"id": 700, "text": "bounding", "bbox": {"l": 309.0, "t": 573.3333333333334, "r": 346.0, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 701, "text": "boxes", "bbox": {"l": 349.0, "t": 573.3333333333334, "r": 371.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 702, "text": "for", "bbox": {"l": 375.0, "t": 573.3333333333334, "r": 386.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 703, "text": "each", "bbox": {"l": 388.6666666666667, "t": 573.3333333333334, "r": 406.3333333333333, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 704, "text": "table", "bbox": {"l": 409.3333333333333, "t": 573.3333333333334, "r": 428.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 705, "text": "cell.", "bbox": {"l": 431.0, "t": 573.3333333333334, "r": 447.0, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 706, "text": "A", "bbox": {"l": 451.3333333333333, "t": 573.6666666666666, "r": 457.6666666666667, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 707, "text": "batching", "bbox": {"l": 460.6666666666667, "t": 573.3333333333334, "r": 494.6666666666667, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 708, "text": "technique", "bbox": {"l": 497.6666666666667, "t": 573.3333333333334, "r": 535.6666666666666, "b": 582.6666666666666, "coord_origin": "1"}}, {"id": 709, "text": "is", "bbox": {"l": 538.6666666666666, "t": 573.3333333333334, "r": 544.6666666666666, "b": 580.3333333333334, "coord_origin": "1"}}, {"id": 710, "text": "utilized", "bbox": {"l": 309.0, "t": 585.3333333333334, "r": 338.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 711, "text": "to", "bbox": {"l": 342.3333333333333, "t": 586.6666666666666, "r": 349.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 712, "text": "optimize", "bbox": {"l": 353.3333333333333, "t": 585.3333333333334, "r": 387.3333333333333, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 713, "text": "the", "bbox": {"l": 391.3333333333333, "t": 585.3333333333334, "r": 402.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 714, "text": "runtime", "bbox": {"l": 406.6666666666667, "t": 585.3333333333334, "r": 437.0, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 715, "text": "overhead", "bbox": {"l": 440.6666666666667, "t": 585.3333333333334, "r": 476.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 716, "text": "of", "bbox": {"l": 480.3333333333333, "t": 585.3333333333334, "r": 488.6666666666667, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 717, "text": "the", "bbox": {"l": 492.0, "t": 585.3333333333334, "r": 503.3333333333333, "b": 592.3333333333334, "coord_origin": "1"}}, {"id": 718, "text": "rendering", "bbox": {"l": 507.0, "t": 585.3333333333334, "r": 544.6666666666666, "b": 594.6666666666666, "coord_origin": "1"}}, {"id": 719, "text": "process.", "bbox": {"l": 309.0, "t": 599.6666666666666, "r": 340.3333333333333, "b": 606.6666666666666, "coord_origin": "1"}}]}, "text": "5. Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 308.09985122680666, "t": 621.3707748413086, "r": 544.6666666666666, "b": 644.6323608398437, "coord_origin": "1"}, "confidence": 0.9487533569335938, "cells": [{"id": 720, "text": "2.", "bbox": {"l": 309.0, "t": 622.0, "r": 317.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 721, "text": "Prediction", "bbox": {"l": 323.6666666666667, "t": 622.0, "r": 376.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 722, "text": "post-processing", "bbox": {"l": 382.6666666666667, "t": 622.0, "r": 461.0, "b": 632.6666666666666, "coord_origin": "1"}}, {"id": 723, "text": "for", "bbox": {"l": 467.0, "t": 622.0, "r": 481.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 724, "text": "PDF", "bbox": {"l": 487.6666666666667, "t": 622.0, "r": 510.3333333333333, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 725, "text": "docu-", "bbox": {"l": 516.6666666666666, "t": 622.0, "r": 544.6666666666666, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 726, "text": "ments", "bbox": {"l": 327.0, "t": 636.6666666666666, "r": 357.0, "b": 644.3333333333334, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 308.2200536727905, "t": 656.1616401672363, "r": 545.1013710021972, "b": 714.3270858764648, "coord_origin": "1"}, "confidence": 0.9845826029777527, "cells": [{"id": 727, "text": "Although", "bbox": {"l": 321.0, "t": 657.0, "r": 358.0, "b": 666.0, "coord_origin": "1"}}, {"id": 728, "text": "TableFormer", "bbox": {"l": 360.3333333333333, "t": 657.0, "r": 411.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 729, "text": "can", "bbox": {"l": 413.3333333333333, "t": 659.0, "r": 426.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 730, "text": "predict", "bbox": {"l": 429.3333333333333, "t": 657.0, "r": 456.3333333333333, "b": 666.0, "coord_origin": "1"}}, {"id": 731, "text": "the", "bbox": {"l": 459.0, "t": 657.0, "r": 470.3333333333333, "b": 664.0, "coord_origin": "1"}}, {"id": 732, "text": "table", "bbox": {"l": 473.0, "t": 657.0, "r": 491.6666666666667, "b": 664.0, "coord_origin": "1"}}, {"id": 733, "text": "structure", "bbox": {"l": 494.3333333333333, "t": 658.3333333333334, "r": 528.3333333333334, "b": 664.0, "coord_origin": "1"}}, {"id": 734, "text": "and", "bbox": {"l": 531.0, "t": 657.0, "r": 544.6666666666666, "b": 664.0, "coord_origin": "1"}}, {"id": 735, "text": "the", "bbox": {"l": 309.0, "t": 669.0, "r": 320.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 736, "text": "bounding", "bbox": {"l": 323.6666666666667, "t": 669.0, "r": 361.0, "b": 678.0, "coord_origin": "1"}}, {"id": 737, "text": "boxes", "bbox": {"l": 364.0, "t": 669.0, "r": 386.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 738, "text": "for", "bbox": {"l": 389.6666666666667, "t": 669.0, "r": 401.0, "b": 676.0, "coord_origin": "1"}}, {"id": 739, "text": "tables", "bbox": {"l": 403.6666666666667, "t": 669.0, "r": 426.3333333333333, "b": 676.0, "coord_origin": "1"}}, {"id": 740, "text": "recognized", "bbox": {"l": 429.3333333333333, "t": 669.0, "r": 472.3333333333333, "b": 678.0, "coord_origin": "1"}}, {"id": 741, "text": "inside", "bbox": {"l": 475.6666666666667, "t": 669.0, "r": 498.6666666666667, "b": 676.0, "coord_origin": "1"}}, {"id": 742, "text": "PDF", "bbox": {"l": 502.0, "t": 669.0, "r": 520.0, "b": 676.0, "coord_origin": "1"}}, {"id": 743, "text": "docu-", "bbox": {"l": 522.6666666666666, "t": 669.0, "r": 544.6666666666666, "b": 676.0, "coord_origin": "1"}}, {"id": 744, "text": "ments,", "bbox": {"l": 309.0, "t": 682.3333333333334, "r": 334.6666666666667, "b": 688.6666666666666, "coord_origin": "1"}}, {"id": 745, "text": "this", "bbox": {"l": 338.6666666666667, "t": 681.0, "r": 352.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 746, "text": "is", "bbox": {"l": 356.0, "t": 681.0, "r": 361.6666666666667, "b": 688.0, "coord_origin": "1"}}, {"id": 747, "text": "not", "bbox": {"l": 365.3333333333333, "t": 682.3333333333334, "r": 377.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 748, "text": "enough", "bbox": {"l": 381.0, "t": 681.0, "r": 409.6666666666667, "b": 690.0, "coord_origin": "1"}}, {"id": 749, "text": "when", "bbox": {"l": 413.3333333333333, "t": 681.0, "r": 434.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 750, "text": "a", "bbox": {"l": 434.6666666666667, "t": 679.6666666666666, "r": 438.6666666666667, "b": 691.6666666666666, "coord_origin": "1"}}, {"id": 751, "text": "full", "bbox": {"l": 445.3333333333333, "t": 681.0, "r": 458.3333333333333, "b": 688.0, "coord_origin": "1"}}, {"id": 752, "text": "reconstruction", "bbox": {"l": 462.0, "t": 681.0, "r": 518.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 753, "text": "of", "bbox": {"l": 521.6666666666666, "t": 681.0, "r": 530.3333333333334, "b": 688.0, "coord_origin": "1"}}, {"id": 754, "text": "the", "bbox": {"l": 533.3333333333334, "t": 681.0, "r": 544.6666666666666, "b": 688.0, "coord_origin": "1"}}, {"id": 755, "text": "original", "bbox": {"l": 309.0, "t": 693.0, "r": 339.3333333333333, "b": 702.0, "coord_origin": "1"}}, {"id": 756, "text": "table", "bbox": {"l": 342.6666666666667, "t": 693.0, "r": 361.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 757, "text": "is", "bbox": {"l": 365.0, "t": 693.0, "r": 370.6666666666667, "b": 700.0, "coord_origin": "1"}}, {"id": 758, "text": "required.", "bbox": {"l": 374.0, "t": 693.0, "r": 408.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 759, "text": "This", "bbox": {"l": 413.0, "t": 693.0, "r": 430.3333333333333, "b": 700.0, "coord_origin": "1"}}, {"id": 760, "text": "happens", "bbox": {"l": 433.6666666666667, "t": 693.0, "r": 465.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 761, "text": "mainly", "bbox": {"l": 469.0, "t": 693.0, "r": 495.6666666666667, "b": 702.0, "coord_origin": "1"}}, {"id": 762, "text": "due", "bbox": {"l": 499.0, "t": 693.0, "r": 512.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 763, "text": "the", "bbox": {"l": 516.3333333333334, "t": 693.0, "r": 527.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 764, "text": "fol-", "bbox": {"l": 531.0, "t": 693.0, "r": 544.6666666666666, "b": 700.0, "coord_origin": "1"}}, {"id": 765, "text": "lowing", "bbox": {"l": 309.3333333333333, "t": 705.0, "r": 336.0, "b": 714.0, "coord_origin": "1"}}, {"id": 766, "text": "reasons:", "bbox": {"l": 339.0, "t": 707.0, "r": 370.6666666666667, "b": 712.0, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF documents, this is not enough when a full reconstruction of the original table is required. This happens mainly due the following reasons:"}], "headers": []}}] \ No newline at end of file +[{"page_no": 0, "page_hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "size": {"width": 612.0530395507812, "height": 792.0686645507812}, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 133.0, "t": 671.0686645507812, "r": 465.0, "b": 682.0686645507812, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 220.66666666666666, "t": 656.7353312174479, "r": 374.6666666666667, "b": 670.4019978841146, "coord_origin": "1"}}, {"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 51.0, "t": 623.0686645507812, "r": 175.66666666666666, "b": 631.7353312174479, "coord_origin": "1"}}, {"id": 3, "text": "1.1. Data preparation", "bbox": {"l": 51.0, "t": 601.7353312174479, "r": 150.0, "b": 611.7353312174479, "coord_origin": "1"}}, {"id": 4, "text": "As a first step of our data preparation process, we have", "bbox": {"l": 62.333333333333336, "t": 583.4019978841146, "r": 286.0, "b": 592.7353312174479, "coord_origin": "1"}}, {"id": 5, "text": "calculated statistics over the datasets across the following", "bbox": {"l": 50.333333333333336, "t": 571.4019978841146, "r": 286.0, "b": 580.7353312174479, "coord_origin": "1"}}, {"id": 6, "text": "dimensions: (1) table size measured 1n the number of rows", "bbox": {"l": 50.333333333333336, "t": 560.4019978841146, "r": 286.0, "b": 568.7353312174479, "coord_origin": "1"}}, {"id": 7, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 50.333333333333336, "t": 547.4019978841146, "r": 286.6666666666667, "b": 556.7353312174479, "coord_origin": "1"}}, {"id": 8, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 50.333333333333336, "t": 535.4019978841145, "r": 286.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 9, "text": "omitted bounding boxes). A table is considered to be simple", "bbox": {"l": 50.333333333333336, "t": 523.4019978841145, "r": 286.0, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 10, "text": "if it does not contain row spans or column spans. Addition-", "bbox": {"l": 50.333333333333336, "t": 511.40199788411456, "r": 286.0, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 11, "text": "ally, a table has a strict HI ML structure 1f every row has the", "bbox": {"l": 50.333333333333336, "t": 500.06866455078125, "r": 286.0, "b": 509.06866455078125, "coord_origin": "1"}}, {"id": 12, "text": "same number of columns after taking into account any row", "bbox": {"l": 50.333333333333336, "t": 488.06866455078125, "r": 286.0, "b": 497.06866455078125, "coord_origin": "1"}}, {"id": 13, "text": "or column spans. [Therefore a strict HI ML structure looks", "bbox": {"l": 50.333333333333336, "t": 476.06866455078125, "r": 286.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 14, "text": "always rectangular. However, HI ML 1s a lenient encoding", "bbox": {"l": 50.333333333333336, "t": 464.06866455078125, "r": 286.0, "b": 473.06866455078125, "coord_origin": "1"}}, {"id": 15, "text": "format, 1.e. tables with rows of different sizes might still", "bbox": {"l": 50.666666666666664, "t": 452.06866455078125, "r": 286.0, "b": 461.06866455078125, "coord_origin": "1"}}, {"id": 16, "text": "be regarded as correct due to implicit display rules. [hese", "bbox": {"l": 50.333333333333336, "t": 440.06866455078125, "r": 286.0, "b": 449.06866455078125, "coord_origin": "1"}}, {"id": 17, "text": "implicit rules leave room for ambiguity, which we want to", "bbox": {"l": 50.333333333333336, "t": 428.06866455078125, "r": 286.0, "b": 437.06866455078125, "coord_origin": "1"}}, {"id": 18, "text": "avoid. As such, we prefer to have \u2018strict\u2019 tables, 1.e. tables", "bbox": {"l": 50.333333333333336, "t": 416.06866455078125, "r": 286.0, "b": 425.06866455078125, "coord_origin": "1"}}, {"id": 19, "text": "where every row has exactly the same length.", "bbox": {"l": 50.333333333333336, "t": 404.06866455078125, "r": 230.0, "b": 413.06866455078125, "coord_origin": "1"}}, {"id": 20, "text": "We have developed a technique that tries to derive a", "bbox": {"l": 62.333333333333336, "t": 392.06866455078125, "r": 286.3333333333333, "b": 401.06866455078125, "coord_origin": "1"}}, {"id": 21, "text": "missing bounding box out of its neighbors. As a first step.", "bbox": {"l": 50.333333333333336, "t": 380.06866455078125, "r": 285.6666666666667, "b": 389.06866455078125, "coord_origin": "1"}}, {"id": 22, "text": "we use the annotation data to generate the most fine-grained", "bbox": {"l": 50.333333333333336, "t": 368.06866455078125, "r": 286.0, "b": 377.06866455078125, "coord_origin": "1"}}, {"id": 23, "text": "erid that covers the table structure. In case of strict HIML", "bbox": {"l": 50.333333333333336, "t": 356.06866455078125, "r": 286.0, "b": 365.06866455078125, "coord_origin": "1"}}, {"id": 24, "text": "tables, all grid squares are associated with some table cell", "bbox": {"l": 50.333333333333336, "t": 344.06866455078125, "r": 286.0, "b": 353.06866455078125, "coord_origin": "1"}}, {"id": 25, "text": "and in the presence of table spans a cell extends across mul-", "bbox": {"l": 50.333333333333336, "t": 331.73533121744794, "r": 286.0, "b": 341.06866455078125, "coord_origin": "1"}}, {"id": 26, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 50.333333333333336, "t": 320.40199788411456, "r": 286.0, "b": 329.40199788411456, "coord_origin": "1"}}, {"id": 27, "text": "for a rectangular table, it 1s possible to compute the geo-", "bbox": {"l": 50.666666666666664, "t": 308.40199788411456, "r": 286.0, "b": 317.40199788411456, "coord_origin": "1"}}, {"id": 28, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 50.333333333333336, "t": 296.40199788411456, "r": 285.6666666666667, "b": 305.40199788411456, "coord_origin": "1"}}, {"id": 29, "text": "Eventually this information 1s used to generate the missing", "bbox": {"l": 50.333333333333336, "t": 284.40199788411456, "r": 286.0, "b": 293.40199788411456, "coord_origin": "1"}}, {"id": 30, "text": "bounding boxes. Additionally, the existence of unused grid", "bbox": {"l": 50.333333333333336, "t": 272.4019978841146, "r": 286.0, "b": 281.40199788411456, "coord_origin": "1"}}, {"id": 31, "text": "Squares indicates that the table rows have unequal number", "bbox": {"l": 50.333333333333336, "t": 260.4019978841146, "r": 286.3333333333333, "b": 269.4019978841146, "coord_origin": "1"}}, {"id": 32, "text": "of columns and the overall structure 1s non-strict. [he gen-", "bbox": {"l": 50.333333333333336, "t": 248.40199788411462, "r": 286.0, "b": 257.4019978841146, "coord_origin": "1"}}, {"id": 33, "text": "eration of missing bounding boxes for non-strict HI ML ta-", "bbox": {"l": 50.333333333333336, "t": 236.40199788411462, "r": 286.0, "b": 245.40199788411462, "coord_origin": "1"}}, {"id": 34, "text": "bles 1s ambiguous and therefore quite challenging. lhus,", "bbox": {"l": 50.333333333333336, "t": 224.40199788411462, "r": 285.6666666666667, "b": 233.40199788411462, "coord_origin": "1"}}, {"id": 35, "text": "we have decided to simply discard those tables. In case of", "bbox": {"l": 50.333333333333336, "t": 212.40199788411462, "r": 286.6666666666667, "b": 221.40199788411462, "coord_origin": "1"}}, {"id": 36, "text": "Pub labNet we have computed missing bounding boxes for", "bbox": {"l": 50.333333333333336, "t": 200.40199788411462, "r": 286.3333333333333, "b": 209.40199788411462, "coord_origin": "1"}}, {"id": 37, "text": "48% of the simple and 69% of the complex tables. Regard-", "bbox": {"l": 50.0, "t": 188.73533121744788, "r": 286.0, "b": 198.06866455078125, "coord_origin": "1"}}, {"id": 38, "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "bbox": {"l": 50.333333333333336, "t": 176.73533121744788, "r": 285.6666666666667, "b": 186.06866455078125, "coord_origin": "1"}}, {"id": 39, "text": "tables require the generation of bounding boxes.", "bbox": {"l": 50.333333333333336, "t": 164.73533121744788, "r": 241.66666666666666, "b": 174.06866455078125, "coord_origin": "1"}}, {"id": 40, "text": "Figure / illustrates the distribution of the tables across", "bbox": {"l": 62.333333333333336, "t": 152.40199788411462, "r": 286.0, "b": 161.40199788411462, "coord_origin": "1"}}, {"id": 41, "text": "different dimensions per dataset.", "bbox": {"l": 50.333333333333336, "t": 140.73533121744788, "r": 179.0, "b": 150.06866455078125, "coord_origin": "1"}}, {"id": 42, "text": "1.2. Synthetic datasets", "bbox": {"l": 51.0, "t": 120.06866455078125, "r": 153.33333333333334, "b": 130.06866455078125, "coord_origin": "1"}}, {"id": 43, "text": "Aiming to train and evaluate our models in a broader", "bbox": {"l": 62.333333333333336, "t": 102.06866455078125, "r": 286.3333333333333, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 44, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 50.333333333333336, "t": 90.06866455078125, "r": 286.6666666666667, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 45, "text": "datasets. Each one contains tables with different appear-", "bbox": {"l": 50.333333333333336, "t": 78.06866455078125, "r": 286.0, "b": 87.06866455078125, "coord_origin": "1"}}, {"id": 46, "text": "", "bbox": {"l": 294.0, "t": 51.40199788411462, "r": 301.0, "b": 58.06866455078125, "coord_origin": "1"}}, {"id": 47, "text": "ances in regard to their size, structure, style and content.", "bbox": {"l": 309.0, "t": 621.0686645507812, "r": 544.3333333333334, "b": 630.0686645507812, "coord_origin": "1"}}, {"id": 48, "text": "Every synthetic dataset contains 150k examples, summing", "bbox": {"l": 309.0, "t": 609.0686645507812, "r": 544.6666666666666, "b": 618.0686645507812, "coord_origin": "1"}}, {"id": 49, "text": "up to 600K synthetic examples. All datasets are divided into", "bbox": {"l": 309.0, "t": 597.0686645507812, "r": 545.0, "b": 606.0686645507812, "coord_origin": "1"}}, {"id": 50, "text": "Train, lest and Val splits (8O%, 10%, 10%).", "bbox": {"l": 309.0, "t": 585.0686645507812, "r": 483.3333333333333, "b": 594.0686645507812, "coord_origin": "1"}}, {"id": 51, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 321.0, "t": 572.0686645507812, "r": 544.6666666666666, "b": 581.0686645507812, "coord_origin": "1"}}, {"id": 52, "text": "composed into the following steps:", "bbox": {"l": 309.0, "t": 560.0686645507812, "r": 447.0, "b": 569.0686645507812, "coord_origin": "1"}}, {"id": 53, "text": "|. Prepare styling and content templates: The styling", "bbox": {"l": 322.3333333333333, "t": 547.4019978841146, "r": 544.6666666666666, "b": 556.7353312174479, "coord_origin": "1"}}, {"id": 54, "text": "templates have been manually designed and organized into", "bbox": {"l": 309.0, "t": 535.4019978841145, "r": 545.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 55, "text": "groups of scope specific appearances (e.g. financial data.", "bbox": {"l": 309.0, "t": 523.4019978841145, "r": 544.3333333333334, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 56, "text": "marketing data, etc.) Additionally, we have prepared cu-", "bbox": {"l": 309.0, "t": 511.40199788411456, "r": 544.6666666666666, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 57, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 309.0, "t": 499.40199788411456, "r": 544.6666666666666, "b": 508.73533121744794, "coord_origin": "1"}}, {"id": 58, "text": "frequently used terms out of non-synthetic datasets (e.g.", "bbox": {"l": 309.3333333333333, "t": 487.40199788411456, "r": 544.3333333333334, "b": 496.73533121744794, "coord_origin": "1"}}, {"id": 59, "text": "Pub labNet, Fin LabNet, etc.).", "bbox": {"l": 309.0, "t": 476.73533121744794, "r": 425.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 60, "text": "2. Generate table structures: [he structure of each syn-", "bbox": {"l": 321.0, "t": 463.06866455078125, "r": 544.6666666666666, "b": 472.06866455078125, "coord_origin": "1"}}, {"id": 61, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 309.0, "t": 451.06866455078125, "r": 544.6666666666666, "b": 460.06866455078125, "coord_origin": "1"}}, {"id": 62, "text": "tentially spans over multiple rows and a table body that", "bbox": {"l": 309.0, "t": 439.06866455078125, "r": 544.6666666666666, "b": 448.06866455078125, "coord_origin": "1"}}, {"id": 63, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 309.0, "t": 427.06866455078125, "r": 544.3333333333334, "b": 436.06866455078125, "coord_origin": "1"}}, {"id": 64, "text": "However, spans are not allowed to cross the header - body", "bbox": {"l": 309.3333333333333, "t": 415.06866455078125, "r": 544.6666666666666, "b": 424.06866455078125, "coord_origin": "1"}}, {"id": 65, "text": "boundary. Ihe table structure 1s described by the parame-", "bbox": {"l": 309.0, "t": 403.06866455078125, "r": 544.6666666666666, "b": 412.06866455078125, "coord_origin": "1"}}, {"id": 66, "text": "ters: Total number of table rows and columns. number of", "bbox": {"l": 309.0, "t": 393.06866455078125, "r": 545.3333333333334, "b": 400.73533121744794, "coord_origin": "1"}}, {"id": 67, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 309.0, "t": 379.40199788411456, "r": 544.6666666666666, "b": 388.73533121744794, "coord_origin": "1"}}, {"id": 68, "text": "spans, column only spans, both row and column spans),", "bbox": {"l": 309.0, "t": 367.40199788411456, "r": 544.3333333333334, "b": 376.40199788411456, "coord_origin": "1"}}, {"id": 69, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 309.0, "t": 355.40199788411456, "r": 544.6666666666666, "b": 364.73533121744794, "coord_origin": "1"}}, {"id": 70, "text": "by spans.", "bbox": {"l": 309.0, "t": 343.40199788411456, "r": 345.3333333333333, "b": 352.40199788411456, "coord_origin": "1"}}, {"id": 71, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 321.0, "t": 331.73533121744794, "r": 545.3333333333334, "b": 339.73533121744794, "coord_origin": "1"}}, {"id": 72, "text": "suitable content templates 1s chosen first. Then, this content", "bbox": {"l": 309.0, "t": 319.06866455078125, "r": 544.6666666666666, "b": 328.06866455078125, "coord_origin": "1"}}, {"id": 73, "text": "can be combined with purely random text to produce the", "bbox": {"l": 309.0, "t": 307.06866455078125, "r": 544.6666666666666, "b": 316.06866455078125, "coord_origin": "1"}}, {"id": 74, "text": "synthetic content.", "bbox": {"l": 309.0, "t": 295.06866455078125, "r": 378.3333333333333, "b": 304.06866455078125, "coord_origin": "1"}}, {"id": 75, "text": "4. Apply styling templates: Depending on the domain", "bbox": {"l": 320.6666666666667, "t": 282.06866455078125, "r": 544.6666666666666, "b": 291.06866455078125, "coord_origin": "1"}}, {"id": 76, "text": "of the synthetic dataset, a set of styling templates 1s first", "bbox": {"l": 309.0, "t": 270.06866455078125, "r": 544.6666666666666, "b": 279.06866455078125, "coord_origin": "1"}}, {"id": 77, "text": "manually selected. Ihen, a style is randomly selected to", "bbox": {"l": 309.0, "t": 258.06866455078125, "r": 545.0, "b": 267.06866455078125, "coord_origin": "1"}}, {"id": 78, "text": "format the appearance of the synthesized table.", "bbox": {"l": 309.3333333333333, "t": 246.40199788411462, "r": 495.3333333333333, "b": 255.73533121744788, "coord_origin": "1"}}, {"id": 79, "text": "5. Render the complete tables: The synthetic table 1s", "bbox": {"l": 321.0, "t": 233.40199788411462, "r": 544.6666666666666, "b": 242.73533121744788, "coord_origin": "1"}}, {"id": 80, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 309.3333333333333, "t": 221.40199788411462, "r": 544.6666666666666, "b": 230.73533121744788, "coord_origin": "1"}}, {"id": 81, "text": "bounding boxes for each table cell. A batching technique 1s", "bbox": {"l": 309.0, "t": 209.40199788411462, "r": 544.6666666666666, "b": 218.73533121744788, "coord_origin": "1"}}, {"id": 82, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 309.0, "t": 197.40199788411462, "r": 544.6666666666666, "b": 206.73533121744788, "coord_origin": "1"}}, {"id": 83, "text": "DIOCESS.", "bbox": {"l": 309.0, "t": 185.40199788411462, "r": 340.3333333333333, "b": 192.40199788411462, "coord_origin": "1"}}, {"id": 84, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 309.0, "t": 159.40199788411462, "r": 544.6666666666666, "b": 170.06866455078125, "coord_origin": "1"}}, {"id": 85, "text": "ments", "bbox": {"l": 327.0, "t": 147.73533121744788, "r": 357.0, "b": 155.40199788411462, "coord_origin": "1"}}, {"id": 86, "text": "Although lableFormer can predict the table structure and", "bbox": {"l": 321.0, "t": 126.06866455078125, "r": 544.6666666666666, "b": 135.06866455078125, "coord_origin": "1"}}, {"id": 87, "text": "the bounding boxes for tables recognized inside PDF docu-", "bbox": {"l": 309.0, "t": 114.06866455078125, "r": 544.6666666666666, "b": 123.06866455078125, "coord_origin": "1"}}, {"id": 88, "text": "ments, this 1s not enough when a full reconstruction of the", "bbox": {"l": 309.0, "t": 102.06866455078125, "r": 544.6666666666666, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 89, "text": "original table 1s required. [his happens mainly due the fol-", "bbox": {"l": 309.0, "t": 90.06866455078125, "r": 544.6666666666666, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 90, "text": "lowing reasons", "bbox": {"l": 309.3333333333333, "t": 78.06866455078125, "r": 370.6666666666667, "b": 87.06866455078125, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Text", "bbox": {"l": 133.0, "t": 656.3193359375, "r": 544.7320556640625, "b": 714.0350341796875, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 133.0, "t": 671.0686645507812, "r": 465.0, "b": 682.0686645507812, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 220.66666666666666, "t": 656.7353312174479, "r": 374.6666666666667, "b": 670.4019978841146, "coord_origin": "1"}}]}, {"id": 1, "label": "Text", "bbox": {"l": 51.0, "t": 623.0686645507812, "r": 175.66666666666666, "b": 631.7353312174479, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 51.0, "t": 623.0686645507812, "r": 175.66666666666666, "b": 631.7353312174479, "coord_origin": "1"}}]}, {"id": 2, "label": "Text", "bbox": {"l": 49.640533447265625, "t": 390.59295654296875, "r": 286.6666666666667, "b": 627.19873046875, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 3, "text": "1.1. Data preparation", "bbox": {"l": 51.0, "t": 601.7353312174479, "r": 150.0, "b": 611.7353312174479, "coord_origin": "1"}}, {"id": 4, "text": "As a first step of our data preparation process, we have", "bbox": {"l": 62.333333333333336, "t": 583.4019978841146, "r": 286.0, "b": 592.7353312174479, "coord_origin": "1"}}, {"id": 5, "text": "calculated statistics over the datasets across the following", "bbox": {"l": 50.333333333333336, "t": 571.4019978841146, "r": 286.0, "b": 580.7353312174479, "coord_origin": "1"}}, {"id": 6, "text": "dimensions: (1) table size measured 1n the number of rows", "bbox": {"l": 50.333333333333336, "t": 560.4019978841146, "r": 286.0, "b": 568.7353312174479, "coord_origin": "1"}}, {"id": 7, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 50.333333333333336, "t": 547.4019978841146, "r": 286.6666666666667, "b": 556.7353312174479, "coord_origin": "1"}}, {"id": 8, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 50.333333333333336, "t": 535.4019978841145, "r": 286.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 9, "text": "omitted bounding boxes). A table is considered to be simple", "bbox": {"l": 50.333333333333336, "t": 523.4019978841145, "r": 286.0, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 10, "text": "if it does not contain row spans or column spans. Addition-", "bbox": {"l": 50.333333333333336, "t": 511.40199788411456, "r": 286.0, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 11, "text": "ally, a table has a strict HI ML structure 1f every row has the", "bbox": {"l": 50.333333333333336, "t": 500.06866455078125, "r": 286.0, "b": 509.06866455078125, "coord_origin": "1"}}, {"id": 12, "text": "same number of columns after taking into account any row", "bbox": {"l": 50.333333333333336, "t": 488.06866455078125, "r": 286.0, "b": 497.06866455078125, "coord_origin": "1"}}, {"id": 13, "text": "or column spans. [Therefore a strict HI ML structure looks", "bbox": {"l": 50.333333333333336, "t": 476.06866455078125, "r": 286.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 14, "text": "always rectangular. However, HI ML 1s a lenient encoding", "bbox": {"l": 50.333333333333336, "t": 464.06866455078125, "r": 286.0, "b": 473.06866455078125, "coord_origin": "1"}}, {"id": 15, "text": "format, 1.e. tables with rows of different sizes might still", "bbox": {"l": 50.666666666666664, "t": 452.06866455078125, "r": 286.0, "b": 461.06866455078125, "coord_origin": "1"}}, {"id": 16, "text": "be regarded as correct due to implicit display rules. [hese", "bbox": {"l": 50.333333333333336, "t": 440.06866455078125, "r": 286.0, "b": 449.06866455078125, "coord_origin": "1"}}, {"id": 17, "text": "implicit rules leave room for ambiguity, which we want to", "bbox": {"l": 50.333333333333336, "t": 428.06866455078125, "r": 286.0, "b": 437.06866455078125, "coord_origin": "1"}}, {"id": 18, "text": "avoid. As such, we prefer to have \u2018strict\u2019 tables, 1.e. tables", "bbox": {"l": 50.333333333333336, "t": 416.06866455078125, "r": 286.0, "b": 425.06866455078125, "coord_origin": "1"}}, {"id": 19, "text": "where every row has exactly the same length.", "bbox": {"l": 50.333333333333336, "t": 404.06866455078125, "r": 230.0, "b": 413.06866455078125, "coord_origin": "1"}}, {"id": 20, "text": "We have developed a technique that tries to derive a", "bbox": {"l": 62.333333333333336, "t": 392.06866455078125, "r": 286.3333333333333, "b": 401.06866455078125, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 49.627410888671875, "t": 198.82928466796875, "r": 286.6666666666667, "b": 389.06866455078125, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 21, "text": "missing bounding box out of its neighbors. As a first step.", "bbox": {"l": 50.333333333333336, "t": 380.06866455078125, "r": 285.6666666666667, "b": 389.06866455078125, "coord_origin": "1"}}, {"id": 22, "text": "we use the annotation data to generate the most fine-grained", "bbox": {"l": 50.333333333333336, "t": 368.06866455078125, "r": 286.0, "b": 377.06866455078125, "coord_origin": "1"}}, {"id": 23, "text": "erid that covers the table structure. In case of strict HIML", "bbox": {"l": 50.333333333333336, "t": 356.06866455078125, "r": 286.0, "b": 365.06866455078125, "coord_origin": "1"}}, {"id": 24, "text": "tables, all grid squares are associated with some table cell", "bbox": {"l": 50.333333333333336, "t": 344.06866455078125, "r": 286.0, "b": 353.06866455078125, "coord_origin": "1"}}, {"id": 25, "text": "and in the presence of table spans a cell extends across mul-", "bbox": {"l": 50.333333333333336, "t": 331.73533121744794, "r": 286.0, "b": 341.06866455078125, "coord_origin": "1"}}, {"id": 26, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 50.333333333333336, "t": 320.40199788411456, "r": 286.0, "b": 329.40199788411456, "coord_origin": "1"}}, {"id": 27, "text": "for a rectangular table, it 1s possible to compute the geo-", "bbox": {"l": 50.666666666666664, "t": 308.40199788411456, "r": 286.0, "b": 317.40199788411456, "coord_origin": "1"}}, {"id": 28, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 50.333333333333336, "t": 296.40199788411456, "r": 285.6666666666667, "b": 305.40199788411456, "coord_origin": "1"}}, {"id": 29, "text": "Eventually this information 1s used to generate the missing", "bbox": {"l": 50.333333333333336, "t": 284.40199788411456, "r": 286.0, "b": 293.40199788411456, "coord_origin": "1"}}, {"id": 30, "text": "bounding boxes. Additionally, the existence of unused grid", "bbox": {"l": 50.333333333333336, "t": 272.4019978841146, "r": 286.0, "b": 281.40199788411456, "coord_origin": "1"}}, {"id": 31, "text": "Squares indicates that the table rows have unequal number", "bbox": {"l": 50.333333333333336, "t": 260.4019978841146, "r": 286.3333333333333, "b": 269.4019978841146, "coord_origin": "1"}}, {"id": 32, "text": "of columns and the overall structure 1s non-strict. [he gen-", "bbox": {"l": 50.333333333333336, "t": 248.40199788411462, "r": 286.0, "b": 257.4019978841146, "coord_origin": "1"}}, {"id": 33, "text": "eration of missing bounding boxes for non-strict HI ML ta-", "bbox": {"l": 50.333333333333336, "t": 236.40199788411462, "r": 286.0, "b": 245.40199788411462, "coord_origin": "1"}}, {"id": 34, "text": "bles 1s ambiguous and therefore quite challenging. lhus,", "bbox": {"l": 50.333333333333336, "t": 224.40199788411462, "r": 285.6666666666667, "b": 233.40199788411462, "coord_origin": "1"}}, {"id": 35, "text": "we have decided to simply discard those tables. In case of", "bbox": {"l": 50.333333333333336, "t": 212.40199788411462, "r": 286.6666666666667, "b": 221.40199788411462, "coord_origin": "1"}}, {"id": 36, "text": "Pub labNet we have computed missing bounding boxes for", "bbox": {"l": 50.333333333333336, "t": 200.40199788411462, "r": 286.3333333333333, "b": 209.40199788411462, "coord_origin": "1"}}]}, {"id": 4, "label": "Text", "bbox": {"l": 50.0, "t": 188.73533121744788, "r": 286.0, "b": 198.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 37, "text": "48% of the simple and 69% of the complex tables. Regard-", "bbox": {"l": 50.0, "t": 188.73533121744788, "r": 286.0, "b": 198.06866455078125, "coord_origin": "1"}}]}, {"id": 5, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 176.73533121744788, "r": 285.6666666666667, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 38, "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "bbox": {"l": 50.333333333333336, "t": 176.73533121744788, "r": 285.6666666666667, "b": 186.06866455078125, "coord_origin": "1"}}]}, {"id": 6, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 176.73533121744788, "r": 285.6666666666667, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 38, "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "bbox": {"l": 50.333333333333336, "t": 176.73533121744788, "r": 285.6666666666667, "b": 186.06866455078125, "coord_origin": "1"}}]}, {"id": 7, "label": "Section-header", "bbox": {"l": 49.808494567871094, "t": 160.348876953125, "r": 241.66666666666666, "b": 174.06866455078125, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 39, "text": "tables require the generation of bounding boxes.", "bbox": {"l": 50.333333333333336, "t": 164.73533121744788, "r": 241.66666666666666, "b": 174.06866455078125, "coord_origin": "1"}}]}, {"id": 8, "label": "Text", "bbox": {"l": 50.333333333333336, "t": 140.73533121744788, "r": 286.0, "b": 161.40199788411462, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 40, "text": "Figure / illustrates the distribution of the tables across", "bbox": {"l": 62.333333333333336, "t": 152.40199788411462, "r": 286.0, "b": 161.40199788411462, "coord_origin": "1"}}, {"id": 41, "text": "different dimensions per dataset.", "bbox": {"l": 50.333333333333336, "t": 140.73533121744788, "r": 179.0, "b": 150.06866455078125, "coord_origin": "1"}}]}, {"id": 9, "label": "Section-header", "bbox": {"l": 51.0, "t": 109.81901550292969, "r": 544.6666666666666, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 42, "text": "1.2. Synthetic datasets", "bbox": {"l": 51.0, "t": 120.06866455078125, "r": 153.33333333333334, "b": 130.06866455078125, "coord_origin": "1"}}, {"id": 87, "text": "the bounding boxes for tables recognized inside PDF docu-", "bbox": {"l": 309.0, "t": 114.06866455078125, "r": 544.6666666666666, "b": 123.06866455078125, "coord_origin": "1"}}]}, {"id": 10, "label": "Text", "bbox": {"l": 50.333333333333336, "t": 78.06866455078125, "r": 286.6666666666667, "b": 111.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 43, "text": "Aiming to train and evaluate our models in a broader", "bbox": {"l": 62.333333333333336, "t": 102.06866455078125, "r": 286.3333333333333, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 44, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 50.333333333333336, "t": 90.06866455078125, "r": 286.6666666666667, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 45, "text": "datasets. Each one contains tables with different appear-", "bbox": {"l": 50.333333333333336, "t": 78.06866455078125, "r": 286.0, "b": 87.06866455078125, "coord_origin": "1"}}]}, {"id": 11, "label": "Section-header", "bbox": {"l": 308.37005615234375, "t": 621.0686645507812, "r": 544.79541015625, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 47, "text": "ances in regard to their size, structure, style and content.", "bbox": {"l": 309.0, "t": 621.0686645507812, "r": 544.3333333333334, "b": 630.0686645507812, "coord_origin": "1"}}]}, {"id": 12, "label": "Text", "bbox": {"l": 309.0, "t": 609.0686645507812, "r": 544.6666666666666, "b": 618.0686645507812, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 48, "text": "Every synthetic dataset contains 150k examples, summing", "bbox": {"l": 309.0, "t": 609.0686645507812, "r": 544.6666666666666, "b": 618.0686645507812, "coord_origin": "1"}}]}, {"id": 13, "label": "Text", "bbox": {"l": 308.32305908203125, "t": 547.4019978841146, "r": 545.078857421875, "b": 606.7564697265625, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 49, "text": "up to 600K synthetic examples. All datasets are divided into", "bbox": {"l": 309.0, "t": 597.0686645507812, "r": 545.0, "b": 606.0686645507812, "coord_origin": "1"}}, {"id": 50, "text": "Train, lest and Val splits (8O%, 10%, 10%).", "bbox": {"l": 309.0, "t": 585.0686645507812, "r": 483.3333333333333, "b": 594.0686645507812, "coord_origin": "1"}}, {"id": 51, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 321.0, "t": 572.0686645507812, "r": 544.6666666666666, "b": 581.0686645507812, "coord_origin": "1"}}, {"id": 52, "text": "composed into the following steps:", "bbox": {"l": 309.0, "t": 560.0686645507812, "r": 447.0, "b": 569.0686645507812, "coord_origin": "1"}}, {"id": 53, "text": "|. Prepare styling and content templates: The styling", "bbox": {"l": 322.3333333333333, "t": 547.4019978841146, "r": 544.6666666666666, "b": 556.7353312174479, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 308.402587890625, "t": 499.40199788411456, "r": 545.0632934570312, "b": 545.4546508789062, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 54, "text": "templates have been manually designed and organized into", "bbox": {"l": 309.0, "t": 535.4019978841145, "r": 545.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 55, "text": "groups of scope specific appearances (e.g. financial data.", "bbox": {"l": 309.0, "t": 523.4019978841145, "r": 544.3333333333334, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 56, "text": "marketing data, etc.) Additionally, we have prepared cu-", "bbox": {"l": 309.0, "t": 511.40199788411456, "r": 544.6666666666666, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 57, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 309.0, "t": 499.40199788411456, "r": 544.6666666666666, "b": 508.73533121744794, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 308.17218017578125, "t": 451.06866455078125, "r": 544.9503173828125, "b": 496.8595275878906, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 58, "text": "frequently used terms out of non-synthetic datasets (e.g.", "bbox": {"l": 309.3333333333333, "t": 487.40199788411456, "r": 544.3333333333334, "b": 496.73533121744794, "coord_origin": "1"}}, {"id": 59, "text": "Pub labNet, Fin LabNet, etc.).", "bbox": {"l": 309.0, "t": 476.73533121744794, "r": 425.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 60, "text": "2. Generate table structures: [he structure of each syn-", "bbox": {"l": 321.0, "t": 463.06866455078125, "r": 544.6666666666666, "b": 472.06866455078125, "coord_origin": "1"}}, {"id": 61, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 309.0, "t": 451.06866455078125, "r": 544.6666666666666, "b": 460.06866455078125, "coord_origin": "1"}}]}, {"id": 16, "label": "Text", "bbox": {"l": 308.2052001953125, "t": 319.06866455078125, "r": 545.3333333333334, "b": 448.723388671875, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 62, "text": "tentially spans over multiple rows and a table body that", "bbox": {"l": 309.0, "t": 439.06866455078125, "r": 544.6666666666666, "b": 448.06866455078125, "coord_origin": "1"}}, {"id": 63, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 309.0, "t": 427.06866455078125, "r": 544.3333333333334, "b": 436.06866455078125, "coord_origin": "1"}}, {"id": 64, "text": "However, spans are not allowed to cross the header - body", "bbox": {"l": 309.3333333333333, "t": 415.06866455078125, "r": 544.6666666666666, "b": 424.06866455078125, "coord_origin": "1"}}, {"id": 65, "text": "boundary. Ihe table structure 1s described by the parame-", "bbox": {"l": 309.0, "t": 403.06866455078125, "r": 544.6666666666666, "b": 412.06866455078125, "coord_origin": "1"}}, {"id": 66, "text": "ters: Total number of table rows and columns. number of", "bbox": {"l": 309.0, "t": 393.06866455078125, "r": 545.3333333333334, "b": 400.73533121744794, "coord_origin": "1"}}, {"id": 67, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 309.0, "t": 379.40199788411456, "r": 544.6666666666666, "b": 388.73533121744794, "coord_origin": "1"}}, {"id": 68, "text": "spans, column only spans, both row and column spans),", "bbox": {"l": 309.0, "t": 367.40199788411456, "r": 544.3333333333334, "b": 376.40199788411456, "coord_origin": "1"}}, {"id": 69, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 309.0, "t": 355.40199788411456, "r": 544.6666666666666, "b": 364.73533121744794, "coord_origin": "1"}}, {"id": 70, "text": "by spans.", "bbox": {"l": 309.0, "t": 343.40199788411456, "r": 345.3333333333333, "b": 352.40199788411456, "coord_origin": "1"}}, {"id": 71, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 321.0, "t": 331.73533121744794, "r": 545.3333333333334, "b": 339.73533121744794, "coord_origin": "1"}}, {"id": 72, "text": "suitable content templates 1s chosen first. Then, this content", "bbox": {"l": 309.0, "t": 319.06866455078125, "r": 544.6666666666666, "b": 328.06866455078125, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 308.4111022949219, "t": 233.40199788411462, "r": 545.0, "b": 316.1220397949219, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 73, "text": "can be combined with purely random text to produce the", "bbox": {"l": 309.0, "t": 307.06866455078125, "r": 544.6666666666666, "b": 316.06866455078125, "coord_origin": "1"}}, {"id": 74, "text": "synthetic content.", "bbox": {"l": 309.0, "t": 295.06866455078125, "r": 378.3333333333333, "b": 304.06866455078125, "coord_origin": "1"}}, {"id": 75, "text": "4. Apply styling templates: Depending on the domain", "bbox": {"l": 320.6666666666667, "t": 282.06866455078125, "r": 544.6666666666666, "b": 291.06866455078125, "coord_origin": "1"}}, {"id": 76, "text": "of the synthetic dataset, a set of styling templates 1s first", "bbox": {"l": 309.0, "t": 270.06866455078125, "r": 544.6666666666666, "b": 279.06866455078125, "coord_origin": "1"}}, {"id": 77, "text": "manually selected. Ihen, a style is randomly selected to", "bbox": {"l": 309.0, "t": 258.06866455078125, "r": 545.0, "b": 267.06866455078125, "coord_origin": "1"}}, {"id": 78, "text": "format the appearance of the synthesized table.", "bbox": {"l": 309.3333333333333, "t": 246.40199788411462, "r": 495.3333333333333, "b": 255.73533121744788, "coord_origin": "1"}}, {"id": 79, "text": "5. Render the complete tables: The synthetic table 1s", "bbox": {"l": 321.0, "t": 233.40199788411462, "r": 544.6666666666666, "b": 242.73533121744788, "coord_origin": "1"}}]}, {"id": 18, "label": "Text", "bbox": {"l": 308.44775390625, "t": 209.40199788411462, "r": 544.8419799804688, "b": 232.35369873046875, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 80, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 309.3333333333333, "t": 221.40199788411462, "r": 544.6666666666666, "b": 230.73533121744788, "coord_origin": "1"}}, {"id": 81, "text": "bounding boxes for each table cell. A batching technique 1s", "bbox": {"l": 309.0, "t": 209.40199788411462, "r": 544.6666666666666, "b": 218.73533121744788, "coord_origin": "1"}}]}, {"id": 19, "label": "Text", "bbox": {"l": 308.32464599609375, "t": 159.40199788411462, "r": 545.0006713867188, "b": 207.03915405273438, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 82, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 309.0, "t": 197.40199788411462, "r": 544.6666666666666, "b": 206.73533121744788, "coord_origin": "1"}}, {"id": 83, "text": "DIOCESS.", "bbox": {"l": 309.0, "t": 185.40199788411462, "r": 340.3333333333333, "b": 192.40199788411462, "coord_origin": "1"}}, {"id": 84, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 309.0, "t": 159.40199788411462, "r": 544.6666666666666, "b": 170.06866455078125, "coord_origin": "1"}}]}, {"id": 20, "label": "Text", "bbox": {"l": 327.0, "t": 147.73533121744788, "r": 357.0, "b": 155.40199788411462, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 85, "text": "ments", "bbox": {"l": 327.0, "t": 147.73533121744788, "r": 357.0, "b": 155.40199788411462, "coord_origin": "1"}}]}, {"id": 21, "label": "Section-header", "bbox": {"l": 321.0, "t": 126.06866455078125, "r": 544.6666666666666, "b": 135.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 86, "text": "Although lableFormer can predict the table structure and", "bbox": {"l": 321.0, "t": 126.06866455078125, "r": 544.6666666666666, "b": 135.06866455078125, "coord_origin": "1"}}]}, {"id": 22, "label": "Text", "bbox": {"l": 309.0, "t": 78.06866455078125, "r": 544.6666666666666, "b": 111.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 88, "text": "ments, this 1s not enough when a full reconstruction of the", "bbox": {"l": 309.0, "t": 102.06866455078125, "r": 544.6666666666666, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 89, "text": "original table 1s required. [his happens mainly due the fol-", "bbox": {"l": 309.0, "t": 90.06866455078125, "r": 544.6666666666666, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 90, "text": "lowing reasons", "bbox": {"l": 309.3333333333333, "t": 78.06866455078125, "r": 370.6666666666667, "b": 87.06866455078125, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Text", "bbox": {"l": 133.0, "t": 656.3193359375, "r": 544.7320556640625, "b": 714.0350341796875, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 133.0, "t": 671.0686645507812, "r": 465.0, "b": 682.0686645507812, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 220.66666666666666, "t": 656.7353312174479, "r": 374.6666666666667, "b": 670.4019978841146, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers Supplementary Material"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 51.0, "t": 623.0686645507812, "r": 175.66666666666666, "b": 631.7353312174479, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 51.0, "t": 623.0686645507812, "r": 175.66666666666666, "b": 631.7353312174479, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Text", "bbox": {"l": 49.640533447265625, "t": 390.59295654296875, "r": 286.6666666666667, "b": 627.19873046875, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 3, "text": "1.1. Data preparation", "bbox": {"l": 51.0, "t": 601.7353312174479, "r": 150.0, "b": 611.7353312174479, "coord_origin": "1"}}, {"id": 4, "text": "As a first step of our data preparation process, we have", "bbox": {"l": 62.333333333333336, "t": 583.4019978841146, "r": 286.0, "b": 592.7353312174479, "coord_origin": "1"}}, {"id": 5, "text": "calculated statistics over the datasets across the following", "bbox": {"l": 50.333333333333336, "t": 571.4019978841146, "r": 286.0, "b": 580.7353312174479, "coord_origin": "1"}}, {"id": 6, "text": "dimensions: (1) table size measured 1n the number of rows", "bbox": {"l": 50.333333333333336, "t": 560.4019978841146, "r": 286.0, "b": 568.7353312174479, "coord_origin": "1"}}, {"id": 7, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 50.333333333333336, "t": 547.4019978841146, "r": 286.6666666666667, "b": 556.7353312174479, "coord_origin": "1"}}, {"id": 8, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 50.333333333333336, "t": 535.4019978841145, "r": 286.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 9, "text": "omitted bounding boxes). A table is considered to be simple", "bbox": {"l": 50.333333333333336, "t": 523.4019978841145, "r": 286.0, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 10, "text": "if it does not contain row spans or column spans. Addition-", "bbox": {"l": 50.333333333333336, "t": 511.40199788411456, "r": 286.0, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 11, "text": "ally, a table has a strict HI ML structure 1f every row has the", "bbox": {"l": 50.333333333333336, "t": 500.06866455078125, "r": 286.0, "b": 509.06866455078125, "coord_origin": "1"}}, {"id": 12, "text": "same number of columns after taking into account any row", "bbox": {"l": 50.333333333333336, "t": 488.06866455078125, "r": 286.0, "b": 497.06866455078125, "coord_origin": "1"}}, {"id": 13, "text": "or column spans. [Therefore a strict HI ML structure looks", "bbox": {"l": 50.333333333333336, "t": 476.06866455078125, "r": 286.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 14, "text": "always rectangular. However, HI ML 1s a lenient encoding", "bbox": {"l": 50.333333333333336, "t": 464.06866455078125, "r": 286.0, "b": 473.06866455078125, "coord_origin": "1"}}, {"id": 15, "text": "format, 1.e. tables with rows of different sizes might still", "bbox": {"l": 50.666666666666664, "t": 452.06866455078125, "r": 286.0, "b": 461.06866455078125, "coord_origin": "1"}}, {"id": 16, "text": "be regarded as correct due to implicit display rules. [hese", "bbox": {"l": 50.333333333333336, "t": 440.06866455078125, "r": 286.0, "b": 449.06866455078125, "coord_origin": "1"}}, {"id": 17, "text": "implicit rules leave room for ambiguity, which we want to", "bbox": {"l": 50.333333333333336, "t": 428.06866455078125, "r": 286.0, "b": 437.06866455078125, "coord_origin": "1"}}, {"id": 18, "text": "avoid. As such, we prefer to have \u2018strict\u2019 tables, 1.e. tables", "bbox": {"l": 50.333333333333336, "t": 416.06866455078125, "r": 286.0, "b": 425.06866455078125, "coord_origin": "1"}}, {"id": 19, "text": "where every row has exactly the same length.", "bbox": {"l": 50.333333333333336, "t": 404.06866455078125, "r": 230.0, "b": 413.06866455078125, "coord_origin": "1"}}, {"id": 20, "text": "We have developed a technique that tries to derive a", "bbox": {"l": 62.333333333333336, "t": 392.06866455078125, "r": 286.3333333333333, "b": 401.06866455078125, "coord_origin": "1"}}]}, "text": "1.1. Data preparation As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured 1n the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HI ML structure 1f every row has the same number of columns after taking into account any row or column spans. [Therefore a strict HI ML structure looks always rectangular. However, HI ML 1s a lenient encoding format, 1.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. [hese implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \u2018strict\u2019 tables, 1.e. tables where every row has exactly the same length. We have developed a technique that tries to derive a"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 49.627410888671875, "t": 198.82928466796875, "r": 286.6666666666667, "b": 389.06866455078125, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 21, "text": "missing bounding box out of its neighbors. As a first step.", "bbox": {"l": 50.333333333333336, "t": 380.06866455078125, "r": 285.6666666666667, "b": 389.06866455078125, "coord_origin": "1"}}, {"id": 22, "text": "we use the annotation data to generate the most fine-grained", "bbox": {"l": 50.333333333333336, "t": 368.06866455078125, "r": 286.0, "b": 377.06866455078125, "coord_origin": "1"}}, {"id": 23, "text": "erid that covers the table structure. In case of strict HIML", "bbox": {"l": 50.333333333333336, "t": 356.06866455078125, "r": 286.0, "b": 365.06866455078125, "coord_origin": "1"}}, {"id": 24, "text": "tables, all grid squares are associated with some table cell", "bbox": {"l": 50.333333333333336, "t": 344.06866455078125, "r": 286.0, "b": 353.06866455078125, "coord_origin": "1"}}, {"id": 25, "text": "and in the presence of table spans a cell extends across mul-", "bbox": {"l": 50.333333333333336, "t": 331.73533121744794, "r": 286.0, "b": 341.06866455078125, "coord_origin": "1"}}, {"id": 26, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 50.333333333333336, "t": 320.40199788411456, "r": 286.0, "b": 329.40199788411456, "coord_origin": "1"}}, {"id": 27, "text": "for a rectangular table, it 1s possible to compute the geo-", "bbox": {"l": 50.666666666666664, "t": 308.40199788411456, "r": 286.0, "b": 317.40199788411456, "coord_origin": "1"}}, {"id": 28, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 50.333333333333336, "t": 296.40199788411456, "r": 285.6666666666667, "b": 305.40199788411456, "coord_origin": "1"}}, {"id": 29, "text": "Eventually this information 1s used to generate the missing", "bbox": {"l": 50.333333333333336, "t": 284.40199788411456, "r": 286.0, "b": 293.40199788411456, "coord_origin": "1"}}, {"id": 30, "text": "bounding boxes. Additionally, the existence of unused grid", "bbox": {"l": 50.333333333333336, "t": 272.4019978841146, "r": 286.0, "b": 281.40199788411456, "coord_origin": "1"}}, {"id": 31, "text": "Squares indicates that the table rows have unequal number", "bbox": {"l": 50.333333333333336, "t": 260.4019978841146, "r": 286.3333333333333, "b": 269.4019978841146, "coord_origin": "1"}}, {"id": 32, "text": "of columns and the overall structure 1s non-strict. [he gen-", "bbox": {"l": 50.333333333333336, "t": 248.40199788411462, "r": 286.0, "b": 257.4019978841146, "coord_origin": "1"}}, {"id": 33, "text": "eration of missing bounding boxes for non-strict HI ML ta-", "bbox": {"l": 50.333333333333336, "t": 236.40199788411462, "r": 286.0, "b": 245.40199788411462, "coord_origin": "1"}}, {"id": 34, "text": "bles 1s ambiguous and therefore quite challenging. lhus,", "bbox": {"l": 50.333333333333336, "t": 224.40199788411462, "r": 285.6666666666667, "b": 233.40199788411462, "coord_origin": "1"}}, {"id": 35, "text": "we have decided to simply discard those tables. In case of", "bbox": {"l": 50.333333333333336, "t": 212.40199788411462, "r": 286.6666666666667, "b": 221.40199788411462, "coord_origin": "1"}}, {"id": 36, "text": "Pub labNet we have computed missing bounding boxes for", "bbox": {"l": 50.333333333333336, "t": 200.40199788411462, "r": 286.3333333333333, "b": 209.40199788411462, "coord_origin": "1"}}]}, "text": "missing bounding box out of its neighbors. As a first step. we use the annotation data to generate the most fine-grained erid that covers the table structure. In case of strict HIML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it 1s possible to compute the geometrical border lines between the grid rows and columns. Eventually this information 1s used to generate the missing bounding boxes. Additionally, the existence of unused grid Squares indicates that the table rows have unequal number of columns and the overall structure 1s non-strict. [he generation of missing bounding boxes for non-strict HI ML tables 1s ambiguous and therefore quite challenging. lhus, we have decided to simply discard those tables. In case of Pub labNet we have computed missing bounding boxes for"}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 50.0, "t": 188.73533121744788, "r": 286.0, "b": 198.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 37, "text": "48% of the simple and 69% of the complex tables. Regard-", "bbox": {"l": 50.0, "t": 188.73533121744788, "r": 286.0, "b": 198.06866455078125, "coord_origin": "1"}}]}, "text": "48% of the simple and 69% of the complex tables. Regard-"}, {"label": "Section-header", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 176.73533121744788, "r": 285.6666666666667, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 38, "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "bbox": {"l": 50.333333333333336, "t": 176.73533121744788, "r": 285.6666666666667, "b": 186.06866455078125, "coord_origin": "1"}}]}, "text": "ing FinlabNet, 68% of the simple and 98% of the complex"}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 176.73533121744788, "r": 285.6666666666667, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 38, "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "bbox": {"l": 50.333333333333336, "t": 176.73533121744788, "r": 285.6666666666667, "b": 186.06866455078125, "coord_origin": "1"}}]}, "text": "ing FinlabNet, 68% of the simple and 98% of the complex"}, {"label": "Section-header", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Section-header", "bbox": {"l": 49.808494567871094, "t": 160.348876953125, "r": 241.66666666666666, "b": 174.06866455078125, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 39, "text": "tables require the generation of bounding boxes.", "bbox": {"l": 50.333333333333336, "t": 164.73533121744788, "r": 241.66666666666666, "b": 174.06866455078125, "coord_origin": "1"}}]}, "text": "tables require the generation of bounding boxes."}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 50.333333333333336, "t": 140.73533121744788, "r": 286.0, "b": 161.40199788411462, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 40, "text": "Figure / illustrates the distribution of the tables across", "bbox": {"l": 62.333333333333336, "t": 152.40199788411462, "r": 286.0, "b": 161.40199788411462, "coord_origin": "1"}}, {"id": 41, "text": "different dimensions per dataset.", "bbox": {"l": 50.333333333333336, "t": 140.73533121744788, "r": 179.0, "b": 150.06866455078125, "coord_origin": "1"}}]}, "text": "Figure / illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Section-header", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Section-header", "bbox": {"l": 51.0, "t": 109.81901550292969, "r": 544.6666666666666, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 42, "text": "1.2. Synthetic datasets", "bbox": {"l": 51.0, "t": 120.06866455078125, "r": 153.33333333333334, "b": 130.06866455078125, "coord_origin": "1"}}, {"id": 87, "text": "the bounding boxes for tables recognized inside PDF docu-", "bbox": {"l": 309.0, "t": 114.06866455078125, "r": 544.6666666666666, "b": 123.06866455078125, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets the bounding boxes for tables recognized inside PDF docu-"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 50.333333333333336, "t": 78.06866455078125, "r": 286.6666666666667, "b": 111.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 43, "text": "Aiming to train and evaluate our models in a broader", "bbox": {"l": 62.333333333333336, "t": 102.06866455078125, "r": 286.3333333333333, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 44, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 50.333333333333336, "t": 90.06866455078125, "r": 286.6666666666667, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 45, "text": "datasets. Each one contains tables with different appear-", "bbox": {"l": 50.333333333333336, "t": 78.06866455078125, "r": 286.0, "b": 87.06866455078125, "coord_origin": "1"}}]}, "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-"}, {"label": "Section-header", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Section-header", "bbox": {"l": 308.37005615234375, "t": 621.0686645507812, "r": 544.79541015625, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 47, "text": "ances in regard to their size, structure, style and content.", "bbox": {"l": 309.0, "t": 621.0686645507812, "r": 544.3333333333334, "b": 630.0686645507812, "coord_origin": "1"}}]}, "text": "ances in regard to their size, structure, style and content."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 309.0, "t": 609.0686645507812, "r": 544.6666666666666, "b": 618.0686645507812, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 48, "text": "Every synthetic dataset contains 150k examples, summing", "bbox": {"l": 309.0, "t": 609.0686645507812, "r": 544.6666666666666, "b": 618.0686645507812, "coord_origin": "1"}}]}, "text": "Every synthetic dataset contains 150k examples, summing"}, {"label": "Text", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Text", "bbox": {"l": 308.32305908203125, "t": 547.4019978841146, "r": 545.078857421875, "b": 606.7564697265625, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 49, "text": "up to 600K synthetic examples. All datasets are divided into", "bbox": {"l": 309.0, "t": 597.0686645507812, "r": 545.0, "b": 606.0686645507812, "coord_origin": "1"}}, {"id": 50, "text": "Train, lest and Val splits (8O%, 10%, 10%).", "bbox": {"l": 309.0, "t": 585.0686645507812, "r": 483.3333333333333, "b": 594.0686645507812, "coord_origin": "1"}}, {"id": 51, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 321.0, "t": 572.0686645507812, "r": 544.6666666666666, "b": 581.0686645507812, "coord_origin": "1"}}, {"id": 52, "text": "composed into the following steps:", "bbox": {"l": 309.0, "t": 560.0686645507812, "r": 447.0, "b": 569.0686645507812, "coord_origin": "1"}}, {"id": 53, "text": "|. Prepare styling and content templates: The styling", "bbox": {"l": 322.3333333333333, "t": 547.4019978841146, "r": 544.6666666666666, "b": 556.7353312174479, "coord_origin": "1"}}]}, "text": "up to 600K synthetic examples. All datasets are divided into Train, lest and Val splits (8O%, 10%, 10%). The process of generating a synthetic dataset can be decomposed into the following steps: |. Prepare styling and content templates: The styling"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 308.402587890625, "t": 499.40199788411456, "r": 545.0632934570312, "b": 545.4546508789062, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 54, "text": "templates have been manually designed and organized into", "bbox": {"l": 309.0, "t": 535.4019978841145, "r": 545.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 55, "text": "groups of scope specific appearances (e.g. financial data.", "bbox": {"l": 309.0, "t": 523.4019978841145, "r": 544.3333333333334, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 56, "text": "marketing data, etc.) Additionally, we have prepared cu-", "bbox": {"l": 309.0, "t": 511.40199788411456, "r": 544.6666666666666, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 57, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 309.0, "t": 499.40199788411456, "r": 544.6666666666666, "b": 508.73533121744794, "coord_origin": "1"}}]}, "text": "templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data. marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most"}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 308.17218017578125, "t": 451.06866455078125, "r": 544.9503173828125, "b": 496.8595275878906, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 58, "text": "frequently used terms out of non-synthetic datasets (e.g.", "bbox": {"l": 309.3333333333333, "t": 487.40199788411456, "r": 544.3333333333334, "b": 496.73533121744794, "coord_origin": "1"}}, {"id": 59, "text": "Pub labNet, Fin LabNet, etc.).", "bbox": {"l": 309.0, "t": 476.73533121744794, "r": 425.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 60, "text": "2. Generate table structures: [he structure of each syn-", "bbox": {"l": 321.0, "t": 463.06866455078125, "r": 544.6666666666666, "b": 472.06866455078125, "coord_origin": "1"}}, {"id": 61, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 309.0, "t": 451.06866455078125, "r": 544.6666666666666, "b": 460.06866455078125, "coord_origin": "1"}}]}, "text": "frequently used terms out of non-synthetic datasets (e.g. Pub labNet, Fin LabNet, etc.). 2. Generate table structures: [he structure of each synthetic dataset assumes a horizontal table header which po-"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 308.2052001953125, "t": 319.06866455078125, "r": 545.3333333333334, "b": 448.723388671875, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 62, "text": "tentially spans over multiple rows and a table body that", "bbox": {"l": 309.0, "t": 439.06866455078125, "r": 544.6666666666666, "b": 448.06866455078125, "coord_origin": "1"}}, {"id": 63, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 309.0, "t": 427.06866455078125, "r": 544.3333333333334, "b": 436.06866455078125, "coord_origin": "1"}}, {"id": 64, "text": "However, spans are not allowed to cross the header - body", "bbox": {"l": 309.3333333333333, "t": 415.06866455078125, "r": 544.6666666666666, "b": 424.06866455078125, "coord_origin": "1"}}, {"id": 65, "text": "boundary. Ihe table structure 1s described by the parame-", "bbox": {"l": 309.0, "t": 403.06866455078125, "r": 544.6666666666666, "b": 412.06866455078125, "coord_origin": "1"}}, {"id": 66, "text": "ters: Total number of table rows and columns. number of", "bbox": {"l": 309.0, "t": 393.06866455078125, "r": 545.3333333333334, "b": 400.73533121744794, "coord_origin": "1"}}, {"id": 67, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 309.0, "t": 379.40199788411456, "r": 544.6666666666666, "b": 388.73533121744794, "coord_origin": "1"}}, {"id": 68, "text": "spans, column only spans, both row and column spans),", "bbox": {"l": 309.0, "t": 367.40199788411456, "r": 544.3333333333334, "b": 376.40199788411456, "coord_origin": "1"}}, {"id": 69, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 309.0, "t": 355.40199788411456, "r": 544.6666666666666, "b": 364.73533121744794, "coord_origin": "1"}}, {"id": 70, "text": "by spans.", "bbox": {"l": 309.0, "t": 343.40199788411456, "r": 345.3333333333333, "b": 352.40199788411456, "coord_origin": "1"}}, {"id": 71, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 321.0, "t": 331.73533121744794, "r": 545.3333333333334, "b": 339.73533121744794, "coord_origin": "1"}}, {"id": 72, "text": "suitable content templates 1s chosen first. Then, this content", "bbox": {"l": 309.0, "t": 319.06866455078125, "r": 544.6666666666666, "b": 328.06866455078125, "coord_origin": "1"}}]}, "text": "tentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header - body boundary. Ihe table structure 1s described by the parameters: Total number of table rows and columns. number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. Generate content: Based on the dataset theme. a set of suitable content templates 1s chosen first. Then, this content"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 308.4111022949219, "t": 233.40199788411462, "r": 545.0, "b": 316.1220397949219, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 73, "text": "can be combined with purely random text to produce the", "bbox": {"l": 309.0, "t": 307.06866455078125, "r": 544.6666666666666, "b": 316.06866455078125, "coord_origin": "1"}}, {"id": 74, "text": "synthetic content.", "bbox": {"l": 309.0, "t": 295.06866455078125, "r": 378.3333333333333, "b": 304.06866455078125, "coord_origin": "1"}}, {"id": 75, "text": "4. Apply styling templates: Depending on the domain", "bbox": {"l": 320.6666666666667, "t": 282.06866455078125, "r": 544.6666666666666, "b": 291.06866455078125, "coord_origin": "1"}}, {"id": 76, "text": "of the synthetic dataset, a set of styling templates 1s first", "bbox": {"l": 309.0, "t": 270.06866455078125, "r": 544.6666666666666, "b": 279.06866455078125, "coord_origin": "1"}}, {"id": 77, "text": "manually selected. Ihen, a style is randomly selected to", "bbox": {"l": 309.0, "t": 258.06866455078125, "r": 545.0, "b": 267.06866455078125, "coord_origin": "1"}}, {"id": 78, "text": "format the appearance of the synthesized table.", "bbox": {"l": 309.3333333333333, "t": 246.40199788411462, "r": 495.3333333333333, "b": 255.73533121744788, "coord_origin": "1"}}, {"id": 79, "text": "5. Render the complete tables: The synthetic table 1s", "bbox": {"l": 321.0, "t": 233.40199788411462, "r": 544.6666666666666, "b": 242.73533121744788, "coord_origin": "1"}}]}, "text": "can be combined with purely random text to produce the synthetic content. 4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates 1s first manually selected. Ihen, a style is randomly selected to format the appearance of the synthesized table. 5. Render the complete tables: The synthetic table 1s"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 308.44775390625, "t": 209.40199788411462, "r": 544.8419799804688, "b": 232.35369873046875, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 80, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 309.3333333333333, "t": 221.40199788411462, "r": 544.6666666666666, "b": 230.73533121744788, "coord_origin": "1"}}, {"id": 81, "text": "bounding boxes for each table cell. A batching technique 1s", "bbox": {"l": 309.0, "t": 209.40199788411462, "r": 544.6666666666666, "b": 218.73533121744788, "coord_origin": "1"}}]}, "text": "finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique 1s"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 308.32464599609375, "t": 159.40199788411462, "r": 545.0006713867188, "b": 207.03915405273438, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 82, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 309.0, "t": 197.40199788411462, "r": 544.6666666666666, "b": 206.73533121744788, "coord_origin": "1"}}, {"id": 83, "text": "DIOCESS.", "bbox": {"l": 309.0, "t": 185.40199788411462, "r": 340.3333333333333, "b": 192.40199788411462, "coord_origin": "1"}}, {"id": 84, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 309.0, "t": 159.40199788411462, "r": 544.6666666666666, "b": 170.06866455078125, "coord_origin": "1"}}]}, "text": "utilized to optimize the runtime overhead of the rendering DIOCESS. 2. Prediction post-processing for PDF docu-"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 327.0, "t": 147.73533121744788, "r": 357.0, "b": 155.40199788411462, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 85, "text": "ments", "bbox": {"l": 327.0, "t": 147.73533121744788, "r": 357.0, "b": 155.40199788411462, "coord_origin": "1"}}]}, "text": "ments"}, {"label": "Section-header", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Section-header", "bbox": {"l": 321.0, "t": 126.06866455078125, "r": 544.6666666666666, "b": 135.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 86, "text": "Although lableFormer can predict the table structure and", "bbox": {"l": 321.0, "t": 126.06866455078125, "r": 544.6666666666666, "b": 135.06866455078125, "coord_origin": "1"}}]}, "text": "Although lableFormer can predict the table structure and"}, {"label": "Text", "id": 22, "page_no": 0, "cluster": {"id": 22, "label": "Text", "bbox": {"l": 309.0, "t": 78.06866455078125, "r": 544.6666666666666, "b": 111.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 88, "text": "ments, this 1s not enough when a full reconstruction of the", "bbox": {"l": 309.0, "t": 102.06866455078125, "r": 544.6666666666666, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 89, "text": "original table 1s required. [his happens mainly due the fol-", "bbox": {"l": 309.0, "t": 90.06866455078125, "r": 544.6666666666666, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 90, "text": "lowing reasons", "bbox": {"l": 309.3333333333333, "t": 78.06866455078125, "r": 370.6666666666667, "b": 87.06866455078125, "coord_origin": "1"}}]}, "text": "ments, this 1s not enough when a full reconstruction of the original table 1s required. [his happens mainly due the following reasons"}], "body": [{"label": "Text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Text", "bbox": {"l": 133.0, "t": 656.3193359375, "r": 544.7320556640625, "b": 714.0350341796875, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 133.0, "t": 671.0686645507812, "r": 465.0, "b": 682.0686645507812, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 220.66666666666666, "t": 656.7353312174479, "r": 374.6666666666667, "b": 670.4019978841146, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers Supplementary Material"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 51.0, "t": 623.0686645507812, "r": 175.66666666666666, "b": 631.7353312174479, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 51.0, "t": 623.0686645507812, "r": 175.66666666666666, "b": 631.7353312174479, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Text", "bbox": {"l": 49.640533447265625, "t": 390.59295654296875, "r": 286.6666666666667, "b": 627.19873046875, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 3, "text": "1.1. Data preparation", "bbox": {"l": 51.0, "t": 601.7353312174479, "r": 150.0, "b": 611.7353312174479, "coord_origin": "1"}}, {"id": 4, "text": "As a first step of our data preparation process, we have", "bbox": {"l": 62.333333333333336, "t": 583.4019978841146, "r": 286.0, "b": 592.7353312174479, "coord_origin": "1"}}, {"id": 5, "text": "calculated statistics over the datasets across the following", "bbox": {"l": 50.333333333333336, "t": 571.4019978841146, "r": 286.0, "b": 580.7353312174479, "coord_origin": "1"}}, {"id": 6, "text": "dimensions: (1) table size measured 1n the number of rows", "bbox": {"l": 50.333333333333336, "t": 560.4019978841146, "r": 286.0, "b": 568.7353312174479, "coord_origin": "1"}}, {"id": 7, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 50.333333333333336, "t": 547.4019978841146, "r": 286.6666666666667, "b": 556.7353312174479, "coord_origin": "1"}}, {"id": 8, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 50.333333333333336, "t": 535.4019978841145, "r": 286.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 9, "text": "omitted bounding boxes). A table is considered to be simple", "bbox": {"l": 50.333333333333336, "t": 523.4019978841145, "r": 286.0, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 10, "text": "if it does not contain row spans or column spans. Addition-", "bbox": {"l": 50.333333333333336, "t": 511.40199788411456, "r": 286.0, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 11, "text": "ally, a table has a strict HI ML structure 1f every row has the", "bbox": {"l": 50.333333333333336, "t": 500.06866455078125, "r": 286.0, "b": 509.06866455078125, "coord_origin": "1"}}, {"id": 12, "text": "same number of columns after taking into account any row", "bbox": {"l": 50.333333333333336, "t": 488.06866455078125, "r": 286.0, "b": 497.06866455078125, "coord_origin": "1"}}, {"id": 13, "text": "or column spans. [Therefore a strict HI ML structure looks", "bbox": {"l": 50.333333333333336, "t": 476.06866455078125, "r": 286.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 14, "text": "always rectangular. However, HI ML 1s a lenient encoding", "bbox": {"l": 50.333333333333336, "t": 464.06866455078125, "r": 286.0, "b": 473.06866455078125, "coord_origin": "1"}}, {"id": 15, "text": "format, 1.e. tables with rows of different sizes might still", "bbox": {"l": 50.666666666666664, "t": 452.06866455078125, "r": 286.0, "b": 461.06866455078125, "coord_origin": "1"}}, {"id": 16, "text": "be regarded as correct due to implicit display rules. [hese", "bbox": {"l": 50.333333333333336, "t": 440.06866455078125, "r": 286.0, "b": 449.06866455078125, "coord_origin": "1"}}, {"id": 17, "text": "implicit rules leave room for ambiguity, which we want to", "bbox": {"l": 50.333333333333336, "t": 428.06866455078125, "r": 286.0, "b": 437.06866455078125, "coord_origin": "1"}}, {"id": 18, "text": "avoid. As such, we prefer to have \u2018strict\u2019 tables, 1.e. tables", "bbox": {"l": 50.333333333333336, "t": 416.06866455078125, "r": 286.0, "b": 425.06866455078125, "coord_origin": "1"}}, {"id": 19, "text": "where every row has exactly the same length.", "bbox": {"l": 50.333333333333336, "t": 404.06866455078125, "r": 230.0, "b": 413.06866455078125, "coord_origin": "1"}}, {"id": 20, "text": "We have developed a technique that tries to derive a", "bbox": {"l": 62.333333333333336, "t": 392.06866455078125, "r": 286.3333333333333, "b": 401.06866455078125, "coord_origin": "1"}}]}, "text": "1.1. Data preparation As a first step of our data preparation process, we have calculated statistics over the datasets across the following dimensions: (1) table size measured 1n the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes). A table is considered to be simple if it does not contain row spans or column spans. Additionally, a table has a strict HI ML structure 1f every row has the same number of columns after taking into account any row or column spans. [Therefore a strict HI ML structure looks always rectangular. However, HI ML 1s a lenient encoding format, 1.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. [hese implicit rules leave room for ambiguity, which we want to avoid. As such, we prefer to have \u2018strict\u2019 tables, 1.e. tables where every row has exactly the same length. We have developed a technique that tries to derive a"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 49.627410888671875, "t": 198.82928466796875, "r": 286.6666666666667, "b": 389.06866455078125, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 21, "text": "missing bounding box out of its neighbors. As a first step.", "bbox": {"l": 50.333333333333336, "t": 380.06866455078125, "r": 285.6666666666667, "b": 389.06866455078125, "coord_origin": "1"}}, {"id": 22, "text": "we use the annotation data to generate the most fine-grained", "bbox": {"l": 50.333333333333336, "t": 368.06866455078125, "r": 286.0, "b": 377.06866455078125, "coord_origin": "1"}}, {"id": 23, "text": "erid that covers the table structure. In case of strict HIML", "bbox": {"l": 50.333333333333336, "t": 356.06866455078125, "r": 286.0, "b": 365.06866455078125, "coord_origin": "1"}}, {"id": 24, "text": "tables, all grid squares are associated with some table cell", "bbox": {"l": 50.333333333333336, "t": 344.06866455078125, "r": 286.0, "b": 353.06866455078125, "coord_origin": "1"}}, {"id": 25, "text": "and in the presence of table spans a cell extends across mul-", "bbox": {"l": 50.333333333333336, "t": 331.73533121744794, "r": 286.0, "b": 341.06866455078125, "coord_origin": "1"}}, {"id": 26, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 50.333333333333336, "t": 320.40199788411456, "r": 286.0, "b": 329.40199788411456, "coord_origin": "1"}}, {"id": 27, "text": "for a rectangular table, it 1s possible to compute the geo-", "bbox": {"l": 50.666666666666664, "t": 308.40199788411456, "r": 286.0, "b": 317.40199788411456, "coord_origin": "1"}}, {"id": 28, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 50.333333333333336, "t": 296.40199788411456, "r": 285.6666666666667, "b": 305.40199788411456, "coord_origin": "1"}}, {"id": 29, "text": "Eventually this information 1s used to generate the missing", "bbox": {"l": 50.333333333333336, "t": 284.40199788411456, "r": 286.0, "b": 293.40199788411456, "coord_origin": "1"}}, {"id": 30, "text": "bounding boxes. Additionally, the existence of unused grid", "bbox": {"l": 50.333333333333336, "t": 272.4019978841146, "r": 286.0, "b": 281.40199788411456, "coord_origin": "1"}}, {"id": 31, "text": "Squares indicates that the table rows have unequal number", "bbox": {"l": 50.333333333333336, "t": 260.4019978841146, "r": 286.3333333333333, "b": 269.4019978841146, "coord_origin": "1"}}, {"id": 32, "text": "of columns and the overall structure 1s non-strict. [he gen-", "bbox": {"l": 50.333333333333336, "t": 248.40199788411462, "r": 286.0, "b": 257.4019978841146, "coord_origin": "1"}}, {"id": 33, "text": "eration of missing bounding boxes for non-strict HI ML ta-", "bbox": {"l": 50.333333333333336, "t": 236.40199788411462, "r": 286.0, "b": 245.40199788411462, "coord_origin": "1"}}, {"id": 34, "text": "bles 1s ambiguous and therefore quite challenging. lhus,", "bbox": {"l": 50.333333333333336, "t": 224.40199788411462, "r": 285.6666666666667, "b": 233.40199788411462, "coord_origin": "1"}}, {"id": 35, "text": "we have decided to simply discard those tables. In case of", "bbox": {"l": 50.333333333333336, "t": 212.40199788411462, "r": 286.6666666666667, "b": 221.40199788411462, "coord_origin": "1"}}, {"id": 36, "text": "Pub labNet we have computed missing bounding boxes for", "bbox": {"l": 50.333333333333336, "t": 200.40199788411462, "r": 286.3333333333333, "b": 209.40199788411462, "coord_origin": "1"}}]}, "text": "missing bounding box out of its neighbors. As a first step. we use the annotation data to generate the most fine-grained erid that covers the table structure. In case of strict HIML tables, all grid squares are associated with some table cell and in the presence of table spans a cell extends across multiple grid squares. When enough bounding boxes are known for a rectangular table, it 1s possible to compute the geometrical border lines between the grid rows and columns. Eventually this information 1s used to generate the missing bounding boxes. Additionally, the existence of unused grid Squares indicates that the table rows have unequal number of columns and the overall structure 1s non-strict. [he generation of missing bounding boxes for non-strict HI ML tables 1s ambiguous and therefore quite challenging. lhus, we have decided to simply discard those tables. In case of Pub labNet we have computed missing bounding boxes for"}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 50.0, "t": 188.73533121744788, "r": 286.0, "b": 198.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 37, "text": "48% of the simple and 69% of the complex tables. Regard-", "bbox": {"l": 50.0, "t": 188.73533121744788, "r": 286.0, "b": 198.06866455078125, "coord_origin": "1"}}]}, "text": "48% of the simple and 69% of the complex tables. Regard-"}, {"label": "Section-header", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 176.73533121744788, "r": 285.6666666666667, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 38, "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "bbox": {"l": 50.333333333333336, "t": 176.73533121744788, "r": 285.6666666666667, "b": 186.06866455078125, "coord_origin": "1"}}]}, "text": "ing FinlabNet, 68% of the simple and 98% of the complex"}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 49.78814697265625, "t": 176.73533121744788, "r": 285.6666666666667, "b": 190.48927307128906, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 38, "text": "ing FinlabNet, 68% of the simple and 98% of the complex", "bbox": {"l": 50.333333333333336, "t": 176.73533121744788, "r": 285.6666666666667, "b": 186.06866455078125, "coord_origin": "1"}}]}, "text": "ing FinlabNet, 68% of the simple and 98% of the complex"}, {"label": "Section-header", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Section-header", "bbox": {"l": 49.808494567871094, "t": 160.348876953125, "r": 241.66666666666666, "b": 174.06866455078125, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 39, "text": "tables require the generation of bounding boxes.", "bbox": {"l": 50.333333333333336, "t": 164.73533121744788, "r": 241.66666666666666, "b": 174.06866455078125, "coord_origin": "1"}}]}, "text": "tables require the generation of bounding boxes."}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 50.333333333333336, "t": 140.73533121744788, "r": 286.0, "b": 161.40199788411462, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 40, "text": "Figure / illustrates the distribution of the tables across", "bbox": {"l": 62.333333333333336, "t": 152.40199788411462, "r": 286.0, "b": 161.40199788411462, "coord_origin": "1"}}, {"id": 41, "text": "different dimensions per dataset.", "bbox": {"l": 50.333333333333336, "t": 140.73533121744788, "r": 179.0, "b": 150.06866455078125, "coord_origin": "1"}}]}, "text": "Figure / illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Section-header", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Section-header", "bbox": {"l": 51.0, "t": 109.81901550292969, "r": 544.6666666666666, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 42, "text": "1.2. Synthetic datasets", "bbox": {"l": 51.0, "t": 120.06866455078125, "r": 153.33333333333334, "b": 130.06866455078125, "coord_origin": "1"}}, {"id": 87, "text": "the bounding boxes for tables recognized inside PDF docu-", "bbox": {"l": 309.0, "t": 114.06866455078125, "r": 544.6666666666666, "b": 123.06866455078125, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets the bounding boxes for tables recognized inside PDF docu-"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 50.333333333333336, "t": 78.06866455078125, "r": 286.6666666666667, "b": 111.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 43, "text": "Aiming to train and evaluate our models in a broader", "bbox": {"l": 62.333333333333336, "t": 102.06866455078125, "r": 286.3333333333333, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 44, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 50.333333333333336, "t": 90.06866455078125, "r": 286.6666666666667, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 45, "text": "datasets. Each one contains tables with different appear-", "bbox": {"l": 50.333333333333336, "t": 78.06866455078125, "r": 286.0, "b": 87.06866455078125, "coord_origin": "1"}}]}, "text": "Aiming to train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets. Each one contains tables with different appear-"}, {"label": "Section-header", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Section-header", "bbox": {"l": 308.37005615234375, "t": 621.0686645507812, "r": 544.79541015625, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 47, "text": "ances in regard to their size, structure, style and content.", "bbox": {"l": 309.0, "t": 621.0686645507812, "r": 544.3333333333334, "b": 630.0686645507812, "coord_origin": "1"}}]}, "text": "ances in regard to their size, structure, style and content."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 309.0, "t": 609.0686645507812, "r": 544.6666666666666, "b": 618.0686645507812, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 48, "text": "Every synthetic dataset contains 150k examples, summing", "bbox": {"l": 309.0, "t": 609.0686645507812, "r": 544.6666666666666, "b": 618.0686645507812, "coord_origin": "1"}}]}, "text": "Every synthetic dataset contains 150k examples, summing"}, {"label": "Text", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Text", "bbox": {"l": 308.32305908203125, "t": 547.4019978841146, "r": 545.078857421875, "b": 606.7564697265625, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 49, "text": "up to 600K synthetic examples. All datasets are divided into", "bbox": {"l": 309.0, "t": 597.0686645507812, "r": 545.0, "b": 606.0686645507812, "coord_origin": "1"}}, {"id": 50, "text": "Train, lest and Val splits (8O%, 10%, 10%).", "bbox": {"l": 309.0, "t": 585.0686645507812, "r": 483.3333333333333, "b": 594.0686645507812, "coord_origin": "1"}}, {"id": 51, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 321.0, "t": 572.0686645507812, "r": 544.6666666666666, "b": 581.0686645507812, "coord_origin": "1"}}, {"id": 52, "text": "composed into the following steps:", "bbox": {"l": 309.0, "t": 560.0686645507812, "r": 447.0, "b": 569.0686645507812, "coord_origin": "1"}}, {"id": 53, "text": "|. Prepare styling and content templates: The styling", "bbox": {"l": 322.3333333333333, "t": 547.4019978841146, "r": 544.6666666666666, "b": 556.7353312174479, "coord_origin": "1"}}]}, "text": "up to 600K synthetic examples. All datasets are divided into Train, lest and Val splits (8O%, 10%, 10%). The process of generating a synthetic dataset can be decomposed into the following steps: |. Prepare styling and content templates: The styling"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 308.402587890625, "t": 499.40199788411456, "r": 545.0632934570312, "b": 545.4546508789062, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 54, "text": "templates have been manually designed and organized into", "bbox": {"l": 309.0, "t": 535.4019978841145, "r": 545.0, "b": 544.7353312174479, "coord_origin": "1"}}, {"id": 55, "text": "groups of scope specific appearances (e.g. financial data.", "bbox": {"l": 309.0, "t": 523.4019978841145, "r": 544.3333333333334, "b": 532.735331217448, "coord_origin": "1"}}, {"id": 56, "text": "marketing data, etc.) Additionally, we have prepared cu-", "bbox": {"l": 309.0, "t": 511.40199788411456, "r": 544.6666666666666, "b": 520.735331217448, "coord_origin": "1"}}, {"id": 57, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 309.0, "t": 499.40199788411456, "r": 544.6666666666666, "b": 508.73533121744794, "coord_origin": "1"}}]}, "text": "templates have been manually designed and organized into groups of scope specific appearances (e.g. financial data. marketing data, etc.) Additionally, we have prepared curated collections of content templates by extracting the most"}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 308.17218017578125, "t": 451.06866455078125, "r": 544.9503173828125, "b": 496.8595275878906, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 58, "text": "frequently used terms out of non-synthetic datasets (e.g.", "bbox": {"l": 309.3333333333333, "t": 487.40199788411456, "r": 544.3333333333334, "b": 496.73533121744794, "coord_origin": "1"}}, {"id": 59, "text": "Pub labNet, Fin LabNet, etc.).", "bbox": {"l": 309.0, "t": 476.73533121744794, "r": 425.0, "b": 485.06866455078125, "coord_origin": "1"}}, {"id": 60, "text": "2. Generate table structures: [he structure of each syn-", "bbox": {"l": 321.0, "t": 463.06866455078125, "r": 544.6666666666666, "b": 472.06866455078125, "coord_origin": "1"}}, {"id": 61, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 309.0, "t": 451.06866455078125, "r": 544.6666666666666, "b": 460.06866455078125, "coord_origin": "1"}}]}, "text": "frequently used terms out of non-synthetic datasets (e.g. Pub labNet, Fin LabNet, etc.). 2. Generate table structures: [he structure of each synthetic dataset assumes a horizontal table header which po-"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 308.2052001953125, "t": 319.06866455078125, "r": 545.3333333333334, "b": 448.723388671875, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 62, "text": "tentially spans over multiple rows and a table body that", "bbox": {"l": 309.0, "t": 439.06866455078125, "r": 544.6666666666666, "b": 448.06866455078125, "coord_origin": "1"}}, {"id": 63, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 309.0, "t": 427.06866455078125, "r": 544.3333333333334, "b": 436.06866455078125, "coord_origin": "1"}}, {"id": 64, "text": "However, spans are not allowed to cross the header - body", "bbox": {"l": 309.3333333333333, "t": 415.06866455078125, "r": 544.6666666666666, "b": 424.06866455078125, "coord_origin": "1"}}, {"id": 65, "text": "boundary. Ihe table structure 1s described by the parame-", "bbox": {"l": 309.0, "t": 403.06866455078125, "r": 544.6666666666666, "b": 412.06866455078125, "coord_origin": "1"}}, {"id": 66, "text": "ters: Total number of table rows and columns. number of", "bbox": {"l": 309.0, "t": 393.06866455078125, "r": 545.3333333333334, "b": 400.73533121744794, "coord_origin": "1"}}, {"id": 67, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 309.0, "t": 379.40199788411456, "r": 544.6666666666666, "b": 388.73533121744794, "coord_origin": "1"}}, {"id": 68, "text": "spans, column only spans, both row and column spans),", "bbox": {"l": 309.0, "t": 367.40199788411456, "r": 544.3333333333334, "b": 376.40199788411456, "coord_origin": "1"}}, {"id": 69, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 309.0, "t": 355.40199788411456, "r": 544.6666666666666, "b": 364.73533121744794, "coord_origin": "1"}}, {"id": 70, "text": "by spans.", "bbox": {"l": 309.0, "t": 343.40199788411456, "r": 345.3333333333333, "b": 352.40199788411456, "coord_origin": "1"}}, {"id": 71, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 321.0, "t": 331.73533121744794, "r": 545.3333333333334, "b": 339.73533121744794, "coord_origin": "1"}}, {"id": 72, "text": "suitable content templates 1s chosen first. Then, this content", "bbox": {"l": 309.0, "t": 319.06866455078125, "r": 544.6666666666666, "b": 328.06866455078125, "coord_origin": "1"}}]}, "text": "tentially spans over multiple rows and a table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header - body boundary. Ihe table structure 1s described by the parameters: Total number of table rows and columns. number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans), maximum span size and the ratio of the table area covered by spans. Generate content: Based on the dataset theme. a set of suitable content templates 1s chosen first. Then, this content"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 308.4111022949219, "t": 233.40199788411462, "r": 545.0, "b": 316.1220397949219, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 73, "text": "can be combined with purely random text to produce the", "bbox": {"l": 309.0, "t": 307.06866455078125, "r": 544.6666666666666, "b": 316.06866455078125, "coord_origin": "1"}}, {"id": 74, "text": "synthetic content.", "bbox": {"l": 309.0, "t": 295.06866455078125, "r": 378.3333333333333, "b": 304.06866455078125, "coord_origin": "1"}}, {"id": 75, "text": "4. Apply styling templates: Depending on the domain", "bbox": {"l": 320.6666666666667, "t": 282.06866455078125, "r": 544.6666666666666, "b": 291.06866455078125, "coord_origin": "1"}}, {"id": 76, "text": "of the synthetic dataset, a set of styling templates 1s first", "bbox": {"l": 309.0, "t": 270.06866455078125, "r": 544.6666666666666, "b": 279.06866455078125, "coord_origin": "1"}}, {"id": 77, "text": "manually selected. Ihen, a style is randomly selected to", "bbox": {"l": 309.0, "t": 258.06866455078125, "r": 545.0, "b": 267.06866455078125, "coord_origin": "1"}}, {"id": 78, "text": "format the appearance of the synthesized table.", "bbox": {"l": 309.3333333333333, "t": 246.40199788411462, "r": 495.3333333333333, "b": 255.73533121744788, "coord_origin": "1"}}, {"id": 79, "text": "5. Render the complete tables: The synthetic table 1s", "bbox": {"l": 321.0, "t": 233.40199788411462, "r": 544.6666666666666, "b": 242.73533121744788, "coord_origin": "1"}}]}, "text": "can be combined with purely random text to produce the synthetic content. 4. Apply styling templates: Depending on the domain of the synthetic dataset, a set of styling templates 1s first manually selected. Ihen, a style is randomly selected to format the appearance of the synthesized table. 5. Render the complete tables: The synthetic table 1s"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 308.44775390625, "t": 209.40199788411462, "r": 544.8419799804688, "b": 232.35369873046875, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 80, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 309.3333333333333, "t": 221.40199788411462, "r": 544.6666666666666, "b": 230.73533121744788, "coord_origin": "1"}}, {"id": 81, "text": "bounding boxes for each table cell. A batching technique 1s", "bbox": {"l": 309.0, "t": 209.40199788411462, "r": 544.6666666666666, "b": 218.73533121744788, "coord_origin": "1"}}]}, "text": "finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique 1s"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 308.32464599609375, "t": 159.40199788411462, "r": 545.0006713867188, "b": 207.03915405273438, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 82, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 309.0, "t": 197.40199788411462, "r": 544.6666666666666, "b": 206.73533121744788, "coord_origin": "1"}}, {"id": 83, "text": "DIOCESS.", "bbox": {"l": 309.0, "t": 185.40199788411462, "r": 340.3333333333333, "b": 192.40199788411462, "coord_origin": "1"}}, {"id": 84, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 309.0, "t": 159.40199788411462, "r": 544.6666666666666, "b": 170.06866455078125, "coord_origin": "1"}}]}, "text": "utilized to optimize the runtime overhead of the rendering DIOCESS. 2. Prediction post-processing for PDF docu-"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 327.0, "t": 147.73533121744788, "r": 357.0, "b": 155.40199788411462, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 85, "text": "ments", "bbox": {"l": 327.0, "t": 147.73533121744788, "r": 357.0, "b": 155.40199788411462, "coord_origin": "1"}}]}, "text": "ments"}, {"label": "Section-header", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Section-header", "bbox": {"l": 321.0, "t": 126.06866455078125, "r": 544.6666666666666, "b": 135.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 86, "text": "Although lableFormer can predict the table structure and", "bbox": {"l": 321.0, "t": 126.06866455078125, "r": 544.6666666666666, "b": 135.06866455078125, "coord_origin": "1"}}]}, "text": "Although lableFormer can predict the table structure and"}, {"label": "Text", "id": 22, "page_no": 0, "cluster": {"id": 22, "label": "Text", "bbox": {"l": 309.0, "t": 78.06866455078125, "r": 544.6666666666666, "b": 111.06866455078125, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 88, "text": "ments, this 1s not enough when a full reconstruction of the", "bbox": {"l": 309.0, "t": 102.06866455078125, "r": 544.6666666666666, "b": 111.06866455078125, "coord_origin": "1"}}, {"id": 89, "text": "original table 1s required. [his happens mainly due the fol-", "bbox": {"l": 309.0, "t": 90.06866455078125, "r": 544.6666666666666, "b": 99.06866455078125, "coord_origin": "1"}}, {"id": 90, "text": "lowing reasons", "bbox": {"l": 309.3333333333333, "t": 78.06866455078125, "r": 370.6666666666667, "b": 87.06866455078125, "coord_origin": "1"}}]}, "text": "ments, this 1s not enough when a full reconstruction of the original table 1s required. [his happens mainly due the following reasons"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.easyocr.doctags.txt b/tests/data_scanned/scanned_02.easyocr.doctags.txt index 1c3ac28d..38de2bf0 100644 --- a/tests/data_scanned/scanned_02.easyocr.doctags.txt +++ b/tests/data_scanned/scanned_02.easyocr.doctags.txt @@ -1,7 +1,6 @@ -
- -
+UNIVERSITYof HOUSTON | CLASS +Professional Development Award for Staff Purpose The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again. Eligibility @@ -9,17 +8,14 @@ What the Award Will Fund Costs associated with conference/workshop including: Airfare -Lodging -Meals +Lodging +Meals Registration fees Ground Transportation What the Award Will Not Fund expenses incurred outside of the scope of the proposed development activity. Any -Granting Schedule -Earliest Submission Date: August 1st -Applications Due: October 1s -Applications Due: October 1s -Notification of Awards: November 1st +Granting Schedule +Earliest Submission Date: August 1st Applications Due: October 1s Notification of Awards: November 1st Please submit applications to CLASSGrt@uh edu by the deadline. Please write "Professional Development-Staff" in the subject line. PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will
\ No newline at end of file diff --git a/tests/data_scanned/scanned_02.easyocr.json b/tests/data_scanned/scanned_02.easyocr.json index b156c619..589c6601 100644 --- a/tests/data_scanned/scanned_02.easyocr.json +++ b/tests/data_scanned/scanned_02.easyocr.json @@ -1 +1 @@ -{"_name": "", "type": "pdf-document", "description": {"logs": []}, "file-info": {"filename": "scanned_02.pdf", "document-hash": "26020256342d0a5745c44b1241b18848ce18426a21fb3740cd8976871645c57b", "#-pages": 1, "page-hashes": [{"hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "model": "default", "page": 1}]}, "main-text": [{"name": "Picture", "type": "figure", "$ref": "#/figures/0"}, {"prov": [{"bbox": [145.3333282470703, 1320.6666259765625, 253.6666717529297, 1358.0], "page": 1, "span": [0, 7]}], "text": "Purpose", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [145.6666717529297, 1140.3333740234375, 1124.3333740234375, 1321.3333740234375], "page": 1, "span": [0, 510]}], "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.6666717529297, 1087.3333740234375, 264.3333435058594, 1121.0], "page": 1, "span": [0, 11]}], "text": "Eligibility", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.0, 1051.6666259765625, 646.0, 1085.3333740234375], "page": 1, "span": [0, 51]}], "text": "All staff currently employed in CLASS are eligible.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [148.3333282470703, 1004.0, 474.3333435058594, 1033.0], "page": 1, "span": [0, 24]}], "text": "What the Award Will Fund", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [146.6666717529297, 965.3333129882812, 717.6666870117188, 999.6666870117188], "page": 1, "span": [0, 52]}], "text": "Costs associated with conference/workshop including:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [187.4677734375, 938.3333129882812, 298.3333435058594, 963.0], "page": 1, "span": [0, 7]}], "text": "Airfare", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.50680541992188, 902.0, 309.0, 932.3333129882812], "page": 1, "span": [0, 7]}], "text": "Lodging", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.22247314453125, 874.0, 290.6666564941406, 898.6666870117188], "page": 1, "span": [0, 5]}], "text": "Meals", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.3411407470703, 838.6666870117188, 402.0, 868.0], "page": 1, "span": [0, 17]}], "text": "Registration fees", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.77513122558594, 807.0, 466.3333435058594, 834.0], "page": 1, "span": [0, 21]}], "text": "Ground Transportation", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [148.3333282470703, 756.3333129882812, 526.0, 785.3333129882812], "page": 1, "span": [0, 28]}], "text": "What the Award Will Not Fund", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.1505584716797, 716.0, 990.6666870117188, 752.0], "page": 1, "span": [0, 80]}], "text": "expenses incurred outside of the scope of the proposed development activity. Any", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [145.0, 661.6666870117188, 376.0, 702.0], "page": 1, "span": [0, 17]}], "text": "Granting Schedule", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.0, 628.6666870117188, 523.6666870117188, 662.0], "page": 1, "span": [0, 36]}], "text": "Earliest Submission Date: August 1st", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.3333282470703, 596.0, 456.6666564941406, 630.6666870117188], "page": 1, "span": [0, 28]}], "text": "Applications Due: October 1s", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.3333282470703, 596.0, 456.6666564941406, 630.6666870117188], "page": 1, "span": [0, 28]}], "text": "Applications Due: October 1s", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [148.6666717529297, 568.3333129882812, 538.3333129882812, 595.3333129882812], "page": 1, "span": [0, 36]}], "text": "Notification of Awards: November 1st", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.3333282470703, 464.6666564941406, 1083.3333740234375, 532.6666870117188], "page": 1, "span": [0, 129]}], "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.6666717529297, 317.6666564941406, 1097.3333740234375, 445.3333435058594], "page": 1, "span": [0, 292]}], "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will", "type": "paragraph", "name": "Text"}], "figures": [{"prov": [{"bbox": [207.6666717529297, 1439.6666259765625, 1047.0, 1499.6666259765625], "page": 1, "span": [0, 0]}], "text": "", "type": "figure"}], "tables": [], "equations": [], "footnotes": [], "page-dimensions": [{"height": 1651.0, "page": 1, "width": 1275.0}], "page-footers": [], "page-headers": []} \ No newline at end of file +{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "scanned_02.pdf", "filename-prov": null, "document-hash": "26020256342d0a5745c44b1241b18848ce18426a21fb3740cd8976871645c57b", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [207.6666717529297, 1431.730224609375, 1047.0, 1508.400146484375], "page": 1, "span": [0, 28], "__ref_s3_data": null}], "text": "UNIVERSITYof HOUSTON | CLASS", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [377.6666564941406, 1377.6666259765625, 897.6666870117188, 1415.302490234375], "page": 1, "span": [0, 40], "__ref_s3_data": null}], "text": "Professional Development Award for Staff", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [145.3333282470703, 1320.6666259765625, 253.6666717529297, 1358.1634521484375], "page": 1, "span": [0, 7], "__ref_s3_data": null}], "text": "Purpose", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [145.6666717529297, 1140.3333740234375, 1126.662841796875, 1322.91552734375], "page": 1, "span": [0, 510], "__ref_s3_data": null}], "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [146.6666717529297, 1087.3333740234375, 264.3333435058594, 1123.46875], "page": 1, "span": [0, 11], "__ref_s3_data": null}], "text": "Eligibility", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [148.0, 1051.6666259765625, 646.3479614257812, 1086.4814453125], "page": 1, "span": [0, 51], "__ref_s3_data": null}], "text": "All staff currently employed in CLASS are eligible.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [148.3333282470703, 1001.1909790039062, 474.3333435058594, 1035.42919921875], "page": 1, "span": [0, 24], "__ref_s3_data": null}], "text": "What the Award Will Fund", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [146.6666717529297, 965.3333129882812, 717.6666870117188, 999.6666870117188], "page": 1, "span": [0, 52], "__ref_s3_data": null}], "text": "Costs associated with conference/workshop including:", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [187.08334350585938, 935.7208862304688, 298.3333435058594, 965.3743896484375], "page": 1, "span": [0, 7], "__ref_s3_data": null}], "text": "Airfare", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.2494659423828, 902.0, 309.0, 933.8040161132812], "page": 1, "span": [0, 7], "__ref_s3_data": null}], "text": "Lodging", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.2578125, 871.2530517578125, 290.6666564941406, 902.1221313476562], "page": 1, "span": [0, 5], "__ref_s3_data": null}], "text": "Meals", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.22906494140625, 838.6666870117188, 402.0, 870.3285522460938], "page": 1, "span": [0, 17], "__ref_s3_data": null}], "text": "Registration fees", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.10479736328125, 807.0, 466.3333435058594, 838.9454345703125], "page": 1, "span": [0, 21], "__ref_s3_data": null}], "text": "Ground Transportation", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [148.3333282470703, 752.5780639648438, 526.0, 786.8460083007812], "page": 1, "span": [0, 28], "__ref_s3_data": null}], "text": "What the Award Will Not Fund", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [148.22947692871094, 716.0, 990.6666870117188, 752.0], "page": 1, "span": [0, 80], "__ref_s3_data": null}], "text": "expenses incurred outside of the scope of the proposed development activity. Any", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [145.0, 661.6666870117188, 376.0, 702.0], "page": 1, "span": [0, 17], "__ref_s3_data": null}], "text": "Granting Schedule", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [146.3333282470703, 566.1650390625, 538.3333129882812, 694.556640625], "page": 1, "span": [0, 102], "__ref_s3_data": null}], "text": "Earliest Submission Date: August 1st Applications Due: October 1s Notification of Awards: November 1st", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [146.3333282470703, 464.6666564941406, 1084.8453369140625, 532.6666870117188], "page": 1, "span": [0, 129], "__ref_s3_data": null}], "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [146.6666717529297, 317.6666564941406, 1098.813232421875, 446.0452880859375], "page": 1, "span": [0, 292], "__ref_s3_data": null}], "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 1651.0, "page": 1, "width": 1275.0}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.easyocr.md b/tests/data_scanned/scanned_02.easyocr.md index 0b71cd29..2857f84b 100644 --- a/tests/data_scanned/scanned_02.easyocr.md +++ b/tests/data_scanned/scanned_02.easyocr.md @@ -1,5 +1,6 @@ +## UNIVERSITYof HOUSTON | CLASS - +## Professional Development Award for Staff ## Purpose @@ -27,13 +28,9 @@ Ground Transportation expenses incurred outside of the scope of the proposed development activity. Any -## Granting Schedule +Granting Schedule -Earliest Submission Date: August 1st - -Applications Due: October 1s - -Notification of Awards: November 1st +Earliest Submission Date: August 1st Applications Due: October 1s Notification of Awards: November 1st Please submit applications to CLASSGrt@uh edu by the deadline. Please write "Professional Development-Staff" in the subject line. diff --git a/tests/data_scanned/scanned_02.easyocr.pages.json b/tests/data_scanned/scanned_02.easyocr.pages.json index 5e1499cb..2da5b981 100644 --- a/tests/data_scanned/scanned_02.easyocr.pages.json +++ b/tests/data_scanned/scanned_02.easyocr.pages.json @@ -1 +1 @@ -[{"page_no": 0, "page_hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "size": {"width": 1275.0, "height": 1651.0}, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}, {"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}, {"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}, {"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}, {"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}, {"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}, {"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}, {"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}, {"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}, {"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}, {"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}, {"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}, {"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}, {"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}, {"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}, {"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}, {"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}, {"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}, {"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}, {"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Picture", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, {"id": 1, "label": "Title", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}, "confidence": 0.7356554269790649, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 329.66666666666674, "r": 1124.3333333333333, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, {"id": 15, "label": "Section-header", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, {"id": 16, "label": "Text", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, {"id": 18, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, {"id": 19, "label": "Text", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, {"id": 20, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1083.3333333333333, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, {"id": 21, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Picture", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Picture", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, "text": "", "data": null, "provenance": null, "predicted_class": null, "confidence": null}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 329.66666666666674, "r": 1124.3333333333333, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, "text": "Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, "text": "Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, "text": "Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, "text": "Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, "text": "expenses incurred outside of the scope of the proposed development activity. Any"}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1st"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, "text": "Notification of Awards: November 1st"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1083.3333333333333, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line."}, {"label": "Text", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will"}], "body": [{"label": "Picture", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Picture", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, "text": "", "data": null, "provenance": null, "predicted_class": null, "confidence": null}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 329.66666666666674, "r": 1124.3333333333333, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, "text": "Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, "text": "Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, "text": "Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, "text": "Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, "text": "expenses incurred outside of the scope of the proposed development activity. Any"}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1st"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, "text": "Notification of Awards: November 1st"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1083.3333333333333, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line."}, {"label": "Text", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will"}], "headers": []}}] \ No newline at end of file +[{"page_no": 0, "page_hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "size": {"width": 1275.0, "height": 1651.0}, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}, {"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}, {"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}, {"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}, {"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}, {"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}, {"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}, {"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}, {"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}, {"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}, {"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}, {"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}, {"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}, {"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}, {"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}, {"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}, {"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}, {"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}, {"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}, {"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 207.66666666666666, "t": 142.5998077392578, "r": 1047.0, "b": 219.26974487304688, "coord_origin": "1"}, "confidence": 0.8432531356811523, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, {"id": 1, "label": "Section-header", "bbox": {"l": 377.6666666666667, "t": 235.697509765625, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}, "confidence": 0.8731197714805603, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 292.8365173339844, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9122956991195679, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 328.08453369140625, "r": 1126.662841796875, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 527.5313110351562, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9110528826713562, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 564.5184936523438, "r": 646.3479614257812, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 615.5708618164062, "r": 474.3333333333333, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, {"id": 8, "label": "List-item", "bbox": {"l": 187.08334350585938, "t": 685.6256103515625, "r": 298.3333333333333, "b": 715.2791137695312, "coord_origin": "1"}, "confidence": 0.9044503569602966, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, {"id": 9, "label": "List-item", "bbox": {"l": 187.2494659423828, "t": 717.1959838867188, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9049186706542969, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, {"id": 10, "label": "List-item", "bbox": {"l": 187.2578125, "t": 748.8778686523438, "r": 290.6666666666667, "b": 779.7469482421875, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 187.22906494140625, "t": 780.6714477539062, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9183782339096069, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 812.0545654296875, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 864.1539916992188, "r": 526.0, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, {"id": 16, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 956.443359375, "r": 538.3333333333334, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}, {"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}, {"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1084.8453369140625, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, {"id": 18, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1204.9547119140625, "r": 1098.813232421875, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 207.66666666666666, "t": 142.5998077392578, "r": 1047.0, "b": 219.26974487304688, "coord_origin": "1"}, "confidence": 0.8432531356811523, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, "text": "UNIVERSITYof HOUSTON | CLASS"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 377.6666666666667, "t": 235.697509765625, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}, "confidence": 0.8731197714805603, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}]}, "text": "Professional Development Award for Staff"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 292.8365173339844, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9122956991195679, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 328.08453369140625, "r": 1126.662841796875, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 527.5313110351562, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9110528826713562, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 564.5184936523438, "r": 646.3479614257812, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 615.5708618164062, "r": 474.3333333333333, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.08334350585938, "t": 685.6256103515625, "r": 298.3333333333333, "b": 715.2791137695312, "coord_origin": "1"}, "confidence": 0.9044503569602966, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, "text": "Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.2494659423828, "t": 717.1959838867188, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9049186706542969, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, "text": "Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.2578125, "t": 748.8778686523438, "r": 290.6666666666667, "b": 779.7469482421875, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.22906494140625, "t": 780.6714477539062, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9183782339096069, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, "text": "Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 812.0545654296875, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, "text": "Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 864.1539916992188, "r": 526.0, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, "text": "expenses incurred outside of the scope of the proposed development activity. Any"}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 956.443359375, "r": 538.3333333333334, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}, {"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}, {"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1st Applications Due: October 1s Notification of Awards: November 1st"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1084.8453369140625, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line."}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1204.9547119140625, "r": 1098.813232421875, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will"}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 207.66666666666666, "t": 142.5998077392578, "r": 1047.0, "b": 219.26974487304688, "coord_origin": "1"}, "confidence": 0.8432531356811523, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, "text": "UNIVERSITYof HOUSTON | CLASS"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 377.6666666666667, "t": 235.697509765625, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}, "confidence": 0.8731197714805603, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}]}, "text": "Professional Development Award for Staff"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 292.8365173339844, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9122956991195679, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 328.08453369140625, "r": 1126.662841796875, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 527.5313110351562, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9110528826713562, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 564.5184936523438, "r": 646.3479614257812, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 615.5708618164062, "r": 474.3333333333333, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.08334350585938, "t": 685.6256103515625, "r": 298.3333333333333, "b": 715.2791137695312, "coord_origin": "1"}, "confidence": 0.9044503569602966, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, "text": "Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.2494659423828, "t": 717.1959838867188, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9049186706542969, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, "text": "Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.2578125, "t": 748.8778686523438, "r": 290.6666666666667, "b": 779.7469482421875, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.22906494140625, "t": 780.6714477539062, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9183782339096069, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, "text": "Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 812.0545654296875, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, "text": "Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 864.1539916992188, "r": 526.0, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, "text": "expenses incurred outside of the scope of the proposed development activity. Any"}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 956.443359375, "r": 538.3333333333334, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}, {"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}, {"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1st Applications Due: October 1s Notification of Awards: November 1st"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1084.8453369140625, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line."}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1204.9547119140625, "r": 1098.813232421875, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will"}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesseract.doctags.txt b/tests/data_scanned/scanned_02.tesseract.doctags.txt index 1c3ac28d..33be798f 100644 --- a/tests/data_scanned/scanned_02.tesseract.doctags.txt +++ b/tests/data_scanned/scanned_02.tesseract.doctags.txt @@ -1,25 +1,21 @@ -
- -
-Purpose -The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again. -Eligibility +UNIVERSITYof HOUSTON CLASS +Professional Development Award for Staff +Purpose +The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again. +Eligibility All staff currently employed in CLASS are eligible. What the Award Will Fund -Costs associated with conference/workshop including: -Airfare -Lodging -Meals -Registration fees -Ground Transportation +Costs associated with conference/workshop including: +e Airfare +e Lodging +e Meals +e Registration fees +e Ground Transportation What the Award Will Not Fund -expenses incurred outside of the scope of the proposed development activity. Any -Granting Schedule -Earliest Submission Date: August 1st -Applications Due: October 1s -Applications Due: October 1s -Notification of Awards: November 1st -Please submit applications to CLASSGrt@uh edu by the deadline. Please write "Professional Development-Staff" in the subject line. -PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will +Any expenses incurred outside of the scope of the proposed development activity. +Granting Schedule +Granting Schedule Earliest Submission Date: August 1° Applications Due: October 1° Notification of Awards: November 1° +Please submit applications to CLASSGrt@uh.edu by the deadline. Please write "Professional DevelopmentStaff" in the subject line. +PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you.
\ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesseract.json b/tests/data_scanned/scanned_02.tesseract.json index b156c619..08cb1061 100644 --- a/tests/data_scanned/scanned_02.tesseract.json +++ b/tests/data_scanned/scanned_02.tesseract.json @@ -1 +1 @@ -{"_name": "", "type": "pdf-document", "description": {"logs": []}, "file-info": {"filename": "scanned_02.pdf", "document-hash": "26020256342d0a5745c44b1241b18848ce18426a21fb3740cd8976871645c57b", "#-pages": 1, "page-hashes": [{"hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "model": "default", "page": 1}]}, "main-text": [{"name": "Picture", "type": "figure", "$ref": "#/figures/0"}, {"prov": [{"bbox": [145.3333282470703, 1320.6666259765625, 253.6666717529297, 1358.0], "page": 1, "span": [0, 7]}], "text": "Purpose", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [145.6666717529297, 1140.3333740234375, 1124.3333740234375, 1321.3333740234375], "page": 1, "span": [0, 510]}], "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.6666717529297, 1087.3333740234375, 264.3333435058594, 1121.0], "page": 1, "span": [0, 11]}], "text": "Eligibility", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.0, 1051.6666259765625, 646.0, 1085.3333740234375], "page": 1, "span": [0, 51]}], "text": "All staff currently employed in CLASS are eligible.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [148.3333282470703, 1004.0, 474.3333435058594, 1033.0], "page": 1, "span": [0, 24]}], "text": "What the Award Will Fund", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [146.6666717529297, 965.3333129882812, 717.6666870117188, 999.6666870117188], "page": 1, "span": [0, 52]}], "text": "Costs associated with conference/workshop including:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [187.4677734375, 938.3333129882812, 298.3333435058594, 963.0], "page": 1, "span": [0, 7]}], "text": "Airfare", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.50680541992188, 902.0, 309.0, 932.3333129882812], "page": 1, "span": [0, 7]}], "text": "Lodging", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.22247314453125, 874.0, 290.6666564941406, 898.6666870117188], "page": 1, "span": [0, 5]}], "text": "Meals", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.3411407470703, 838.6666870117188, 402.0, 868.0], "page": 1, "span": [0, 17]}], "text": "Registration fees", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.77513122558594, 807.0, 466.3333435058594, 834.0], "page": 1, "span": [0, 21]}], "text": "Ground Transportation", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [148.3333282470703, 756.3333129882812, 526.0, 785.3333129882812], "page": 1, "span": [0, 28]}], "text": "What the Award Will Not Fund", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.1505584716797, 716.0, 990.6666870117188, 752.0], "page": 1, "span": [0, 80]}], "text": "expenses incurred outside of the scope of the proposed development activity. Any", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [145.0, 661.6666870117188, 376.0, 702.0], "page": 1, "span": [0, 17]}], "text": "Granting Schedule", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.0, 628.6666870117188, 523.6666870117188, 662.0], "page": 1, "span": [0, 36]}], "text": "Earliest Submission Date: August 1st", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.3333282470703, 596.0, 456.6666564941406, 630.6666870117188], "page": 1, "span": [0, 28]}], "text": "Applications Due: October 1s", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.3333282470703, 596.0, 456.6666564941406, 630.6666870117188], "page": 1, "span": [0, 28]}], "text": "Applications Due: October 1s", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [148.6666717529297, 568.3333129882812, 538.3333129882812, 595.3333129882812], "page": 1, "span": [0, 36]}], "text": "Notification of Awards: November 1st", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.3333282470703, 464.6666564941406, 1083.3333740234375, 532.6666870117188], "page": 1, "span": [0, 129]}], "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [146.6666717529297, 317.6666564941406, 1097.3333740234375, 445.3333435058594], "page": 1, "span": [0, 292]}], "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will", "type": "paragraph", "name": "Text"}], "figures": [{"prov": [{"bbox": [207.6666717529297, 1439.6666259765625, 1047.0, 1499.6666259765625], "page": 1, "span": [0, 0]}], "text": "", "type": "figure"}], "tables": [], "equations": [], "footnotes": [], "page-dimensions": [{"height": 1651.0, "page": 1, "width": 1275.0}], "page-footers": [], "page-headers": []} \ No newline at end of file +{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "scanned_02.pdf", "filename-prov": null, "document-hash": "26020256342d0a5745c44b1241b18848ce18426a21fb3740cd8976871645c57b", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [208.58668518066406, 1431.730224609375, 1041.931640625, 1508.400146484375], "page": 1, "span": [0, 26], "__ref_s3_data": null}], "text": "UNIVERSITYof HOUSTON CLASS", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [380.7749938964844, 1380.2547607421875, 893.89892578125, 1415.302490234375], "page": 1, "span": [0, 40], "__ref_s3_data": null}], "text": "Professional Development Award for Staff", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [149.3625030517578, 1325.5316162109375, 248.93292236328125, 1358.1634521484375], "page": 1, "span": [0, 7], "__ref_s3_data": null}], "text": "Purpose", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [149.10240173339844, 1142.978515625, 1126.662841796875, 1322.91552734375], "page": 1, "span": [0, 510], "__ref_s3_data": null}], "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.6516876220703, 1088.7327880859375, 260.3333435058594, 1123.46875], "page": 1, "span": [0, 11], "__ref_s3_data": null}], "text": "Eligibility", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [148.79385375976562, 1056.5159912109375, 646.3479614257812, 1086.4814453125], "page": 1, "span": [0, 51], "__ref_s3_data": null}], "text": "All staff currently employed in CLASS are eligible.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.26564025878906, 1001.1909790039062, 470.8933410644531, 1035.42919921875], "page": 1, "span": [0, 24], "__ref_s3_data": null}], "text": "What the Award Will Fund", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [148.62832641601562, 968.4951782226562, 712.8981323242188, 998.0377807617188], "page": 1, "span": [0, 52], "__ref_s3_data": null}], "text": "Costs associated with conference/workshop including:", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [187.08334350585938, 935.7208862304688, 295.9590148925781, 965.3743896484375], "page": 1, "span": [0, 9], "__ref_s3_data": null}], "text": "e Airfare", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.2494659423828, 903.1196899414062, 305.5274963378906, 933.8040161132812], "page": 1, "span": [0, 9], "__ref_s3_data": null}], "text": "e Lodging", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.2578125, 871.2530517578125, 288.1196594238281, 902.1221313476562], "page": 1, "span": [0, 7], "__ref_s3_data": null}], "text": "e Meals", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.22906494140625, 839.1647338867188, 398.9962158203125, 870.3285522460938], "page": 1, "span": [0, 19], "__ref_s3_data": null}], "text": "e Registration fees", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.10479736328125, 807.7442626953125, 463.5527038574219, 838.9454345703125], "page": 1, "span": [0, 23], "__ref_s3_data": null}], "text": "e Ground Transportation", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [149.12353515625, 752.5780639648438, 522.5803833007812, 786.8460083007812], "page": 1, "span": [0, 28], "__ref_s3_data": null}], "text": "What the Award Will Not Fund", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [148.22947692871094, 720.9669799804688, 988.288818359375, 751.2044067382812], "page": 1, "span": [0, 80], "__ref_s3_data": null}], "text": "Any expenses incurred outside of the scope of the proposed development activity.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.18833923339844, 665.0205688476562, 370.9015808105469, 698.7681884765625], "page": 1, "span": [0, 17], "__ref_s3_data": null}], "text": "Granting Schedule", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [149.7007598876953, 566.1650390625, 535.4244995117188, 694.556640625], "page": 1, "span": [0, 118], "__ref_s3_data": null}], "text": "Granting Schedule Earliest Submission Date: August 1\u00b0 Applications Due: October 1\u00b0 Notification of Awards: November 1\u00b0", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.83230590820312, 468.6663818359375, 1084.8453369140625, 530.661376953125], "page": 1, "span": [0, 128], "__ref_s3_data": null}], "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \"Professional DevelopmentStaff\" in the subject line.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.33502197265625, 320.0308837890625, 1098.813232421875, 446.0452880859375], "page": 1, "span": [0, 292], "__ref_s3_data": null}], "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you.", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 1651.0, "page": 1, "width": 1275.0}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesseract.md b/tests/data_scanned/scanned_02.tesseract.md index 0b71cd29..929e53ce 100644 --- a/tests/data_scanned/scanned_02.tesseract.md +++ b/tests/data_scanned/scanned_02.tesseract.md @@ -1,5 +1,6 @@ +## UNIVERSITYof HOUSTON CLASS - +## Professional Development Award for Staff ## Purpose @@ -13,28 +14,24 @@ All staff currently employed in CLASS are eligible. Costs associated with conference/workshop including: -Airfare +e Airfare -Lodging +e Lodging -Meals +e Meals -Registration fees +e Registration fees -Ground Transportation +e Ground Transportation ## What the Award Will Not Fund -expenses incurred outside of the scope of the proposed development activity. Any +Any expenses incurred outside of the scope of the proposed development activity. ## Granting Schedule -Earliest Submission Date: August 1st +Granting Schedule Earliest Submission Date: August 1° Applications Due: October 1° Notification of Awards: November 1° -Applications Due: October 1s +Please submit applications to CLASSGrt@uh.edu by the deadline. Please write "Professional DevelopmentStaff" in the subject line. -Notification of Awards: November 1st - -Please submit applications to CLASSGrt@uh edu by the deadline. Please write "Professional Development-Staff" in the subject line. - -PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will \ No newline at end of file +PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesseract.pages.json b/tests/data_scanned/scanned_02.tesseract.pages.json index 5e1499cb..b626fd1a 100644 --- a/tests/data_scanned/scanned_02.tesseract.pages.json +++ b/tests/data_scanned/scanned_02.tesseract.pages.json @@ -1 +1 @@ -[{"page_no": 0, "page_hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "size": {"width": 1275.0, "height": 1651.0}, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}, {"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}, {"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}, {"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}, {"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}, {"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}, {"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}, {"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}, {"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}, {"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}, {"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}, {"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}, {"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}, {"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}, {"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}, {"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}, {"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}, {"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}, {"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}, {"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Picture", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, {"id": 1, "label": "Title", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}, "confidence": 0.7356554269790649, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 377.6666666666667, "t": 238.33333333333326, "r": 897.6666666666666, "b": 273.33333333333326, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 329.66666666666674, "r": 1124.3333333333333, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, {"id": 15, "label": "Section-header", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, {"id": 16, "label": "Text", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, {"id": 18, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, {"id": 19, "label": "Text", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, {"id": 20, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1083.3333333333333, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, {"id": 21, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Picture", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Picture", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, "text": "", "data": null, "provenance": null, "predicted_class": null, "confidence": null}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 329.66666666666674, "r": 1124.3333333333333, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, "text": "Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, "text": "Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, "text": "Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, "text": "Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, "text": "expenses incurred outside of the scope of the proposed development activity. Any"}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1st"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, "text": "Notification of Awards: November 1st"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1083.3333333333333, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line."}, {"label": "Text", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will"}], "body": [{"label": "Picture", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Picture", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof HOUSTON | CLASS", "bbox": {"l": 207.66666666666666, "t": 151.33333333333326, "r": 1047.0, "b": 211.33333333333326, "coord_origin": "1"}}]}, "text": "", "data": null, "provenance": null, "predicted_class": null, "confidence": null}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 145.33333333333334, "t": 293.0, "r": 253.66666666666666, "b": 330.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 145.66666666666666, "t": 329.66666666666674, "r": 1124.3333333333333, "b": 510.66666666666674, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 3, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 147.0, "t": 329.66666666666674, "r": 1105.0, "b": 359.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 147.0, "t": 359.0, "r": 1124.3333333333333, "b": 389.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 145.66666666666666, "t": 390.33333333333326, "r": 1071.6666666666667, "b": 419.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 148.0, "t": 418.33333333333326, "r": 1082.0, "b": 451.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 148.66666666666666, "t": 452.0, "r": 1033.6666666666667, "b": 479.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 147.0, "t": 480.66666666666674, "r": 316.0, "b": 510.66666666666674, "coord_origin": "1"}}]}, "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 146.66666666666666, "t": 530.0, "r": 264.3333333333333, "b": 563.6666666666665, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 148.0, "t": 565.6666666666665, "r": 646.0, "b": 599.3333333333335, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 11, "text": "What the Award Will Fund", "bbox": {"l": 148.33333333333334, "t": 618.0, "r": 474.3333333333333, "b": 647.0, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 146.66666666666666, "t": 651.3333333333334, "r": 717.6666666666666, "b": 685.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 13, "text": "Airfare", "bbox": {"l": 223.66666666666666, "t": 688.0, "r": 298.3333333333333, "b": 712.6666666666666, "coord_origin": "1"}}]}, "text": "Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 14, "text": "Lodging", "bbox": {"l": 222.0, "t": 718.6666666666666, "r": 309.0, "b": 749.0, "coord_origin": "1"}}]}, "text": "Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 223.66666666666666, "t": 752.3333333333334, "r": 290.6666666666667, "b": 777.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 16, "text": "Registration fees", "bbox": {"l": 223.33333333333334, "t": 783.0, "r": 402.0, "b": 812.3333333333334, "coord_origin": "1"}}]}, "text": "Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 17, "text": "Ground Transportation", "bbox": {"l": 222.33333333333334, "t": 817.0, "r": 466.3333333333333, "b": 844.0, "coord_origin": "1"}}]}, "text": "Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 18, "text": "What the Award Will Not Fund", "bbox": {"l": 148.33333333333334, "t": 865.6666666666666, "r": 526.0, "b": 894.6666666666666, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 19, "text": "expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 191.33333333333334, "t": 899.0, "r": 990.6666666666666, "b": 935.0, "coord_origin": "1"}}, {"id": 32, "text": "Any", "bbox": {"l": 150.98089674642395, "t": 902.3567255981797, "r": 190.35243658690936, "b": 932.6432744018203, "coord_origin": "1"}}]}, "text": "expenses incurred outside of the scope of the proposed development activity. Any"}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 145.0, "t": 949.0, "r": 376.0, "b": 989.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1st", "bbox": {"l": 148.0, "t": 989.0, "r": 523.6666666666666, "b": 1022.3333333333334, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1st"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 22, "text": "Applications Due: October 1s", "bbox": {"l": 146.33333333333334, "t": 1020.3333333333334, "r": 456.6666666666667, "b": 1055.0, "coord_origin": "1"}}]}, "text": "Applications Due: October 1s"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 23, "text": "Notification of Awards: November 1st", "bbox": {"l": 148.66666666666666, "t": 1055.6666666666667, "r": 538.3333333333334, "b": 1082.6666666666667, "coord_origin": "1"}}]}, "text": "Notification of Awards: November 1st"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 1083.3333333333333, "b": 1186.3333333333333, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh edu by the deadline.", "bbox": {"l": 146.33333333333334, "t": 1118.3333333333333, "r": 807.6666666666666, "b": 1154.3333333333333, "coord_origin": "1"}}, {"id": 25, "text": "Please write \"Professional", "bbox": {"l": 812.6666666666666, "t": 1121.3333333333333, "r": 1083.3333333333333, "b": 1149.6666666666667, "coord_origin": "1"}}, {"id": 26, "text": "Development-Staff\" in the subject line.", "bbox": {"l": 147.66666666666666, "t": 1154.0, "r": 549.3333333333334, "b": 1186.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh edu by the deadline. Please write \"Professional Development-Staff\" in the subject line."}, {"label": "Text", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Text", "bbox": {"l": 146.66666666666666, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 27, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 148.33333333333334, "t": 1205.6666666666667, "r": 1097.3333333333333, "b": 1235.6666666666667, "coord_origin": "1"}}, {"id": 28, "text": "Supervisor. Incomplete applications", "bbox": {"l": 146.66666666666666, "t": 1235.3333333333333, "r": 516.6666666666666, "b": 1269.3333333333333, "coord_origin": "1"}}, {"id": 29, "text": "not be reviewed. Applications will be considered", "bbox": {"l": 555.6666666666666, "t": 1235.6666666666667, "r": 1047.3333333333333, "b": 1269.0, "coord_origin": "1"}}, {"id": 30, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 146.66666666666666, "t": 1269.6666666666667, "r": 1092.3333333333333, "b": 1301.6666666666667, "coord_origin": "1"}}, {"id": 31, "text": "will be sent to you.", "bbox": {"l": 148.33333333333334, "t": 1305.3333333333333, "r": 341.3333333333333, "b": 1333.3333333333333, "coord_origin": "1"}}, {"id": 33, "text": "will", "bbox": {"l": 516.1117129480937, "t": 1241.391717522707, "r": 557.8882870519063, "b": 1262.2749491439597, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. will"}], "headers": []}}] \ No newline at end of file +[{"page_no": 0, "page_hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "size": {"width": 1275.0, "height": 1651.0}, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}, {"id": 3, "text": "Professional", "bbox": {"l": 383.6666666666667, "t": 243.0, "r": 529.0, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "Development", "bbox": {"l": 539.0, "t": 243.0, "r": 701.0, "b": 268.33333333333326, "coord_origin": "1"}}, {"id": 5, "text": "Award", "bbox": {"l": 708.3333333333334, "t": 243.0, "r": 786.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "for", "bbox": {"l": 794.3333333333334, "t": 243.0, "r": 829.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 7, "text": "Staff", "bbox": {"l": 837.0, "t": 243.0, "r": 893.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}, {"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}, {"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}, {"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}, {"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}, {"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}, {"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}, {"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}, {"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}, {"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 208.58668518066406, "t": 142.5998077392578, "r": 1041.931640625, "b": 219.26974487304688, "coord_origin": "1"}, "confidence": 0.8432531356811523, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}]}, {"id": 1, "label": "Section-header", "bbox": {"l": 380.7749938964844, "t": 235.697509765625, "r": 893.89892578125, "b": 270.7452697753906, "coord_origin": "1"}, "confidence": 0.8731197714805603, "cells": [{"id": 3, "text": "Professional", "bbox": {"l": 383.6666666666667, "t": 243.0, "r": 529.0, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "Development", "bbox": {"l": 539.0, "t": 243.0, "r": 701.0, "b": 268.33333333333326, "coord_origin": "1"}}, {"id": 5, "text": "Award", "bbox": {"l": 708.3333333333334, "t": 243.0, "r": 786.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "for", "bbox": {"l": 794.3333333333334, "t": 243.0, "r": 829.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 7, "text": "Staff", "bbox": {"l": 837.0, "t": 243.0, "r": 893.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 149.3625030517578, "t": 292.8365173339844, "r": 248.93292236328125, "b": 325.4684143066406, "coord_origin": "1"}, "confidence": 0.9122956991195679, "cells": [{"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 149.10240173339844, "t": 328.08453369140625, "r": 1126.662841796875, "b": 508.0215148925781, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 149.6516876220703, "t": 527.5313110351562, "r": 260.3333333333333, "b": 562.2672119140625, "coord_origin": "1"}, "confidence": 0.9110528826713562, "cells": [{"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 148.79385375976562, "t": 564.5184936523438, "r": 646.3479614257812, "b": 594.4840087890625, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}]}, {"id": 6, "label": "Section-header", "bbox": {"l": 149.26564025878906, "t": 615.5708618164062, "r": 470.8933410644531, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 148.62832641601562, "t": 652.9622192382812, "r": 712.8981323242188, "b": 682.5048217773438, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}]}, {"id": 8, "label": "List-item", "bbox": {"l": 187.08334350585938, "t": 685.6256103515625, "r": 295.9590148925781, "b": 715.2791137695312, "coord_origin": "1"}, "confidence": 0.9044503569602966, "cells": [{"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}]}, {"id": 9, "label": "List-item", "bbox": {"l": 187.2494659423828, "t": 717.1959838867188, "r": 305.5274963378906, "b": 747.8803100585938, "coord_origin": "1"}, "confidence": 0.9049186706542969, "cells": [{"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}]}, {"id": 10, "label": "List-item", "bbox": {"l": 187.2578125, "t": 748.8778686523438, "r": 288.1196594238281, "b": 779.7469482421875, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 187.22906494140625, "t": 780.6714477539062, "r": 398.9962158203125, "b": 811.8352661132812, "coord_origin": "1"}, "confidence": 0.9183782339096069, "cells": [{"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 812.0545654296875, "r": 463.5527038574219, "b": 843.2557373046875, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 149.12353515625, "t": 864.1539916992188, "r": 522.5803833007812, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.7955932617188, "r": 988.288818359375, "b": 930.0330200195312, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 149.7007598876953, "t": 956.443359375, "r": 535.4244995117188, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}, {"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}, {"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}, {"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}]}, {"id": 16, "label": "Section-header", "bbox": {"l": 149.18833923339844, "t": 952.2318115234375, "r": 370.9015808105469, "b": 985.9794311523438, "coord_origin": "1"}, "confidence": 0.7323324084281921, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 149.83230590820312, "t": 1120.338623046875, "r": 1084.8453369140625, "b": 1182.3336181640625, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}]}, {"id": 18, "label": "Text", "bbox": {"l": 149.33502197265625, "t": 1204.9547119140625, "r": 1098.813232421875, "b": 1330.9691162109375, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 208.58668518066406, "t": 142.5998077392578, "r": 1041.931640625, "b": 219.26974487304688, "coord_origin": "1"}, "confidence": 0.8432531356811523, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}]}, "text": "UNIVERSITYof HOUSTON CLASS"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 380.7749938964844, "t": 235.697509765625, "r": 893.89892578125, "b": 270.7452697753906, "coord_origin": "1"}, "confidence": 0.8731197714805603, "cells": [{"id": 3, "text": "Professional", "bbox": {"l": 383.6666666666667, "t": 243.0, "r": 529.0, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "Development", "bbox": {"l": 539.0, "t": 243.0, "r": 701.0, "b": 268.33333333333326, "coord_origin": "1"}}, {"id": 5, "text": "Award", "bbox": {"l": 708.3333333333334, "t": 243.0, "r": 786.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "for", "bbox": {"l": 794.3333333333334, "t": 243.0, "r": 829.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 7, "text": "Staff", "bbox": {"l": 837.0, "t": 243.0, "r": 893.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}]}, "text": "Professional Development Award for Staff"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 149.3625030517578, "t": 292.8365173339844, "r": 248.93292236328125, "b": 325.4684143066406, "coord_origin": "1"}, "confidence": 0.9122956991195679, "cells": [{"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 149.10240173339844, "t": 328.08453369140625, "r": 1126.662841796875, "b": 508.0215148925781, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}]}, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 149.6516876220703, "t": 527.5313110351562, "r": 260.3333333333333, "b": 562.2672119140625, "coord_origin": "1"}, "confidence": 0.9110528826713562, "cells": [{"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.79385375976562, "t": 564.5184936523438, "r": 646.3479614257812, "b": 594.4840087890625, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 149.26564025878906, "t": 615.5708618164062, "r": 470.8933410644531, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 148.62832641601562, "t": 652.9622192382812, "r": 712.8981323242188, "b": 682.5048217773438, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.08334350585938, "t": 685.6256103515625, "r": 295.9590148925781, "b": 715.2791137695312, "coord_origin": "1"}, "confidence": 0.9044503569602966, "cells": [{"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}]}, "text": "e Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.2494659423828, "t": 717.1959838867188, "r": 305.5274963378906, "b": 747.8803100585938, "coord_origin": "1"}, "confidence": 0.9049186706542969, "cells": [{"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}]}, "text": "e Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.2578125, "t": 748.8778686523438, "r": 288.1196594238281, "b": 779.7469482421875, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}]}, "text": "e Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.22906494140625, "t": 780.6714477539062, "r": 398.9962158203125, "b": 811.8352661132812, "coord_origin": "1"}, "confidence": 0.9183782339096069, "cells": [{"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}]}, "text": "e Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 812.0545654296875, "r": 463.5527038574219, "b": 843.2557373046875, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}]}, "text": "e Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 149.12353515625, "t": 864.1539916992188, "r": 522.5803833007812, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.7955932617188, "r": 988.288818359375, "b": 930.0330200195312, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}]}, "text": "Any expenses incurred outside of the scope of the proposed development activity."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 149.7007598876953, "t": 956.443359375, "r": 535.4244995117188, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}, {"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}, {"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}, {"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}]}, "text": "Granting Schedule Earliest Submission Date: August 1\u00b0 Applications Due: October 1\u00b0 Notification of Awards: November 1\u00b0"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 149.18833923339844, "t": 952.2318115234375, "r": 370.9015808105469, "b": 985.9794311523438, "coord_origin": "1"}, "confidence": 0.7323324084281921, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 149.83230590820312, "t": 1120.338623046875, "r": 1084.8453369140625, "b": 1182.3336181640625, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional DevelopmentStaff\u201d in the subject line."}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 149.33502197265625, "t": 1204.9547119140625, "r": 1098.813232421875, "b": 1330.9691162109375, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you."}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 208.58668518066406, "t": 142.5998077392578, "r": 1041.931640625, "b": 219.26974487304688, "coord_origin": "1"}, "confidence": 0.8432531356811523, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}]}, "text": "UNIVERSITYof HOUSTON CLASS"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 380.7749938964844, "t": 235.697509765625, "r": 893.89892578125, "b": 270.7452697753906, "coord_origin": "1"}, "confidence": 0.8731197714805603, "cells": [{"id": 3, "text": "Professional", "bbox": {"l": 383.6666666666667, "t": 243.0, "r": 529.0, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "Development", "bbox": {"l": 539.0, "t": 243.0, "r": 701.0, "b": 268.33333333333326, "coord_origin": "1"}}, {"id": 5, "text": "Award", "bbox": {"l": 708.3333333333334, "t": 243.0, "r": 786.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "for", "bbox": {"l": 794.3333333333334, "t": 243.0, "r": 829.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 7, "text": "Staff", "bbox": {"l": 837.0, "t": 243.0, "r": 893.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}]}, "text": "Professional Development Award for Staff"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 149.3625030517578, "t": 292.8365173339844, "r": 248.93292236328125, "b": 325.4684143066406, "coord_origin": "1"}, "confidence": 0.9122956991195679, "cells": [{"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 149.10240173339844, "t": 328.08453369140625, "r": 1126.662841796875, "b": 508.0215148925781, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}]}, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 149.6516876220703, "t": 527.5313110351562, "r": 260.3333333333333, "b": 562.2672119140625, "coord_origin": "1"}, "confidence": 0.9110528826713562, "cells": [{"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.79385375976562, "t": 564.5184936523438, "r": 646.3479614257812, "b": 594.4840087890625, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 149.26564025878906, "t": 615.5708618164062, "r": 470.8933410644531, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 148.62832641601562, "t": 652.9622192382812, "r": 712.8981323242188, "b": 682.5048217773438, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.08334350585938, "t": 685.6256103515625, "r": 295.9590148925781, "b": 715.2791137695312, "coord_origin": "1"}, "confidence": 0.9044503569602966, "cells": [{"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}]}, "text": "e Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.2494659423828, "t": 717.1959838867188, "r": 305.5274963378906, "b": 747.8803100585938, "coord_origin": "1"}, "confidence": 0.9049186706542969, "cells": [{"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}]}, "text": "e Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.2578125, "t": 748.8778686523438, "r": 288.1196594238281, "b": 779.7469482421875, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}]}, "text": "e Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.22906494140625, "t": 780.6714477539062, "r": 398.9962158203125, "b": 811.8352661132812, "coord_origin": "1"}, "confidence": 0.9183782339096069, "cells": [{"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}]}, "text": "e Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 812.0545654296875, "r": 463.5527038574219, "b": 843.2557373046875, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}]}, "text": "e Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 149.12353515625, "t": 864.1539916992188, "r": 522.5803833007812, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.7955932617188, "r": 988.288818359375, "b": 930.0330200195312, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}]}, "text": "Any expenses incurred outside of the scope of the proposed development activity."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 149.7007598876953, "t": 956.443359375, "r": 535.4244995117188, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}, {"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}, {"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}, {"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}]}, "text": "Granting Schedule Earliest Submission Date: August 1\u00b0 Applications Due: October 1\u00b0 Notification of Awards: November 1\u00b0"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 149.18833923339844, "t": 952.2318115234375, "r": 370.9015808105469, "b": 985.9794311523438, "coord_origin": "1"}, "confidence": 0.7323324084281921, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 149.83230590820312, "t": 1120.338623046875, "r": 1084.8453369140625, "b": 1182.3336181640625, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional DevelopmentStaff\u201d in the subject line."}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 149.33502197265625, "t": 1204.9547119140625, "r": 1098.813232421875, "b": 1330.9691162109375, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you."}], "headers": []}}] \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesserocr.doctags.txt b/tests/data_scanned/scanned_02.tesserocr.doctags.txt index 5d8d3b8f..599a9a3a 100644 --- a/tests/data_scanned/scanned_02.tesserocr.doctags.txt +++ b/tests/data_scanned/scanned_02.tesserocr.doctags.txt @@ -1,27 +1,22 @@ -
- -
-Purpose -The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again. -Eligibility -All staff currently employed in CLASS are eligible. -What the Award Will Fund -Costs associated with conference/workshop including: -e Airfare -e Lodging -e Meals -e Registration fees -e Ground Transportation -What the Award Will Not Fund -Any expenses incurred outside of the scope of the proposed development activity. -Granting Schedule -Earliest Submission Date: -August 1° -Applications Due: -October 1° -Notification of Awards: -November 1° -Please submit applications to CLASSGrt@uh.edu by the deadline. Please write "Professional DevelopmentStaff" in the subject line. -PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. +Please submit applications to CLASSGrt@uh.edu by the deadline. Please write "Professional Development- Staff in the subject line. PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. +Notification of Awards: November 1°" +Applications Due: October 1° +Granting Schedule +Earliest Submission Date: August 1° +Any expenses incurred outside of the scope of the proposed development activity. +What the Awara Will Not Fund +e Ground Transportation +e Registration fees +Meals +e Lodging +e Aijirtare +All staff currently employed in CLASS are eligible. What the Awara Will Fund e Aijirtare +Costs associated with conference/workshop including: +Eligibility +members that are awarded must wait three years from the date of award notification before reapplying again. +The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff +Purpose +Professional Development Award for Staff +UNIVERSITYof 'CLASS
\ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesserocr.json b/tests/data_scanned/scanned_02.tesserocr.json index 65c81a26..4b74bff4 100644 --- a/tests/data_scanned/scanned_02.tesserocr.json +++ b/tests/data_scanned/scanned_02.tesserocr.json @@ -1 +1 @@ -{"_name": "", "type": "pdf-document", "description": {"logs": []}, "file-info": {"filename": "scanned_02.pdf", "document-hash": "26020256342d0a5745c44b1241b18848ce18426a21fb3740cd8976871645c57b", "#-pages": 1, "page-hashes": [{"hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "model": "default", "page": 1}]}, "main-text": [{"name": "Picture", "type": "figure", "$ref": "#/figures/0"}, {"prov": [{"bbox": [150.75843811035156, 1327.1627197265625, 249.0244140625, 1352.82080078125], "page": 1, "span": [0, 7]}], "text": "Purpose", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [149.16456604003906, 1144.811767578125, 1120.300048828125, 1317.9281005859375], "page": 1, "span": [0, 510]}], "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [150.78167724609375, 1091.3101806640625, 260.6759948730469, 1117.489501953125], "page": 1, "span": [0, 11]}], "text": "Eligibility", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.5060577392578, 1058.057861328125, 645.715576171875, 1081.3170166015625], "page": 1, "span": [0, 51]}], "text": "All staff currently employed in CLASS are eligible.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [149.4048614501953, 1008.1964111328125, 470.9179992675781, 1029.8570556640625], "page": 1, "span": [0, 24]}], "text": "What the Award Will Fund", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [149.6760711669922, 969.9799194335938, 711.958251953125, 993.4214477539062], "page": 1, "span": [0, 52]}], "text": "Costs associated with conference/workshop including:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [187.4677734375, 942.3645629882812, 295.3846130371094, 961.5537719726562], "page": 1, "span": [0, 9]}], "text": "e Airfare", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.50680541992188, 904.5771484375, 305.6780700683594, 928.1757202148438], "page": 1, "span": [0, 9]}], "text": "e Lodging", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.22247314453125, 878.3388671875, 287.6211853027344, 897.0499267578125], "page": 1, "span": [0, 7]}], "text": "e Meals", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.3411407470703, 841.6526489257812, 398.1761474609375, 865.3565673828125], "page": 1, "span": [0, 19]}], "text": "e Registration fees", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [187.77513122558594, 810.0144653320312, 463.1761474609375, 833.0213623046875], "page": 1, "span": [0, 23]}], "text": "e Ground Transportation", "type": "paragraph", "name": "List-item"}, {"prov": [{"bbox": [148.94000244140625, 759.9325561523438, 522.0390625, 781.7937622070312], "page": 1, "span": [0, 28]}], "text": "What the Award Will Not Fund", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [148.1505584716797, 722.8301391601562, 985.2360229492188, 745.7726440429688], "page": 1, "span": [0, 80]}], "text": "Any expenses incurred outside of the scope of the proposed development activity.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [149.93980407714844, 666.7654418945312, 371.36920166015625, 693.8717041015625], "page": 1, "span": [0, 17]}], "text": "Granting Schedule", "type": "subtitle-level-1", "name": "Section-header"}, {"prov": [{"bbox": [150.36553955078125, 636.8328247070312, 411.4770202636719, 656.7749633789062], "page": 1, "span": [0, 25]}], "text": "Earliest Submission Date:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [416.95391845703125, 633.4633178710938, 519.5720825195312, 658.1767578125], "page": 1, "span": [0, 9]}], "text": "August 1\u00b0", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [149.51634216308594, 600.6334228515625, 331.3333435058594, 623.5292358398438], "page": 1, "span": [0, 17]}], "text": "Applications Due:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [339.28021240234375, 604.5432739257812, 452.0, 624.9083862304688], "page": 1, "span": [0, 10]}], "text": "October 1\u00b0", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [150.04673767089844, 571.9961547851562, 390.0, 592.0409545898438], "page": 1, "span": [0, 23]}], "text": "Notification of Awards:", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [396.9028015136719, 571.8724975585938, 534.7470092773438, 592.1538696289062], "page": 1, "span": [0, 11]}], "text": "November 1\u00b0", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [150.2799835205078, 470.266357421875, 1079.0162353515625, 526.3118896484375], "page": 1, "span": [0, 128]}], "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \"Professional DevelopmentStaff\" in the subject line.", "type": "paragraph", "name": "Text"}, {"prov": [{"bbox": [148.3172149658203, 320.6551208496094, 1093.461181640625, 443.0558166503906], "page": 1, "span": [0, 292]}], "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you.", "type": "paragraph", "name": "Text"}], "figures": [{"prov": [{"bbox": [211.35025024414062, 1444.3333740234375, 1040.6514892578125, 1500.6666259765625], "page": 1, "span": [0, 0]}], "text": "", "type": "figure"}], "tables": [], "equations": [], "footnotes": [], "page-dimensions": [{"height": 1651.0, "page": 1, "width": 1275.0}], "page-footers": [], "page-headers": []} \ No newline at end of file +{"_name": "", "type": "pdf-document", "description": {"title": null, "abstract": null, "authors": null, "affiliations": null, "subjects": null, "keywords": null, "publication_date": null, "languages": null, "license": null, "publishers": null, "url_refs": null, "references": null, "publication": null, "reference_count": null, "citation_count": null, "citation_date": null, "advanced": null, "analytics": null, "logs": [], "collection": null, "acquisition": null}, "file-info": {"filename": "scanned_02.pdf", "filename-prov": null, "document-hash": "26020256342d0a5745c44b1241b18848ce18426a21fb3740cd8976871645c57b", "#-pages": 1, "collection-name": null, "description": null, "page-hashes": [{"hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "model": "default", "page": 1}]}, "main-text": [{"prov": [{"bbox": [149.10240173339844, 1126.0, 1126.662841796875, 1329.6666259765625], "page": 1, "span": [0, 422], "__ref_s3_data": null}], "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \"Professional Development- Staff in the subject line. PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [148.79385375976562, 1056.5159912109375, 646.3479614257812, 1086.4814453125], "page": 1, "span": [0, 36], "__ref_s3_data": null}], "text": "Notification of Awards: November 1\u00b0\"", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.26564025878906, 1001.1909790039062, 470.8933410644531, 1049.6666259765625], "page": 1, "span": [0, 28], "__ref_s3_data": null}], "text": "Applications Due: October 1\u00b0", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [148.62832641601562, 958.0, 712.8981323242188, 998.0377807617188], "page": 1, "span": [0, 17], "__ref_s3_data": null}], "text": "Granting Schedule", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [151.6666717529297, 993.0, 519.0, 1016.6666870117188], "page": 1, "span": [0, 35], "__ref_s3_data": null}], "text": "Earliest Submission Date: August 1\u00b0", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [150.3333282470703, 906.0, 984.6666870117188, 927.6666870117188], "page": 1, "span": [0, 80], "__ref_s3_data": null}], "text": "Any expenses incurred outside of the scope of the proposed development activity.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [150.6666717529297, 870.0, 521.3333129882812, 902.1221313476562], "page": 1, "span": [0, 28], "__ref_s3_data": null}], "text": "What the Awara Will Not Fund", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [187.10479736328125, 807.7442626953125, 463.5527038574219, 840.6666870117188], "page": 1, "span": [0, 23], "__ref_s3_data": null}], "text": "e Ground Transportation", "type": "paragraph", "name": "List-item", "font": null}, {"prov": [{"bbox": [188.6666717529297, 786.6666870117188, 398.0, 808.6666870117188], "page": 1, "span": [0, 19], "__ref_s3_data": null}], "text": "e Registration fees", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.12353515625, 752.5780639648438, 522.5803833007812, 786.8460083007812], "page": 1, "span": [0, 5], "__ref_s3_data": null}], "text": "Meals", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [148.22947692871094, 720.9669799804688, 988.288818359375, 751.2044067382812], "page": 1, "span": [0, 9], "__ref_s3_data": null}], "text": "e Lodging", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.18833923339844, 665.0205688476562, 370.9015808105469, 708.3333129882812], "page": 1, "span": [0, 11], "__ref_s3_data": null}], "text": "e Aijirtare", "type": "subtitle-level-1", "name": "Section-header", "font": null}, {"prov": [{"bbox": [149.7007598876953, 566.1650390625, 645.0, 708.3333129882812], "page": 1, "span": [0, 88], "__ref_s3_data": null}], "text": "All staff currently employed in CLASS are eligible. What the Awara Will Fund e Aijirtare", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [151.0, 658.0, 711.3333129882812, 680.6666870117188], "page": 1, "span": [0, 52], "__ref_s3_data": null}], "text": "Costs associated with conference/workshop including:", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [152.0, 534.0, 260.3333435058594, 559.3333129882812], "page": 1, "span": [0, 11], "__ref_s3_data": null}], "text": "Eligibility", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.83230590820312, 455.0, 1084.8453369140625, 530.661376953125], "page": 1, "span": [0, 107], "__ref_s3_data": null}], "text": "members that are awarded must wait three years from the date of award notification before reapplying again.", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [149.33502197265625, 320.0308837890625, 1120.0, 446.0452880859375], "page": 1, "span": [0, 402], "__ref_s3_data": null}], "text": "The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [152.0, 299.3333435058594, 248.0, 323.3333435058594], "page": 1, "span": [0, 7], "__ref_s3_data": null}], "text": "Purpose", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [383.6666564941406, 243.0, 893.3333129882812, 268.3333435058594], "page": 1, "span": [0, 40], "__ref_s3_data": null}], "text": "Professional Development Award for Staff", "type": "paragraph", "name": "Text", "font": null}, {"prov": [{"bbox": [213.3333282470703, 150.3333282470703, 1038.6666259765625, 206.6666717529297], "page": 1, "span": [0, 19], "__ref_s3_data": null}], "text": "UNIVERSITYof 'CLASS", "type": "paragraph", "name": "Text", "font": null}], "figures": [], "tables": [], "bitmaps": null, "equations": [], "footnotes": [], "page-dimensions": [{"height": 1651.0, "page": 1, "width": 1275.0}], "page-footers": [], "page-headers": [], "_s3_data": null, "identifiers": null} \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesserocr.md b/tests/data_scanned/scanned_02.tesserocr.md index e75b2786..5e06070f 100644 --- a/tests/data_scanned/scanned_02.tesserocr.md +++ b/tests/data_scanned/scanned_02.tesserocr.md @@ -1,46 +1,39 @@ +Please submit applications to CLASSGrt@uh.edu by the deadline. Please write "Professional Development- Staff in the subject line. PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. - +Notification of Awards: November 1°" -## Purpose +## Applications Due: October 1° -The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again. +Granting Schedule -## Eligibility - -All staff currently employed in CLASS are eligible. - -## What the Award Will Fund - -Costs associated with conference/workshop including: - -e Airfare - -e Lodging - -e Meals - -e Registration fees - -e Ground Transportation - -## What the Award Will Not Fund +Earliest Submission Date: August 1° Any expenses incurred outside of the scope of the proposed development activity. -## Granting Schedule +What the Awara Will Not Fund -Earliest Submission Date: +e Ground Transportation -August 1° +e Registration fees -Applications Due: +## Meals -October 1° +e Lodging -Notification of Awards: +## e Aijirtare -November 1° +All staff currently employed in CLASS are eligible. What the Awara Will Fund e Aijirtare -Please submit applications to CLASSGrt@uh.edu by the deadline. Please write "Professional DevelopmentStaff" in the subject line. +Costs associated with conference/workshop including: -PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you. \ No newline at end of file +Eligibility + +members that are awarded must wait three years from the date of award notification before reapplying again. + +The Dean's Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff + +Purpose + +Professional Development Award for Staff + +UNIVERSITYof 'CLASS \ No newline at end of file diff --git a/tests/data_scanned/scanned_02.tesserocr.pages.json b/tests/data_scanned/scanned_02.tesserocr.pages.json index 3600d725..088347ba 100644 --- a/tests/data_scanned/scanned_02.tesserocr.pages.json +++ b/tests/data_scanned/scanned_02.tesserocr.pages.json @@ -1 +1 @@ -[{"page_no": 0, "page_hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "size": {"width": 1275.0, "height": 1651.0}, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}, {"id": 3, "text": "Professional", "bbox": {"l": 383.6666666666667, "t": 243.0, "r": 529.0, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "Development", "bbox": {"l": 539.0, "t": 243.0, "r": 701.0, "b": 268.33333333333326, "coord_origin": "1"}}, {"id": 5, "text": "Award", "bbox": {"l": 708.3333333333334, "t": 243.0, "r": 786.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "for", "bbox": {"l": 794.3333333333334, "t": 243.0, "r": 829.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 7, "text": "Staff", "bbox": {"l": 837.0, "t": 243.0, "r": 893.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}, {"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}, {"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}, {"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}, {"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}, {"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}, {"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}, {"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}, {"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}, {"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Picture", "bbox": {"l": 211.35025262832642, "t": 150.33333333333326, "r": 1040.6514358520508, "b": 206.66666666666674, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}]}, {"id": 1, "label": "Title", "bbox": {"l": 381.9487863779068, "t": 241.9478105068206, "r": 894.2496085166931, "b": 269.2459867954253, "coord_origin": "1"}, "confidence": 0.7356554269790649, "cells": [{"id": 3, "text": "Professional", "bbox": {"l": 383.6666666666667, "t": 243.0, "r": 529.0, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 4, "text": "Development", "bbox": {"l": 539.0, "t": 243.0, "r": 701.0, "b": 268.33333333333326, "coord_origin": "1"}}, {"id": 5, "text": "Award", "bbox": {"l": 708.3333333333334, "t": 243.0, "r": 786.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 6, "text": "for", "bbox": {"l": 794.3333333333334, "t": 243.0, "r": 829.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}, {"id": 7, "text": "Staff", "bbox": {"l": 837.0, "t": 243.0, "r": 893.3333333333334, "b": 263.33333333333326, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 150.75844556093216, "t": 298.1791801691056, "r": 249.02441024780273, "b": 323.83722219467154, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 149.16456788778305, "t": 333.07183899879465, "r": 1120.3000259399414, "b": 506.1882919073105, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 150.78166991472244, "t": 533.5104402065276, "r": 260.6759834289551, "b": 559.6898045778275, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 148.50606322288513, "t": 569.6830233335495, "r": 645.7155847549438, "b": 592.9421716928482, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}]}, {"id": 6, "label": "Section-header", "bbox": {"l": 149.40486699342728, "t": 621.1429394483566, "r": 470.9180027246475, "b": 642.8035601377487, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 149.67606604099274, "t": 657.5785455226899, "r": 711.9582509994507, "b": 681.0201015949249, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}]}, {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 689.4462042808532, "r": 295.38462817668915, "b": 708.6354641914368, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}]}, {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 722.8242965221405, "r": 305.6780630350113, "b": 746.4228318691253, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}]}, {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 753.9500432014465, "r": 287.6211887598038, "b": 772.6611225128174, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}]}, {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 785.6434030056, "r": 398.1761348247528, "b": 809.347352218628, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.9786143779754, "r": 463.1761461496353, "b": 840.9855252265929, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 148.93999993801117, "t": 869.2062106132507, "r": 522.0390915870667, "b": 891.0674246788026, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 905.2273646354674, "r": 985.2359998226166, "b": 928.1698777675629, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}]}, {"id": 15, "label": "Section-header", "bbox": {"l": 149.9398022890091, "t": 957.1283027648925, "r": 371.3692116737366, "b": 984.2345455169678, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}]}, {"id": 16, "label": "Text", "bbox": {"l": 150.36554664373398, "t": 994.2250088691712, "r": 411.4770323038101, "b": 1014.1672024726868, "coord_origin": "1"}, "confidence": 0.8549662828445435, "cells": [{"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 416.953906416893, "t": 992.823217010498, "r": 519.5720815658569, "b": 1017.5366673469543, "coord_origin": "1"}, "confidence": 0.8406550884246826, "cells": [{"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}]}, {"id": 18, "label": "Text", "bbox": {"l": 149.51633781194687, "t": 1027.4707630157473, "r": 331.3333333333333, "b": 1050.3665917396547, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}]}, {"id": 19, "label": "Text", "bbox": {"l": 339.280207157135, "t": 1026.091644191742, "r": 452.0, "b": 1046.456752872467, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}]}, {"id": 20, "label": "Text", "bbox": {"l": 150.0467437505722, "t": 1058.9590420722961, "r": 390.0, "b": 1079.0038154125214, "coord_origin": "1"}, "confidence": 0.9157810211181641, "cells": [{"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}]}, {"id": 21, "label": "Text", "bbox": {"l": 396.9028079509735, "t": 1058.8461492538454, "r": 534.7470080852509, "b": 1079.1274936676027, "coord_origin": "1"}, "confidence": 0.9047551155090332, "cells": [{"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}]}, {"id": 22, "label": "Text", "bbox": {"l": 150.2799904346466, "t": 1124.688090848923, "r": 1079.0162444114685, "b": 1180.7336282253264, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}]}, {"id": 23, "label": "Text", "bbox": {"l": 148.3172133564949, "t": 1207.9441826820375, "r": 1093.461184501648, "b": 1330.344875240326, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Picture", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Picture", "bbox": {"l": 211.35025262832642, "t": 150.33333333333326, "r": 1040.6514358520508, "b": 206.66666666666674, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}]}, "text": "", "data": null, "provenance": null, "predicted_class": null, "confidence": null}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 150.75844556093216, "t": 298.1791801691056, "r": 249.02441024780273, "b": 323.83722219467154, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 149.16456788778305, "t": 333.07183899879465, "r": 1120.3000259399414, "b": 506.1882919073105, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}]}, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 150.78166991472244, "t": 533.5104402065276, "r": 260.6759834289551, "b": 559.6898045778275, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.50606322288513, "t": 569.6830233335495, "r": 645.7155847549438, "b": 592.9421716928482, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 149.40486699342728, "t": 621.1429394483566, "r": 470.9180027246475, "b": 642.8035601377487, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 149.67606604099274, "t": 657.5785455226899, "r": 711.9582509994507, "b": 681.0201015949249, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 689.4462042808532, "r": 295.38462817668915, "b": 708.6354641914368, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}]}, "text": "e Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 722.8242965221405, "r": 305.6780630350113, "b": 746.4228318691253, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}]}, "text": "e Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 753.9500432014465, "r": 287.6211887598038, "b": 772.6611225128174, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}]}, "text": "e Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 785.6434030056, "r": 398.1761348247528, "b": 809.347352218628, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}]}, "text": "e Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.9786143779754, "r": 463.1761461496353, "b": 840.9855252265929, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}]}, "text": "e Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.93999993801117, "t": 869.2062106132507, "r": 522.0390915870667, "b": 891.0674246788026, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 905.2273646354674, "r": 985.2359998226166, "b": 928.1698777675629, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}]}, "text": "Any expenses incurred outside of the scope of the proposed development activity."}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 149.9398022890091, "t": 957.1283027648925, "r": 371.3692116737366, "b": 984.2345455169678, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 150.36554664373398, "t": 994.2250088691712, "r": 411.4770323038101, "b": 1014.1672024726868, "coord_origin": "1"}, "confidence": 0.8549662828445435, "cells": [{"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}]}, "text": "Earliest Submission Date:"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 416.953906416893, "t": 992.823217010498, "r": 519.5720815658569, "b": 1017.5366673469543, "coord_origin": "1"}, "confidence": 0.8406550884246826, "cells": [{"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}]}, "text": "August 1\u00b0"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 149.51633781194687, "t": 1027.4707630157473, "r": 331.3333333333333, "b": 1050.3665917396547, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}]}, "text": "Applications Due:"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 339.280207157135, "t": 1026.091644191742, "r": 452.0, "b": 1046.456752872467, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}]}, "text": "October 1\u00b0"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 150.0467437505722, "t": 1058.9590420722961, "r": 390.0, "b": 1079.0038154125214, "coord_origin": "1"}, "confidence": 0.9157810211181641, "cells": [{"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}]}, "text": "Notification of Awards:"}, {"label": "Text", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Text", "bbox": {"l": 396.9028079509735, "t": 1058.8461492538454, "r": 534.7470080852509, "b": 1079.1274936676027, "coord_origin": "1"}, "confidence": 0.9047551155090332, "cells": [{"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}]}, "text": "November 1\u00b0"}, {"label": "Text", "id": 22, "page_no": 0, "cluster": {"id": 22, "label": "Text", "bbox": {"l": 150.2799904346466, "t": 1124.688090848923, "r": 1079.0162444114685, "b": 1180.7336282253264, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional DevelopmentStaff\u201d in the subject line."}, {"label": "Text", "id": 23, "page_no": 0, "cluster": {"id": 23, "label": "Text", "bbox": {"l": 148.3172133564949, "t": 1207.9441826820375, "r": 1093.461184501648, "b": 1330.344875240326, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you."}], "body": [{"label": "Picture", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Picture", "bbox": {"l": 211.35025262832642, "t": 150.33333333333326, "r": 1040.6514358520508, "b": 206.66666666666674, "coord_origin": "1"}, "confidence": 0.8808756470680237, "cells": [{"id": 0, "text": "UNIVERSITYof", "bbox": {"l": 213.33333333333334, "t": 161.33333333333326, "r": 577.0, "b": 202.66666666666674, "coord_origin": "1"}}, {"id": 1, "text": "HOUSTON", "bbox": {"l": 592.3333333333334, "t": 160.0, "r": 869.0, "b": 203.0, "coord_origin": "1"}}, {"id": 2, "text": "CLASS", "bbox": {"l": 885.3333333333334, "t": 150.33333333333326, "r": 1038.6666666666667, "b": 206.66666666666674, "coord_origin": "1"}}]}, "text": "", "data": null, "provenance": null, "predicted_class": null, "confidence": null}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 150.75844556093216, "t": 298.1791801691056, "r": 249.02441024780273, "b": 323.83722219467154, "coord_origin": "1"}, "confidence": 0.9581751823425293, "cells": [{"id": 8, "text": "Purpose", "bbox": {"l": 152.0, "t": 299.33333333333326, "r": 248.0, "b": 323.33333333333326, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 149.16456788778305, "t": 333.07183899879465, "r": 1120.3000259399414, "b": 506.1882919073105, "coord_origin": "1"}, "confidence": 0.9881482720375061, "cells": [{"id": 9, "text": "The", "bbox": {"l": 150.0, "t": 334.0, "r": 183.66666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 10, "text": "Dean\u2019s", "bbox": {"l": 192.0, "t": 334.0, "r": 252.33333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 11, "text": "Professional", "bbox": {"l": 260.0, "t": 334.0, "r": 371.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 12, "text": "Development", "bbox": {"l": 378.6666666666667, "t": 334.0, "r": 502.3333333333333, "b": 354.0, "coord_origin": "1"}}, {"id": 13, "text": "Award", "bbox": {"l": 509.0, "t": 334.0, "r": 567.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 14, "text": "for", "bbox": {"l": 574.6666666666666, "t": 334.0, "r": 601.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 15, "text": "Staff", "bbox": {"l": 607.0, "t": 334.0, "r": 650.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 16, "text": "is", "bbox": {"l": 656.0, "t": 335.0, "r": 668.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 17, "text": "to", "bbox": {"l": 674.6666666666666, "t": 336.33333333333326, "r": 693.3333333333334, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 18, "text": "allow", "bbox": {"l": 700.0, "t": 334.0, "r": 748.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 19, "text": "CLASS", "bbox": {"l": 755.3333333333334, "t": 335.0, "r": 810.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 20, "text": "staff", "bbox": {"l": 816.6666666666666, "t": 334.0, "r": 858.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 21, "text": "the", "bbox": {"l": 863.0, "t": 334.0, "r": 892.6666666666666, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 22, "text": "opportunity", "bbox": {"l": 899.6666666666666, "t": 335.0, "r": 1009.6666666666666, "b": 354.0, "coord_origin": "1"}}, {"id": 23, "text": "to", "bbox": {"l": 1016.0, "t": 336.33333333333326, "r": 1034.3333333333333, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 24, "text": "attend", "bbox": {"l": 1041.3333333333333, "t": 334.33333333333326, "r": 1101.0, "b": 350.33333333333326, "coord_origin": "1"}}, {"id": 25, "text": "conferences", "bbox": {"l": 151.0, "t": 364.0, "r": 263.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "and", "bbox": {"l": 270.0, "t": 364.33333333333326, "r": 302.6666666666667, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "workshops", "bbox": {"l": 309.6666666666667, "t": 364.0, "r": 409.3333333333333, "b": 384.0, "coord_origin": "1"}}, {"id": 28, "text": "in", "bbox": {"l": 416.6666666666667, "t": 365.0, "r": 431.3333333333333, "b": 380.0, "coord_origin": "1"}}, {"id": 29, "text": "their", "bbox": {"l": 438.3333333333333, "t": 364.0, "r": 482.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 30, "text": "field", "bbox": {"l": 488.0, "t": 364.0, "r": 527.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 31, "text": "for", "bbox": {"l": 534.0, "t": 364.0, "r": 561.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 32, "text": "the", "bbox": {"l": 566.3333333333334, "t": 364.0, "r": 596.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 33, "text": "sole", "bbox": {"l": 603.0, "t": 364.0, "r": 639.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 34, "text": "purpose", "bbox": {"l": 646.6666666666666, "t": 369.0, "r": 720.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 35, "text": "of", "bbox": {"l": 727.6666666666666, "t": 364.0, "r": 746.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 36, "text": "professional", "bbox": {"l": 752.6666666666666, "t": 364.0, "r": 863.3333333333334, "b": 384.0, "coord_origin": "1"}}, {"id": 37, "text": "development.", "bbox": {"l": 871.0, "t": 364.0, "r": 999.0, "b": 384.0, "coord_origin": "1"}}, {"id": 38, "text": "The", "bbox": {"l": 1005.3333333333334, "t": 364.0, "r": 1039.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 39, "text": "intent", "bbox": {"l": 1046.6666666666667, "t": 365.0, "r": 1100.3333333333333, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 40, "text": "is", "bbox": {"l": 1108.0, "t": 365.0, "r": 1120.0, "b": 380.33333333333326, "coord_origin": "1"}}, {"id": 41, "text": "to", "bbox": {"l": 150.33333333333334, "t": 397.33333333333326, "r": 169.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 42, "text": "defray", "bbox": {"l": 176.0, "t": 395.0, "r": 234.33333333333334, "b": 415.0, "coord_origin": "1"}}, {"id": 43, "text": "costs", "bbox": {"l": 241.0, "t": 397.33333333333326, "r": 286.3333333333333, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 44, "text": "associated", "bbox": {"l": 293.3333333333333, "t": 395.33333333333326, "r": 389.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 45, "text": "with", "bbox": {"l": 396.3333333333333, "t": 395.0, "r": 435.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 46, "text": "attendance.", "bbox": {"l": 443.3333333333333, "t": 395.33333333333326, "r": 552.3333333333334, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 47, "text": "The", "bbox": {"l": 559.3333333333334, "t": 395.0, "r": 593.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 48, "text": "maximum", "bbox": {"l": 600.6666666666666, "t": 396.0, "r": 691.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 49, "text": "amount", "bbox": {"l": 698.0, "t": 397.33333333333326, "r": 770.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 50, "text": "of", "bbox": {"l": 776.3333333333334, "t": 395.0, "r": 795.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 51, "text": "the", "bbox": {"l": 800.0, "t": 395.0, "r": 830.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 52, "text": "award", "bbox": {"l": 837.0, "t": 395.33333333333326, "r": 893.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 53, "text": "is", "bbox": {"l": 901.0, "t": 396.0, "r": 913.0, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 54, "text": "$2,000", "bbox": {"l": 920.0, "t": 394.0, "r": 982.3333333333334, "b": 414.33333333333326, "coord_origin": "1"}}, {"id": 55, "text": "per", "bbox": {"l": 989.6666666666666, "t": 400.0, "r": 1019.3333333333334, "b": 415.33333333333326, "coord_origin": "1"}}, {"id": 56, "text": "staff", "bbox": {"l": 1025.6666666666667, "t": 395.0, "r": 1066.6666666666667, "b": 411.33333333333326, "coord_origin": "1"}}, {"id": 57, "text": "member.", "bbox": {"l": 151.66666666666666, "t": 425.0, "r": 233.66666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 58, "text": "Up", "bbox": {"l": 242.0, "t": 426.33333333333326, "r": 266.3333333333333, "b": 445.0, "coord_origin": "1"}}, {"id": 59, "text": "to", "bbox": {"l": 272.6666666666667, "t": 427.33333333333326, "r": 291.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 60, "text": "four", "bbox": {"l": 297.6666666666667, "t": 425.0, "r": 336.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 61, "text": "awards", "bbox": {"l": 342.3333333333333, "t": 425.33333333333326, "r": 408.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 62, "text": "will", "bbox": {"l": 414.6666666666667, "t": 425.0, "r": 445.0, "b": 441.0, "coord_origin": "1"}}, {"id": 63, "text": "be", "bbox": {"l": 453.0, "t": 425.0, "r": 474.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 64, "text": "made", "bbox": {"l": 481.6666666666667, "t": 425.33333333333326, "r": 531.6666666666666, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 65, "text": "per", "bbox": {"l": 539.6666666666666, "t": 430.0, "r": 569.3333333333334, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 66, "text": "year,", "bbox": {"l": 575.0, "t": 430.0, "r": 619.6666666666666, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 67, "text": "contingent", "bbox": {"l": 627.0, "t": 426.0, "r": 726.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 68, "text": "upon", "bbox": {"l": 733.6666666666666, "t": 430.0, "r": 779.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 69, "text": "the", "bbox": {"l": 786.0, "t": 425.0, "r": 815.3333333333334, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 70, "text": "availability", "bbox": {"l": 822.6666666666666, "t": 425.0, "r": 921.0, "b": 445.0, "coord_origin": "1"}}, {"id": 71, "text": "of", "bbox": {"l": 927.3333333333334, "t": 425.0, "r": 946.0, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 72, "text": "funding.", "bbox": {"l": 951.3333333333334, "t": 425.0, "r": 1026.0, "b": 445.33333333333326, "coord_origin": "1"}}, {"id": 73, "text": "Staff", "bbox": {"l": 1034.0, "t": 425.0, "r": 1077.6666666666667, "b": 441.33333333333326, "coord_origin": "1"}}, {"id": 74, "text": "members", "bbox": {"l": 151.66666666666666, "t": 455.0, "r": 240.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 75, "text": "that", "bbox": {"l": 246.33333333333334, "t": 455.0, "r": 284.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 76, "text": "are", "bbox": {"l": 290.6666666666667, "t": 460.0, "r": 320.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 77, "text": "awarded", "bbox": {"l": 327.0, "t": 455.33333333333326, "r": 408.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 78, "text": "must", "bbox": {"l": 416.3333333333333, "t": 457.33333333333326, "r": 462.3333333333333, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 79, "text": "wait", "bbox": {"l": 468.3333333333333, "t": 456.0, "r": 509.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 80, "text": "three", "bbox": {"l": 515.0, "t": 455.0, "r": 565.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 81, "text": "years", "bbox": {"l": 570.6666666666666, "t": 460.0, "r": 623.0, "b": 475.33333333333326, "coord_origin": "1"}}, {"id": 82, "text": "from", "bbox": {"l": 628.3333333333334, "t": 455.0, "r": 673.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 83, "text": "the", "bbox": {"l": 680.0, "t": 455.0, "r": 710.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 84, "text": "date", "bbox": {"l": 717.6666666666666, "t": 455.33333333333326, "r": 758.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 85, "text": "of", "bbox": {"l": 765.3333333333334, "t": 455.0, "r": 784.6666666666666, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 86, "text": "award", "bbox": {"l": 790.0, "t": 455.33333333333326, "r": 847.3333333333334, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 87, "text": "notification", "bbox": {"l": 855.6666666666666, "t": 455.0, "r": 961.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 88, "text": "before", "bbox": {"l": 969.0, "t": 455.0, "r": 1030.0, "b": 471.33333333333326, "coord_origin": "1"}}, {"id": 89, "text": "reapplying", "bbox": {"l": 151.66666666666666, "t": 485.0, "r": 249.33333333333334, "b": 505.33333333333326, "coord_origin": "1"}}, {"id": 90, "text": "again.", "bbox": {"l": 256.0, "t": 486.0, "r": 310.3333333333333, "b": 505.33333333333326, "coord_origin": "1"}}]}, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 150.78166991472244, "t": 533.5104402065276, "r": 260.6759834289551, "b": 559.6898045778275, "coord_origin": "1"}, "confidence": 0.9503186941146851, "cells": [{"id": 91, "text": "Eligibility", "bbox": {"l": 152.0, "t": 534.0, "r": 260.3333333333333, "b": 559.3333333333335, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 148.50606322288513, "t": 569.6830233335495, "r": 645.7155847549438, "b": 592.9421716928482, "coord_origin": "1"}, "confidence": 0.9613662958145142, "cells": [{"id": 92, "text": "All", "bbox": {"l": 150.33333333333334, "t": 571.0, "r": 174.33333333333334, "b": 588.0, "coord_origin": "1"}}, {"id": 93, "text": "staff", "bbox": {"l": 182.66666666666666, "t": 571.0, "r": 227.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 94, "text": "currently", "bbox": {"l": 233.66666666666666, "t": 571.0, "r": 324.3333333333333, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 95, "text": "employed", "bbox": {"l": 331.0, "t": 571.0, "r": 430.0, "b": 592.6666666666665, "coord_origin": "1"}}, {"id": 96, "text": "in", "bbox": {"l": 439.0, "t": 571.6666666666665, "r": 455.0, "b": 588.0, "coord_origin": "1"}}, {"id": 97, "text": "CLASS", "bbox": {"l": 463.0, "t": 572.0, "r": 522.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 98, "text": "are", "bbox": {"l": 529.6666666666666, "t": 576.0, "r": 561.0, "b": 588.3333333333335, "coord_origin": "1"}}, {"id": 99, "text": "eligible.", "bbox": {"l": 568.6666666666666, "t": 571.0, "r": 645.0, "b": 592.6666666666665, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible."}, {"label": "Section-header", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Section-header", "bbox": {"l": 149.40486699342728, "t": 621.1429394483566, "r": 470.9180027246475, "b": 642.8035601377487, "coord_origin": "1"}, "confidence": 0.9461344480514526, "cells": [{"id": 100, "text": "What", "bbox": {"l": 150.66666666666666, "t": 622.0, "r": 216.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "the", "bbox": {"l": 223.33333333333334, "t": 622.0, "r": 262.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 102, "text": "Award", "bbox": {"l": 271.0, "t": 622.0, "r": 348.6666666666667, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 103, "text": "Will", "bbox": {"l": 357.0, "t": 622.0, "r": 403.0, "b": 642.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "Fund", "bbox": {"l": 412.6666666666667, "t": 622.0, "r": 470.0, "b": 642.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Fund"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 149.67606604099274, "t": 657.5785455226899, "r": 711.9582509994507, "b": 681.0201015949249, "coord_origin": "1"}, "confidence": 0.9246068000793457, "cells": [{"id": 105, "text": "Costs", "bbox": {"l": 151.0, "t": 660.0, "r": 205.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 106, "text": "associated", "bbox": {"l": 212.0, "t": 659.0, "r": 318.6666666666667, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 107, "text": "with", "bbox": {"l": 326.6666666666667, "t": 659.0, "r": 370.0, "b": 676.3333333333334, "coord_origin": "1"}}, {"id": 108, "text": "conference/workshop", "bbox": {"l": 378.0, "t": 658.0, "r": 606.0, "b": 680.6666666666666, "coord_origin": "1"}}, {"id": 109, "text": "including:", "bbox": {"l": 614.0, "t": 659.0, "r": 711.3333333333334, "b": 680.6666666666666, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "List-item", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "List-item", "bbox": {"l": 187.46777415275574, "t": 689.4462042808532, "r": 295.38462817668915, "b": 708.6354641914368, "coord_origin": "1"}, "confidence": 0.9335318207740784, "cells": [{"id": 110, "text": "e", "bbox": {"l": 188.66666666666666, "t": 696.3333333333334, "r": 198.33333333333334, "b": 705.6666666666666, "coord_origin": "1"}}, {"id": 111, "text": "Airfare", "bbox": {"l": 225.33333333333334, "t": 690.6666666666666, "r": 295.0, "b": 708.3333333333334, "coord_origin": "1"}}]}, "text": "e Airfare"}, {"label": "List-item", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "List-item", "bbox": {"l": 187.50680565834045, "t": 722.8242965221405, "r": 305.6780630350113, "b": 746.4228318691253, "coord_origin": "1"}, "confidence": 0.9490970373153687, "cells": [{"id": 112, "text": "e", "bbox": {"l": 188.66666666666666, "t": 728.3333333333334, "r": 198.33333333333334, "b": 737.6666666666666, "coord_origin": "1"}}, {"id": 113, "text": "Lodging", "bbox": {"l": 227.0, "t": 723.0, "r": 305.3333333333333, "b": 744.6666666666666, "coord_origin": "1"}}]}, "text": "e Lodging"}, {"label": "List-item", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "List-item", "bbox": {"l": 187.22247451543808, "t": 753.9500432014465, "r": 287.6211887598038, "b": 772.6611225128174, "coord_origin": "1"}, "confidence": 0.9289586544036865, "cells": [{"id": 114, "text": "e", "bbox": {"l": 188.66666666666666, "t": 760.3333333333334, "r": 198.33333333333334, "b": 769.6666666666666, "coord_origin": "1"}}, {"id": 115, "text": "Meals", "bbox": {"l": 227.0, "t": 755.0, "r": 287.0, "b": 772.3333333333334, "coord_origin": "1"}}]}, "text": "e Meals"}, {"label": "List-item", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "List-item", "bbox": {"l": 187.34113454818726, "t": 785.6434030056, "r": 398.1761348247528, "b": 809.347352218628, "coord_origin": "1"}, "confidence": 0.9557709097862244, "cells": [{"id": 116, "text": "e", "bbox": {"l": 188.66666666666666, "t": 792.3333333333334, "r": 198.33333333333334, "b": 801.6666666666666, "coord_origin": "1"}}, {"id": 117, "text": "Registration", "bbox": {"l": 227.0, "t": 787.6666666666666, "r": 348.3333333333333, "b": 808.6666666666666, "coord_origin": "1"}}, {"id": 118, "text": "fees", "bbox": {"l": 356.0, "t": 786.6666666666666, "r": 398.0, "b": 804.3333333333334, "coord_origin": "1"}}]}, "text": "e Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.77513206005096, "t": 817.9786143779754, "r": 463.1761461496353, "b": 840.9855252265929, "coord_origin": "1"}, "confidence": 0.9588009119033813, "cells": [{"id": 119, "text": "e", "bbox": {"l": 188.66666666666666, "t": 824.3333333333334, "r": 198.0, "b": 833.6666666666666, "coord_origin": "1"}}, {"id": 120, "text": "Ground", "bbox": {"l": 226.0, "t": 819.0, "r": 302.3333333333333, "b": 836.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "Transportation", "bbox": {"l": 309.6666666666667, "t": 819.6666666666666, "r": 462.6666666666667, "b": 840.6666666666666, "coord_origin": "1"}}]}, "text": "e Ground Transportation"}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 148.93999993801117, "t": 869.2062106132507, "r": 522.0390915870667, "b": 891.0674246788026, "coord_origin": "1"}, "confidence": 0.948615550994873, "cells": [{"id": 122, "text": "What", "bbox": {"l": 150.66666666666666, "t": 870.0, "r": 216.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "the", "bbox": {"l": 223.33333333333334, "t": 870.0, "r": 262.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "Award", "bbox": {"l": 271.0, "t": 870.0, "r": 348.6666666666667, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 125, "text": "Will", "bbox": {"l": 357.0, "t": 870.0, "r": 403.0, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 126, "text": "Not", "bbox": {"l": 412.6666666666667, "t": 871.3333333333334, "r": 455.3333333333333, "b": 890.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "Fund", "bbox": {"l": 464.3333333333333, "t": 870.0, "r": 521.3333333333334, "b": 890.3333333333334, "coord_origin": "1"}}]}, "text": "What the Award Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 148.15055429935455, "t": 905.2273646354674, "r": 985.2359998226166, "b": 928.1698777675629, "coord_origin": "1"}, "confidence": 0.9495972394943237, "cells": [{"id": 128, "text": "Any", "bbox": {"l": 150.33333333333334, "t": 907.0, "r": 188.66666666666666, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "expenses", "bbox": {"l": 195.66666666666666, "t": 911.0, "r": 287.6666666666667, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "incurred", "bbox": {"l": 296.0, "t": 906.0, "r": 378.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "outside", "bbox": {"l": 386.3333333333333, "t": 906.0, "r": 460.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "of", "bbox": {"l": 468.0, "t": 906.0, "r": 488.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 493.3333333333333, "t": 906.0, "r": 526.0, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "scope", "bbox": {"l": 533.6666666666666, "t": 911.0, "r": 591.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "of", "bbox": {"l": 598.3333333333334, "t": 906.0, "r": 618.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 136, "text": "the", "bbox": {"l": 624.3333333333334, "t": 906.0, "r": 656.6666666666666, "b": 923.3333333333334, "coord_origin": "1"}}, {"id": 137, "text": "proposed", "bbox": {"l": 665.0, "t": 906.0, "r": 758.3333333333334, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "development", "bbox": {"l": 767.0, "t": 906.0, "r": 900.0, "b": 927.6666666666666, "coord_origin": "1"}}, {"id": 139, "text": "activity.", "bbox": {"l": 907.6666666666666, "t": 906.6666666666666, "r": 984.6666666666666, "b": 927.6666666666666, "coord_origin": "1"}}]}, "text": "Any expenses incurred outside of the scope of the proposed development activity."}, {"label": "Section-header", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Section-header", "bbox": {"l": 149.9398022890091, "t": 957.1283027648925, "r": 371.3692116737366, "b": 984.2345455169678, "coord_origin": "1"}, "confidence": 0.940950870513916, "cells": [{"id": 140, "text": "Granting", "bbox": {"l": 151.0, "t": 958.3333333333334, "r": 255.33333333333334, "b": 983.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "Schedule", "bbox": {"l": 263.0, "t": 958.0, "r": 370.6666666666667, "b": 978.3333333333334, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 150.36554664373398, "t": 994.2250088691712, "r": 411.4770323038101, "b": 1014.1672024726868, "coord_origin": "1"}, "confidence": 0.8549662828445435, "cells": [{"id": 142, "text": "Earliest", "bbox": {"l": 151.66666666666666, "t": 995.0, "r": 226.33333333333334, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "Submission", "bbox": {"l": 233.0, "t": 995.0, "r": 349.3333333333333, "b": 1012.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "Date:", "bbox": {"l": 358.0, "t": 996.0, "r": 411.0, "b": 1012.3333333333334, "coord_origin": "1"}}]}, "text": "Earliest Submission Date:"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 416.953906416893, "t": 992.823217010498, "r": 519.5720815658569, "b": 1017.5366673469543, "coord_origin": "1"}, "confidence": 0.8406550884246826, "cells": [{"id": 145, "text": "August", "bbox": {"l": 419.0, "t": 996.0, "r": 488.3333333333333, "b": 1016.6666666666666, "coord_origin": "1"}}, {"id": 146, "text": "1\u00b0", "bbox": {"l": 496.6666666666667, "t": 993.0, "r": 519.0, "b": 1012.0, "coord_origin": "1"}}]}, "text": "August 1\u00b0"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 149.51633781194687, "t": 1027.4707630157473, "r": 331.3333333333333, "b": 1050.3665917396547, "coord_origin": "1"}, "confidence": 0.872626781463623, "cells": [{"id": 147, "text": "Applications", "bbox": {"l": 150.0, "t": 1028.0, "r": 278.0, "b": 1049.6666666666667, "coord_origin": "1"}}, {"id": 148, "text": "Due:", "bbox": {"l": 286.0, "t": 1029.0, "r": 331.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}]}, "text": "Applications Due:"}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 339.280207157135, "t": 1026.091644191742, "r": 452.0, "b": 1046.456752872467, "coord_origin": "1"}, "confidence": 0.8156192898750305, "cells": [{"id": 149, "text": "October", "bbox": {"l": 340.0, "t": 1028.0, "r": 421.3333333333333, "b": 1045.3333333333333, "coord_origin": "1"}}, {"id": 150, "text": "1\u00b0", "bbox": {"l": 429.6666666666667, "t": 1026.3333333333333, "r": 452.0, "b": 1045.0, "coord_origin": "1"}}]}, "text": "October 1\u00b0"}, {"label": "Text", "id": 20, "page_no": 0, "cluster": {"id": 20, "label": "Text", "bbox": {"l": 150.0467437505722, "t": 1058.9590420722961, "r": 390.0, "b": 1079.0038154125214, "coord_origin": "1"}, "confidence": 0.9157810211181641, "cells": [{"id": 151, "text": "Notification", "bbox": {"l": 151.66666666666666, "t": 1061.0, "r": 272.0, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 152, "text": "of", "bbox": {"l": 279.3333333333333, "t": 1061.0, "r": 300.3333333333333, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 153, "text": "Awards:", "bbox": {"l": 306.0, "t": 1061.0, "r": 390.0, "b": 1078.3333333333333, "coord_origin": "1"}}]}, "text": "Notification of Awards:"}, {"label": "Text", "id": 21, "page_no": 0, "cluster": {"id": 21, "label": "Text", "bbox": {"l": 396.9028079509735, "t": 1058.8461492538454, "r": 534.7470080852509, "b": 1079.1274936676027, "coord_origin": "1"}, "confidence": 0.9047551155090332, "cells": [{"id": 154, "text": "November", "bbox": {"l": 398.6666666666667, "t": 1061.0, "r": 503.6666666666667, "b": 1078.3333333333333, "coord_origin": "1"}}, {"id": 155, "text": "1\u00b0", "bbox": {"l": 511.6666666666667, "t": 1059.0, "r": 534.3333333333334, "b": 1078.0, "coord_origin": "1"}}]}, "text": "November 1\u00b0"}, {"label": "Text", "id": 22, "page_no": 0, "cluster": {"id": 22, "label": "Text", "bbox": {"l": 150.2799904346466, "t": 1124.688090848923, "r": 1079.0162444114685, "b": 1180.7336282253264, "coord_origin": "1"}, "confidence": 0.970356822013855, "cells": [{"id": 156, "text": "Please", "bbox": {"l": 152.0, "t": 1126.0, "r": 214.33333333333334, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 157, "text": "submit", "bbox": {"l": 222.0, "t": 1126.0, "r": 290.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 158, "text": "applications", "bbox": {"l": 297.6666666666667, "t": 1126.0, "r": 418.0, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 159, "text": "to", "bbox": {"l": 425.0, "t": 1128.3333333333333, "r": 445.3333333333333, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 160, "text": "CLASSGrt@uh.edu", "bbox": {"l": 453.3333333333333, "t": 1126.0, "r": 638.0, "b": 1146.0, "coord_origin": "1"}}, {"id": 161, "text": "by", "bbox": {"l": 647.0, "t": 1126.0, "r": 669.6666666666666, "b": 1147.6666666666667, "coord_origin": "1"}}, {"id": 162, "text": "the", "bbox": {"l": 676.0, "t": 1126.0, "r": 708.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 163, "text": "deadline.", "bbox": {"l": 716.3333333333334, "t": 1126.0, "r": 807.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 164, "text": "Please", "bbox": {"l": 816.6666666666666, "t": 1126.0, "r": 879.0, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 165, "text": "write", "bbox": {"l": 886.0, "t": 1126.6666666666667, "r": 937.6666666666666, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 166, "text": "\u201cProfessional", "bbox": {"l": 946.0, "t": 1126.0, "r": 1077.6666666666667, "b": 1143.3333333333333, "coord_origin": "1"}}, {"id": 167, "text": "Development-", "bbox": {"l": 152.0, "t": 1159.0, "r": 294.6666666666667, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 168, "text": "Staff\u201d", "bbox": {"l": 302.0, "t": 1159.0, "r": 357.0, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 169, "text": "in", "bbox": {"l": 365.6666666666667, "t": 1159.6666666666667, "r": 381.3333333333333, "b": 1176.0, "coord_origin": "1"}}, {"id": 170, "text": "the", "bbox": {"l": 389.0, "t": 1159.0, "r": 421.3333333333333, "b": 1176.3333333333333, "coord_origin": "1"}}, {"id": 171, "text": "subject", "bbox": {"l": 429.0, "t": 1159.0, "r": 501.0, "b": 1180.6666666666667, "coord_origin": "1"}}, {"id": 172, "text": "line.", "bbox": {"l": 509.0, "t": 1159.0, "r": 548.6666666666666, "b": 1176.3333333333333, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional DevelopmentStaff\u201d in the subject line."}, {"label": "Text", "id": 23, "page_no": 0, "cluster": {"id": 23, "label": "Text", "bbox": {"l": 148.3172133564949, "t": 1207.9441826820375, "r": 1093.461184501648, "b": 1330.344875240326, "coord_origin": "1"}, "confidence": 0.9601047039031982, "cells": [{"id": 173, "text": "PLEASE", "bbox": {"l": 150.66666666666666, "t": 1210.0, "r": 226.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 174, "text": "NOTE:", "bbox": {"l": 231.33333333333334, "t": 1209.6666666666667, "r": 295.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 175, "text": "Please", "bbox": {"l": 302.0, "t": 1209.0, "r": 368.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 176, "text": "include", "bbox": {"l": 374.0, "t": 1209.0, "r": 447.6666666666667, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 177, "text": "a", "bbox": {"l": 454.3333333333333, "t": 1214.0, "r": 466.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 178, "text": "supporting", "bbox": {"l": 472.3333333333333, "t": 1209.3333333333333, "r": 585.0, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 179, "text": "letter", "bbox": {"l": 591.0, "t": 1209.0, "r": 648.3333333333334, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 180, "text": "from", "bbox": {"l": 650.6666666666666, "t": 1208.6666666666667, "r": 702.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 181, "text": "your", "bbox": {"l": 709.0, "t": 1214.0, "r": 756.3333333333334, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 182, "text": "Department", "bbox": {"l": 762.0, "t": 1210.0, "r": 887.6666666666666, "b": 1230.6666666666667, "coord_origin": "1"}}, {"id": 183, "text": "Chair", "bbox": {"l": 894.0, "t": 1209.0, "r": 948.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 184, "text": "or", "bbox": {"l": 953.6666666666666, "t": 1214.0, "r": 976.0, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 185, "text": "Immediate", "bbox": {"l": 981.6666666666666, "t": 1209.0, "r": 1093.3333333333333, "b": 1226.3333333333333, "coord_origin": "1"}}, {"id": 186, "text": "Supervisor.", "bbox": {"l": 150.0, "t": 1242.3333333333333, "r": 263.3333333333333, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 187, "text": "Incomplete", "bbox": {"l": 272.3333333333333, "t": 1242.0, "r": 383.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 188, "text": "applications", "bbox": {"l": 390.6666666666667, "t": 1242.0, "r": 511.6666666666667, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 189, "text": "will", "bbox": {"l": 519.6666666666666, "t": 1242.0, "r": 553.3333333333334, "b": 1259.0, "coord_origin": "1"}}, {"id": 190, "text": "not", "bbox": {"l": 559.3333333333334, "t": 1244.0, "r": 593.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 191, "text": "be", "bbox": {"l": 599.0, "t": 1242.0, "r": 622.6666666666666, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 192, "text": "reviewed.", "bbox": {"l": 629.6666666666666, "t": 1242.0, "r": 725.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 193, "text": "Applications", "bbox": {"l": 732.6666666666666, "t": 1242.0, "r": 857.0, "b": 1263.6666666666667, "coord_origin": "1"}}, {"id": 194, "text": "will", "bbox": {"l": 865.0, "t": 1242.0, "r": 898.6666666666666, "b": 1259.0, "coord_origin": "1"}}, {"id": 195, "text": "be", "bbox": {"l": 904.6666666666666, "t": 1242.0, "r": 928.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 196, "text": "considered", "bbox": {"l": 935.3333333333334, "t": 1242.0, "r": 1044.0, "b": 1259.3333333333333, "coord_origin": "1"}}, {"id": 197, "text": "incomplete", "bbox": {"l": 150.66666666666666, "t": 1275.0, "r": 262.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 198, "text": "until", "bbox": {"l": 269.0, "t": 1275.0, "r": 314.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 199, "text": "all", "bbox": {"l": 320.0, "t": 1275.0, "r": 344.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 200, "text": "information", "bbox": {"l": 350.0, "t": 1275.0, "r": 468.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 201, "text": "has", "bbox": {"l": 475.3333333333333, "t": 1275.0, "r": 509.3333333333333, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 202, "text": "been", "bbox": {"l": 516.3333333333334, "t": 1275.0, "r": 564.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 203, "text": "received,", "bbox": {"l": 571.6666666666666, "t": 1275.0, "r": 659.0, "b": 1295.6666666666667, "coord_origin": "1"}}, {"id": 204, "text": "at", "bbox": {"l": 668.0, "t": 1277.3333333333333, "r": 688.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 205, "text": "which", "bbox": {"l": 696.0, "t": 1275.0, "r": 752.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 206, "text": "time", "bbox": {"l": 761.0, "t": 1275.6666666666667, "r": 805.0, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 207, "text": "an", "bbox": {"l": 812.0, "t": 1280.0, "r": 835.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 208, "text": "email", "bbox": {"l": 843.0, "t": 1275.0, "r": 898.6666666666666, "b": 1292.3333333333333, "coord_origin": "1"}}, {"id": 209, "text": "confirming", "bbox": {"l": 905.0, "t": 1275.0, "r": 1012.3333333333334, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 210, "text": "receipt", "bbox": {"l": 1019.3333333333334, "t": 1275.6666666666667, "r": 1089.0, "b": 1296.6666666666667, "coord_origin": "1"}}, {"id": 211, "text": "will", "bbox": {"l": 151.66666666666666, "t": 1308.0, "r": 185.33333333333334, "b": 1325.0, "coord_origin": "1"}}, {"id": 212, "text": "be", "bbox": {"l": 191.33333333333334, "t": 1308.0, "r": 215.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 213, "text": "sent", "bbox": {"l": 221.33333333333334, "t": 1310.0, "r": 264.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 214, "text": "to", "bbox": {"l": 270.6666666666667, "t": 1310.0, "r": 290.0, "b": 1325.3333333333333, "coord_origin": "1"}}, {"id": 215, "text": "you.", "bbox": {"l": 297.0, "t": 1313.0, "r": 337.0, "b": 1329.6666666666667, "coord_origin": "1"}}]}, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you."}], "headers": []}}] \ No newline at end of file +[{"page_no": 0, "page_hash": "bb73bd6977a3f0e54017d8ba2e4a3db1b2e6148d181315342fe028771041b986", "size": {"width": 1275.0, "height": 1651.0}, "cells": [{"id": 0, "text": "UNIVERSITYof \u2018CLASS", "bbox": {"l": 213.33333333333334, "t": 1444.3333333333333, "r": 1038.6666666666667, "b": 1500.6666666666667, "coord_origin": "1"}}, {"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 383.6666666666667, "t": 1382.6666666666667, "r": 893.3333333333334, "b": 1408.0, "coord_origin": "1"}}, {"id": 2, "text": "Purpose", "bbox": {"l": 152.0, "t": 1327.6666666666667, "r": 248.0, "b": 1351.6666666666667, "coord_origin": "1"}}, {"id": 3, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 150.0, "t": 1297.0, "r": 1101.0, "b": 1317.0, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 151.0, "t": 1267.0, "r": 1120.0, "b": 1287.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 150.33333333333334, "t": 1235.6666666666667, "r": 1066.6666666666667, "b": 1257.0, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 151.66666666666666, "t": 1205.6666666666667, "r": 1077.6666666666667, "b": 1226.0, "coord_origin": "1"}}, {"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 151.66666666666666, "t": 1175.6666666666667, "r": 1030.0, "b": 1196.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 151.66666666666666, "t": 1145.6666666666667, "r": 310.3333333333333, "b": 1166.0, "coord_origin": "1"}}, {"id": 9, "text": "Eligibility", "bbox": {"l": 152.0, "t": 1091.6666666666665, "r": 260.3333333333333, "b": 1117.0, "coord_origin": "1"}}, {"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 150.33333333333334, "t": 1058.3333333333335, "r": 645.0, "b": 1080.0, "coord_origin": "1"}}, {"id": 11, "text": "What the Awara Will Fund", "bbox": {"l": 150.66666666666666, "t": 1008.6666666666666, "r": 470.0, "b": 1029.0, "coord_origin": "1"}}, {"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 151.0, "t": 970.3333333333334, "r": 711.3333333333334, "b": 993.0, "coord_origin": "1"}}, {"id": 13, "text": "e Aijirtare", "bbox": {"l": 188.66666666666666, "t": 942.6666666666666, "r": 295.0, "b": 960.3333333333334, "coord_origin": "1"}}, {"id": 14, "text": "e Lodging", "bbox": {"l": 188.66666666666666, "t": 906.3333333333334, "r": 305.3333333333333, "b": 928.0, "coord_origin": "1"}}, {"id": 15, "text": "Meals", "bbox": {"l": 188.66666666666666, "t": 878.6666666666666, "r": 287.0, "b": 896.0, "coord_origin": "1"}}, {"id": 16, "text": "e Registration fees", "bbox": {"l": 188.66666666666666, "t": 842.3333333333334, "r": 398.0, "b": 864.3333333333334, "coord_origin": "1"}}, {"id": 17, "text": "e Ground Transportation", "bbox": {"l": 188.66666666666666, "t": 810.3333333333334, "r": 462.6666666666667, "b": 832.0, "coord_origin": "1"}}, {"id": 18, "text": "What the Awara Will Not Fund", "bbox": {"l": 150.66666666666666, "t": 760.6666666666666, "r": 521.3333333333334, "b": 781.0, "coord_origin": "1"}}, {"id": 19, "text": "Any expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 150.33333333333334, "t": 723.3333333333334, "r": 984.6666666666666, "b": 745.0, "coord_origin": "1"}}, {"id": 20, "text": "Granting Schedule", "bbox": {"l": 151.0, "t": 667.6666666666666, "r": 370.6666666666667, "b": 693.0, "coord_origin": "1"}}, {"id": 21, "text": "Earliest Submission Date: August 1\u00b0", "bbox": {"l": 151.66666666666666, "t": 634.3333333333334, "r": 519.0, "b": 658.0, "coord_origin": "1"}}, {"id": 22, "text": "Applications Due: October 1\u00b0", "bbox": {"l": 150.0, "t": 601.3333333333333, "r": 452.0, "b": 624.6666666666667, "coord_origin": "1"}}, {"id": 23, "text": "Notification of Awards: November 1\u00b0\"", "bbox": {"l": 151.66666666666666, "t": 572.6666666666667, "r": 534.3333333333334, "b": 592.0, "coord_origin": "1"}}, {"id": 24, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional", "bbox": {"l": 152.0, "t": 503.33333333333326, "r": 1077.6666666666667, "b": 525.0, "coord_origin": "1"}}, {"id": 25, "text": "Development- Staff in the subject line.", "bbox": {"l": 152.0, "t": 470.33333333333326, "r": 548.6666666666666, "b": 492.0, "coord_origin": "1"}}, {"id": 26, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 150.66666666666666, "t": 420.33333333333326, "r": 1093.3333333333333, "b": 442.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "Supervisor. Incomplete applications will not be reviewed. Applications will be considered", "bbox": {"l": 150.0, "t": 387.33333333333326, "r": 1044.0, "b": 409.0, "coord_origin": "1"}}, {"id": 28, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 150.66666666666666, "t": 354.33333333333326, "r": 1089.0, "b": 376.0, "coord_origin": "1"}}, {"id": 29, "text": "will be sent to you.", "bbox": {"l": 151.66666666666666, "t": 321.33333333333326, "r": 337.0, "b": 343.0, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Text", "bbox": {"l": 213.33333333333334, "t": 1444.3333333333333, "r": 1038.6666666666667, "b": 1500.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 0, "text": "UNIVERSITYof \u2018CLASS", "bbox": {"l": 213.33333333333334, "t": 1444.3333333333333, "r": 1038.6666666666667, "b": 1500.6666666666667, "coord_origin": "1"}}]}, {"id": 1, "label": "Text", "bbox": {"l": 383.6666666666667, "t": 1382.6666666666667, "r": 893.3333333333334, "b": 1408.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 383.6666666666667, "t": 1382.6666666666667, "r": 893.3333333333334, "b": 1408.0, "coord_origin": "1"}}]}, {"id": 2, "label": "Text", "bbox": {"l": 152.0, "t": 1327.6666666666667, "r": 248.0, "b": 1351.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 152.0, "t": 1327.6666666666667, "r": 248.0, "b": 1351.6666666666667, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 149.33502197265625, "t": 1204.9547119140625, "r": 1120.0, "b": 1330.9691162109375, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 3, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 150.0, "t": 1297.0, "r": 1101.0, "b": 1317.0, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 151.0, "t": 1267.0, "r": 1120.0, "b": 1287.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 150.33333333333334, "t": 1235.6666666666667, "r": 1066.6666666666667, "b": 1257.0, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 151.66666666666666, "t": 1205.6666666666667, "r": 1077.6666666666667, "b": 1226.0, "coord_origin": "1"}}]}, {"id": 4, "label": "Text", "bbox": {"l": 149.83230590820312, "t": 1120.338623046875, "r": 1084.8453369140625, "b": 1196.0, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 151.66666666666666, "t": 1175.6666666666667, "r": 1030.0, "b": 1196.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 151.66666666666666, "t": 1145.6666666666667, "r": 310.3333333333333, "b": 1166.0, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 152.0, "t": 1091.6666666666665, "r": 260.3333333333333, "b": 1117.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 152.0, "t": 1091.6666666666665, "r": 260.3333333333333, "b": 1117.0, "coord_origin": "1"}}]}, {"id": 6, "label": "Text", "bbox": {"l": 149.7007598876953, "t": 942.6666666666666, "r": 645.0, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 150.33333333333334, "t": 1058.3333333333335, "r": 645.0, "b": 1080.0, "coord_origin": "1"}}, {"id": 11, "text": "What the Awara Will Fund", "bbox": {"l": 150.66666666666666, "t": 1008.6666666666666, "r": 470.0, "b": 1029.0, "coord_origin": "1"}}, {"id": 13, "text": "e Aijirtare", "bbox": {"l": 188.66666666666666, "t": 942.6666666666666, "r": 295.0, "b": 960.3333333333334, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 151.0, "t": 970.3333333333334, "r": 711.3333333333334, "b": 993.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 151.0, "t": 970.3333333333334, "r": 711.3333333333334, "b": 993.0, "coord_origin": "1"}}]}, {"id": 8, "label": "Section-header", "bbox": {"l": 149.18833923339844, "t": 942.6666666666666, "r": 370.9015808105469, "b": 985.9794311523438, "coord_origin": "1"}, "confidence": 0.7323324084281921, "cells": [{"id": 13, "text": "e Aijirtare", "bbox": {"l": 188.66666666666666, "t": 942.6666666666666, "r": 295.0, "b": 960.3333333333334, "coord_origin": "1"}}]}, {"id": 9, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.7955932617188, "r": 988.288818359375, "b": 930.0330200195312, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 14, "text": "e Lodging", "bbox": {"l": 188.66666666666666, "t": 906.3333333333334, "r": 305.3333333333333, "b": 928.0, "coord_origin": "1"}}]}, {"id": 10, "label": "Section-header", "bbox": {"l": 149.12353515625, "t": 864.1539916992188, "r": 522.5803833007812, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 188.66666666666666, "t": 878.6666666666666, "r": 287.0, "b": 896.0, "coord_origin": "1"}}]}, {"id": 11, "label": "Text", "bbox": {"l": 188.66666666666666, "t": 842.3333333333334, "r": 398.0, "b": 864.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 16, "text": "e Registration fees", "bbox": {"l": 188.66666666666666, "t": 842.3333333333334, "r": 398.0, "b": 864.3333333333334, "coord_origin": "1"}}]}, {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 810.3333333333334, "r": 463.5527038574219, "b": 843.2557373046875, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 17, "text": "e Ground Transportation", "bbox": {"l": 188.66666666666666, "t": 810.3333333333334, "r": 462.6666666666667, "b": 832.0, "coord_origin": "1"}}]}, {"id": 13, "label": "List-item", "bbox": {"l": 150.66666666666666, "t": 748.8778686523438, "r": 521.3333333333334, "b": 781.0, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 18, "text": "What the Awara Will Not Fund", "bbox": {"l": 150.66666666666666, "t": 760.6666666666666, "r": 521.3333333333334, "b": 781.0, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 150.33333333333334, "t": 723.3333333333334, "r": 984.6666666666666, "b": 745.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 19, "text": "Any expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 150.33333333333334, "t": 723.3333333333334, "r": 984.6666666666666, "b": 745.0, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 148.62832641601562, "t": 652.9622192382812, "r": 712.8981323242188, "b": 693.0, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 151.0, "t": 667.6666666666666, "r": 370.6666666666667, "b": 693.0, "coord_origin": "1"}}]}, {"id": 16, "label": "Text", "bbox": {"l": 151.66666666666666, "t": 634.3333333333334, "r": 519.0, "b": 658.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1\u00b0", "bbox": {"l": 151.66666666666666, "t": 634.3333333333334, "r": 519.0, "b": 658.0, "coord_origin": "1"}}]}, {"id": 17, "label": "Section-header", "bbox": {"l": 149.26564025878906, "t": 601.3333333333333, "r": 470.8933410644531, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 22, "text": "Applications Due: October 1\u00b0", "bbox": {"l": 150.0, "t": 601.3333333333333, "r": 452.0, "b": 624.6666666666667, "coord_origin": "1"}}]}, {"id": 18, "label": "Text", "bbox": {"l": 148.79385375976562, "t": 564.5184936523438, "r": 646.3479614257812, "b": 594.4840087890625, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 23, "text": "Notification of Awards: November 1\u00b0\"", "bbox": {"l": 151.66666666666666, "t": 572.6666666666667, "r": 534.3333333333334, "b": 592.0, "coord_origin": "1"}}]}, {"id": 19, "label": "Text", "bbox": {"l": 149.10240173339844, "t": 321.33333333333326, "r": 1126.662841796875, "b": 525.0, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional", "bbox": {"l": 152.0, "t": 503.33333333333326, "r": 1077.6666666666667, "b": 525.0, "coord_origin": "1"}}, {"id": 25, "text": "Development- Staff in the subject line.", "bbox": {"l": 152.0, "t": 470.33333333333326, "r": 548.6666666666666, "b": 492.0, "coord_origin": "1"}}, {"id": 26, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 150.66666666666666, "t": 420.33333333333326, "r": 1093.3333333333333, "b": 442.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "Supervisor. Incomplete applications will not be reviewed. Applications will be considered", "bbox": {"l": 150.0, "t": 387.33333333333326, "r": 1044.0, "b": 409.0, "coord_origin": "1"}}, {"id": 28, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 150.66666666666666, "t": 354.33333333333326, "r": 1089.0, "b": 376.0, "coord_origin": "1"}}, {"id": 29, "text": "will be sent to you.", "bbox": {"l": 151.66666666666666, "t": 321.33333333333326, "r": 337.0, "b": 343.0, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Text", "bbox": {"l": 213.33333333333334, "t": 1444.3333333333333, "r": 1038.6666666666667, "b": 1500.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 0, "text": "UNIVERSITYof \u2018CLASS", "bbox": {"l": 213.33333333333334, "t": 1444.3333333333333, "r": 1038.6666666666667, "b": 1500.6666666666667, "coord_origin": "1"}}]}, "text": "UNIVERSITYof \u2018CLASS"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 383.6666666666667, "t": 1382.6666666666667, "r": 893.3333333333334, "b": 1408.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 383.6666666666667, "t": 1382.6666666666667, "r": 893.3333333333334, "b": 1408.0, "coord_origin": "1"}}]}, "text": "Professional Development Award for Staff"}, {"label": "Text", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Text", "bbox": {"l": 152.0, "t": 1327.6666666666667, "r": 248.0, "b": 1351.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 152.0, "t": 1327.6666666666667, "r": 248.0, "b": 1351.6666666666667, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 149.33502197265625, "t": 1204.9547119140625, "r": 1120.0, "b": 1330.9691162109375, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 3, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 150.0, "t": 1297.0, "r": 1101.0, "b": 1317.0, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 151.0, "t": 1267.0, "r": 1120.0, "b": 1287.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 150.33333333333334, "t": 1235.6666666666667, "r": 1066.6666666666667, "b": 1257.0, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 151.66666666666666, "t": 1205.6666666666667, "r": 1077.6666666666667, "b": 1226.0, "coord_origin": "1"}}]}, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff"}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 149.83230590820312, "t": 1120.338623046875, "r": 1084.8453369140625, "b": 1196.0, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 151.66666666666666, "t": 1175.6666666666667, "r": 1030.0, "b": 1196.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 151.66666666666666, "t": 1145.6666666666667, "r": 310.3333333333333, "b": 1166.0, "coord_origin": "1"}}]}, "text": "members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 152.0, "t": 1091.6666666666665, "r": 260.3333333333333, "b": 1117.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 152.0, "t": 1091.6666666666665, "r": 260.3333333333333, "b": 1117.0, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 149.7007598876953, "t": 942.6666666666666, "r": 645.0, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 150.33333333333334, "t": 1058.3333333333335, "r": 645.0, "b": 1080.0, "coord_origin": "1"}}, {"id": 11, "text": "What the Awara Will Fund", "bbox": {"l": 150.66666666666666, "t": 1008.6666666666666, "r": 470.0, "b": 1029.0, "coord_origin": "1"}}, {"id": 13, "text": "e Aijirtare", "bbox": {"l": 188.66666666666666, "t": 942.6666666666666, "r": 295.0, "b": 960.3333333333334, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible. What the Awara Will Fund e Aijirtare"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 151.0, "t": 970.3333333333334, "r": 711.3333333333334, "b": 993.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 151.0, "t": 970.3333333333334, "r": 711.3333333333334, "b": 993.0, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "Section-header", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Section-header", "bbox": {"l": 149.18833923339844, "t": 942.6666666666666, "r": 370.9015808105469, "b": 985.9794311523438, "coord_origin": "1"}, "confidence": 0.7323324084281921, "cells": [{"id": 13, "text": "e Aijirtare", "bbox": {"l": 188.66666666666666, "t": 942.6666666666666, "r": 295.0, "b": 960.3333333333334, "coord_origin": "1"}}]}, "text": "e Aijirtare"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.7955932617188, "r": 988.288818359375, "b": 930.0330200195312, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 14, "text": "e Lodging", "bbox": {"l": 188.66666666666666, "t": 906.3333333333334, "r": 305.3333333333333, "b": 928.0, "coord_origin": "1"}}]}, "text": "e Lodging"}, {"label": "Section-header", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Section-header", "bbox": {"l": 149.12353515625, "t": 864.1539916992188, "r": 522.5803833007812, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 188.66666666666666, "t": 878.6666666666666, "r": 287.0, "b": 896.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 188.66666666666666, "t": 842.3333333333334, "r": 398.0, "b": 864.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 16, "text": "e Registration fees", "bbox": {"l": 188.66666666666666, "t": 842.3333333333334, "r": 398.0, "b": 864.3333333333334, "coord_origin": "1"}}]}, "text": "e Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 810.3333333333334, "r": 463.5527038574219, "b": 843.2557373046875, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 17, "text": "e Ground Transportation", "bbox": {"l": 188.66666666666666, "t": 810.3333333333334, "r": 462.6666666666667, "b": 832.0, "coord_origin": "1"}}]}, "text": "e Ground Transportation"}, {"label": "List-item", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "List-item", "bbox": {"l": 150.66666666666666, "t": 748.8778686523438, "r": 521.3333333333334, "b": 781.0, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 18, "text": "What the Awara Will Not Fund", "bbox": {"l": 150.66666666666666, "t": 760.6666666666666, "r": 521.3333333333334, "b": 781.0, "coord_origin": "1"}}]}, "text": "What the Awara Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 150.33333333333334, "t": 723.3333333333334, "r": 984.6666666666666, "b": 745.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 19, "text": "Any expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 150.33333333333334, "t": 723.3333333333334, "r": 984.6666666666666, "b": 745.0, "coord_origin": "1"}}]}, "text": "Any expenses incurred outside of the scope of the proposed development activity."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 148.62832641601562, "t": 652.9622192382812, "r": 712.8981323242188, "b": 693.0, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 151.0, "t": 667.6666666666666, "r": 370.6666666666667, "b": 693.0, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 151.66666666666666, "t": 634.3333333333334, "r": 519.0, "b": 658.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1\u00b0", "bbox": {"l": 151.66666666666666, "t": 634.3333333333334, "r": 519.0, "b": 658.0, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1\u00b0"}, {"label": "Section-header", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Section-header", "bbox": {"l": 149.26564025878906, "t": 601.3333333333333, "r": 470.8933410644531, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 22, "text": "Applications Due: October 1\u00b0", "bbox": {"l": 150.0, "t": 601.3333333333333, "r": 452.0, "b": 624.6666666666667, "coord_origin": "1"}}]}, "text": "Applications Due: October 1\u00b0"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 148.79385375976562, "t": 564.5184936523438, "r": 646.3479614257812, "b": 594.4840087890625, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 23, "text": "Notification of Awards: November 1\u00b0\"", "bbox": {"l": 151.66666666666666, "t": 572.6666666666667, "r": 534.3333333333334, "b": 592.0, "coord_origin": "1"}}]}, "text": "Notification of Awards: November 1\u00b0\""}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 149.10240173339844, "t": 321.33333333333326, "r": 1126.662841796875, "b": 525.0, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional", "bbox": {"l": 152.0, "t": 503.33333333333326, "r": 1077.6666666666667, "b": 525.0, "coord_origin": "1"}}, {"id": 25, "text": "Development- Staff in the subject line.", "bbox": {"l": 152.0, "t": 470.33333333333326, "r": 548.6666666666666, "b": 492.0, "coord_origin": "1"}}, {"id": 26, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 150.66666666666666, "t": 420.33333333333326, "r": 1093.3333333333333, "b": 442.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "Supervisor. Incomplete applications will not be reviewed. Applications will be considered", "bbox": {"l": 150.0, "t": 387.33333333333326, "r": 1044.0, "b": 409.0, "coord_origin": "1"}}, {"id": 28, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 150.66666666666666, "t": 354.33333333333326, "r": 1089.0, "b": 376.0, "coord_origin": "1"}}, {"id": 29, "text": "will be sent to you.", "bbox": {"l": 151.66666666666666, "t": 321.33333333333326, "r": 337.0, "b": 343.0, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional Development- Staff in the subject line. PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you."}], "body": [{"label": "Text", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Text", "bbox": {"l": 213.33333333333334, "t": 1444.3333333333333, "r": 1038.6666666666667, "b": 1500.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 0, "text": "UNIVERSITYof \u2018CLASS", "bbox": {"l": 213.33333333333334, "t": 1444.3333333333333, "r": 1038.6666666666667, "b": 1500.6666666666667, "coord_origin": "1"}}]}, "text": "UNIVERSITYof \u2018CLASS"}, {"label": "Text", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Text", "bbox": {"l": 383.6666666666667, "t": 1382.6666666666667, "r": 893.3333333333334, "b": 1408.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Professional Development Award for Staff", "bbox": {"l": 383.6666666666667, "t": 1382.6666666666667, "r": 893.3333333333334, "b": 1408.0, "coord_origin": "1"}}]}, "text": "Professional Development Award for Staff"}, {"label": "Text", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Text", "bbox": {"l": 152.0, "t": 1327.6666666666667, "r": 248.0, "b": 1351.6666666666667, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 2, "text": "Purpose", "bbox": {"l": 152.0, "t": 1327.6666666666667, "r": 248.0, "b": 1351.6666666666667, "coord_origin": "1"}}]}, "text": "Purpose"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 149.33502197265625, "t": 1204.9547119140625, "r": 1120.0, "b": 1330.9691162109375, "coord_origin": "1"}, "confidence": 0.8366686701774597, "cells": [{"id": 3, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend", "bbox": {"l": 150.0, "t": 1297.0, "r": 1101.0, "b": 1317.0, "coord_origin": "1"}}, {"id": 4, "text": "conferences and workshops in their field for the sole purpose of professional development. The intent is", "bbox": {"l": 151.0, "t": 1267.0, "r": 1120.0, "b": 1287.0, "coord_origin": "1"}}, {"id": 5, "text": "to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff", "bbox": {"l": 150.33333333333334, "t": 1235.6666666666667, "r": 1066.6666666666667, "b": 1257.0, "coord_origin": "1"}}, {"id": 6, "text": "member. Up to four awards will be made per year, contingent upon the availability of funding. Staff", "bbox": {"l": 151.66666666666666, "t": 1205.6666666666667, "r": 1077.6666666666667, "b": 1226.0, "coord_origin": "1"}}]}, "text": "The Dean\u2019s Professional Development Award for Staff is to allow CLASS staff the opportunity to attend conferences and workshops in their field for the sole purpose of professional development. The intent is to defray costs associated with attendance. The maximum amount of the award is $2,000 per staff member. Up to four awards will be made per year, contingent upon the availability of funding. Staff"}, {"label": "Text", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Text", "bbox": {"l": 149.83230590820312, "t": 1120.338623046875, "r": 1084.8453369140625, "b": 1196.0, "coord_origin": "1"}, "confidence": 0.9675509929656982, "cells": [{"id": 7, "text": "members that are awarded must wait three years from the date of award notification before", "bbox": {"l": 151.66666666666666, "t": 1175.6666666666667, "r": 1030.0, "b": 1196.0, "coord_origin": "1"}}, {"id": 8, "text": "reapplying again.", "bbox": {"l": 151.66666666666666, "t": 1145.6666666666667, "r": 310.3333333333333, "b": 1166.0, "coord_origin": "1"}}]}, "text": "members that are awarded must wait three years from the date of award notification before reapplying again."}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 152.0, "t": 1091.6666666666665, "r": 260.3333333333333, "b": 1117.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 9, "text": "Eligibility", "bbox": {"l": 152.0, "t": 1091.6666666666665, "r": 260.3333333333333, "b": 1117.0, "coord_origin": "1"}}]}, "text": "Eligibility"}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 149.7007598876953, "t": 942.6666666666666, "r": 645.0, "b": 1084.8349609375, "coord_origin": "1"}, "confidence": 0.8088698387145996, "cells": [{"id": 10, "text": "All staff currently employed in CLASS are eligible.", "bbox": {"l": 150.33333333333334, "t": 1058.3333333333335, "r": 645.0, "b": 1080.0, "coord_origin": "1"}}, {"id": 11, "text": "What the Awara Will Fund", "bbox": {"l": 150.66666666666666, "t": 1008.6666666666666, "r": 470.0, "b": 1029.0, "coord_origin": "1"}}, {"id": 13, "text": "e Aijirtare", "bbox": {"l": 188.66666666666666, "t": 942.6666666666666, "r": 295.0, "b": 960.3333333333334, "coord_origin": "1"}}]}, "text": "All staff currently employed in CLASS are eligible. What the Awara Will Fund e Aijirtare"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 151.0, "t": 970.3333333333334, "r": 711.3333333333334, "b": 993.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 12, "text": "Costs associated with conference/workshop including:", "bbox": {"l": 151.0, "t": 970.3333333333334, "r": 711.3333333333334, "b": 993.0, "coord_origin": "1"}}]}, "text": "Costs associated with conference/workshop including:"}, {"label": "Section-header", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Section-header", "bbox": {"l": 149.18833923339844, "t": 942.6666666666666, "r": 370.9015808105469, "b": 985.9794311523438, "coord_origin": "1"}, "confidence": 0.7323324084281921, "cells": [{"id": 13, "text": "e Aijirtare", "bbox": {"l": 188.66666666666666, "t": 942.6666666666666, "r": 295.0, "b": 960.3333333333334, "coord_origin": "1"}}]}, "text": "e Aijirtare"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 148.22947692871094, "t": 899.7955932617188, "r": 988.288818359375, "b": 930.0330200195312, "coord_origin": "1"}, "confidence": 0.9264322519302368, "cells": [{"id": 14, "text": "e Lodging", "bbox": {"l": 188.66666666666666, "t": 906.3333333333334, "r": 305.3333333333333, "b": 928.0, "coord_origin": "1"}}]}, "text": "e Lodging"}, {"label": "Section-header", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Section-header", "bbox": {"l": 149.12353515625, "t": 864.1539916992188, "r": 522.5803833007812, "b": 898.4219360351562, "coord_origin": "1"}, "confidence": 0.9207298755645752, "cells": [{"id": 15, "text": "Meals", "bbox": {"l": 188.66666666666666, "t": 878.6666666666666, "r": 287.0, "b": 896.0, "coord_origin": "1"}}]}, "text": "Meals"}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 188.66666666666666, "t": 842.3333333333334, "r": 398.0, "b": 864.3333333333334, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 16, "text": "e Registration fees", "bbox": {"l": 188.66666666666666, "t": 842.3333333333334, "r": 398.0, "b": 864.3333333333334, "coord_origin": "1"}}]}, "text": "e Registration fees"}, {"label": "List-item", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "List-item", "bbox": {"l": 187.10479736328125, "t": 810.3333333333334, "r": 463.5527038574219, "b": 843.2557373046875, "coord_origin": "1"}, "confidence": 0.9232369065284729, "cells": [{"id": 17, "text": "e Ground Transportation", "bbox": {"l": 188.66666666666666, "t": 810.3333333333334, "r": 462.6666666666667, "b": 832.0, "coord_origin": "1"}}]}, "text": "e Ground Transportation"}, {"label": "List-item", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "List-item", "bbox": {"l": 150.66666666666666, "t": 748.8778686523438, "r": 521.3333333333334, "b": 781.0, "coord_origin": "1"}, "confidence": 0.9104529023170471, "cells": [{"id": 18, "text": "What the Awara Will Not Fund", "bbox": {"l": 150.66666666666666, "t": 760.6666666666666, "r": 521.3333333333334, "b": 781.0, "coord_origin": "1"}}]}, "text": "What the Awara Will Not Fund"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 150.33333333333334, "t": 723.3333333333334, "r": 984.6666666666666, "b": 745.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 19, "text": "Any expenses incurred outside of the scope of the proposed development activity.", "bbox": {"l": 150.33333333333334, "t": 723.3333333333334, "r": 984.6666666666666, "b": 745.0, "coord_origin": "1"}}]}, "text": "Any expenses incurred outside of the scope of the proposed development activity."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 148.62832641601562, "t": 652.9622192382812, "r": 712.8981323242188, "b": 693.0, "coord_origin": "1"}, "confidence": 0.9301040768623352, "cells": [{"id": 20, "text": "Granting Schedule", "bbox": {"l": 151.0, "t": 667.6666666666666, "r": 370.6666666666667, "b": 693.0, "coord_origin": "1"}}]}, "text": "Granting Schedule"}, {"label": "Text", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Text", "bbox": {"l": 151.66666666666666, "t": 634.3333333333334, "r": 519.0, "b": 658.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 21, "text": "Earliest Submission Date: August 1\u00b0", "bbox": {"l": 151.66666666666666, "t": 634.3333333333334, "r": 519.0, "b": 658.0, "coord_origin": "1"}}]}, "text": "Earliest Submission Date: August 1\u00b0"}, {"label": "Section-header", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Section-header", "bbox": {"l": 149.26564025878906, "t": 601.3333333333333, "r": 470.8933410644531, "b": 649.8090209960938, "coord_origin": "1"}, "confidence": 0.917819619178772, "cells": [{"id": 22, "text": "Applications Due: October 1\u00b0", "bbox": {"l": 150.0, "t": 601.3333333333333, "r": 452.0, "b": 624.6666666666667, "coord_origin": "1"}}]}, "text": "Applications Due: October 1\u00b0"}, {"label": "Text", "id": 18, "page_no": 0, "cluster": {"id": 18, "label": "Text", "bbox": {"l": 148.79385375976562, "t": 564.5184936523438, "r": 646.3479614257812, "b": 594.4840087890625, "coord_origin": "1"}, "confidence": 0.9359148144721985, "cells": [{"id": 23, "text": "Notification of Awards: November 1\u00b0\"", "bbox": {"l": 151.66666666666666, "t": 572.6666666666667, "r": 534.3333333333334, "b": 592.0, "coord_origin": "1"}}]}, "text": "Notification of Awards: November 1\u00b0\""}, {"label": "Text", "id": 19, "page_no": 0, "cluster": {"id": 19, "label": "Text", "bbox": {"l": 149.10240173339844, "t": 321.33333333333326, "r": 1126.662841796875, "b": 525.0, "coord_origin": "1"}, "confidence": 0.9852266907691956, "cells": [{"id": 24, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional", "bbox": {"l": 152.0, "t": 503.33333333333326, "r": 1077.6666666666667, "b": 525.0, "coord_origin": "1"}}, {"id": 25, "text": "Development- Staff in the subject line.", "bbox": {"l": 152.0, "t": 470.33333333333326, "r": 548.6666666666666, "b": 492.0, "coord_origin": "1"}}, {"id": 26, "text": "PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate", "bbox": {"l": 150.66666666666666, "t": 420.33333333333326, "r": 1093.3333333333333, "b": 442.33333333333326, "coord_origin": "1"}}, {"id": 27, "text": "Supervisor. Incomplete applications will not be reviewed. Applications will be considered", "bbox": {"l": 150.0, "t": 387.33333333333326, "r": 1044.0, "b": 409.0, "coord_origin": "1"}}, {"id": 28, "text": "incomplete until all information has been received, at which time an email confirming receipt", "bbox": {"l": 150.66666666666666, "t": 354.33333333333326, "r": 1089.0, "b": 376.0, "coord_origin": "1"}}, {"id": 29, "text": "will be sent to you.", "bbox": {"l": 151.66666666666666, "t": 321.33333333333326, "r": 337.0, "b": 343.0, "coord_origin": "1"}}]}, "text": "Please submit applications to CLASSGrt@uh.edu by the deadline. Please write \u201cProfessional Development- Staff in the subject line. PLEASE NOTE: Please include a supporting letter from your Department Chair or Immediate Supervisor. Incomplete applications will not be reviewed. Applications will be considered incomplete until all information has been received, at which time an email confirming receipt will be sent to you."}], "headers": []}}] \ No newline at end of file