mirror of
https://github.com/DS4SD/docling.git
synced 2025-07-29 13:34:21 +00:00
1 line
119 KiB
JSON
1 line
119 KiB
JSON
[{"page_no": 0, "page_hash": "e5a43ce8befcd91b5ee3d4c9bc04e620d34610ac0bc0b316fd0a28a82e456761", "size": {"width": 612.0530395507812, "height": 792.0686645507812}, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}, {"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}, {"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}, {"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}, {"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}], "predictions": {"layout": {"clusters": [{"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, {"id": 1, "label": "Section-header", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, {"id": 7, "label": "Text", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, {"id": 8, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, {"id": 10, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, {"id": 11, "label": "Text", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, {"id": 12, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}]}, "tablestructure": {"table_map": {}}, "figures_classification": null, "equations_prediction": null}, "assembled": {"elements": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O%o , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "body": [{"label": "Section-header", "id": 0, "page_no": 0, "cluster": {"id": 0, "label": "Section-header", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 134.85751342773438, "coord_origin": "1"}, "confidence": 0.6151334643363953, "cells": [{"id": 0, "text": "TableFormer: Table Structure Understanding with Transformers", "bbox": {"l": 131.33333333333334, "t": 106.0, "r": 468.0, "b": 123.33333333333337, "coord_origin": "1"}}]}, "text": "TableFormer: Table Structure Understanding with Transformers"}, {"label": "Section-header", "id": 1, "page_no": 0, "cluster": {"id": 1, "label": "Section-header", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}, "confidence": -1.0, "cells": [{"id": 1, "text": "Supplementary Material", "bbox": {"l": 217.33333333333334, "t": 118.66666666666663, "r": 377.0, "b": 139.0, "coord_origin": "1"}}]}, "text": "Supplementary Material"}, {"label": "Section-header", "id": 2, "page_no": 0, "cluster": {"id": 2, "label": "Section-header", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.59271240234375, "coord_origin": "1"}, "confidence": 0.9245885610580444, "cells": [{"id": 2, "text": "1. Details on the datasets", "bbox": {"l": 49.0, "t": 159.0, "r": 178.33333333333334, "b": 171.0, "coord_origin": "1"}}]}, "text": "1. Details on the datasets"}, {"label": "Text", "id": 3, "page_no": 0, "cluster": {"id": 3, "label": "Text", "bbox": {"l": 307.0, "t": 159.66666666666663, "r": 546.6666666666666, "b": 209.0, "coord_origin": "1"}, "confidence": 0.9791127443313599, "cells": [{"id": 3, "text": "ances in regard to their size; structure,", "bbox": {"l": 307.6666666666667, "t": 159.66666666666663, "r": 469.6666666666667, "b": 173.0, "coord_origin": "1"}}, {"id": 4, "text": "and", "bbox": {"l": 494.0, "t": 160.66666666666663, "r": 510.0, "b": 170.0, "coord_origin": "1"}}, {"id": 5, "text": "content.", "bbox": {"l": 512.0, "t": 162.0, "r": 544.6666666666666, "b": 170.0, "coord_origin": "1"}}, {"id": 6, "text": "synthetic dataset contains 150k examples, summing", "bbox": {"l": 333.0, "t": 170.66666666666663, "r": 546.6666666666666, "b": 185.33333333333337, "coord_origin": "1"}}, {"id": 8, "text": "up to 60Ok", "bbox": {"l": 307.6666666666667, "t": 184.33333333333337, "r": 353.0, "b": 197.0, "coord_origin": "1"}}, {"id": 9, "text": "synthetic examples.", "bbox": {"l": 351.0, "t": 182.66666666666663, "r": 431.0, "b": 197.33333333333337, "coord_origin": "1"}}, {"id": 10, "text": "All datasets are divided into", "bbox": {"l": 434.0, "t": 184.66666666666663, "r": 546.0, "b": 194.66666666666663, "coord_origin": "1"}}, {"id": 13, "text": "Train; Test and Val splits (8O%, 1O%o , 109) .", "bbox": {"l": 307.0, "t": 195.0, "r": 483.6666666666667, "b": 209.0, "coord_origin": "1"}}, {"id": 144, "text": "style", "bbox": {"l": 470.07038187266676, "t": 162.1407637453334, "r": 493.92961812733324, "b": 171.19256958799986, "coord_origin": "1"}}, {"id": 145, "text": "Every", "bbox": {"l": 308.05861220543596, "t": 171.70514271902584, "r": 333.2747211278974, "b": 185.29485728097416, "coord_origin": "1"}}]}, "text": "ances in regard to their size; structure, and content. synthetic dataset contains 150k examples, summing up to 60Ok synthetic examples. All datasets are divided into Train; Test and Val splits (8O%, 1O%o , 109) . style Every"}, {"label": "Section-header", "id": 4, "page_no": 0, "cluster": {"id": 4, "label": "Section-header", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}, "confidence": 0.9166122674942017, "cells": [{"id": 7, "text": "1.1. Data preparation", "bbox": {"l": 49.0, "t": 178.0, "r": 152.33333333333334, "b": 193.0, "coord_origin": "1"}}]}, "text": "1.1. Data preparation"}, {"label": "Text", "id": 5, "page_no": 0, "cluster": {"id": 5, "label": "Text", "bbox": {"l": 47.666666666666664, "t": 196.66666666666663, "r": 289.0, "b": 390.3333333333333, "coord_origin": "1"}, "confidence": 0.9902494549751282, "cells": [{"id": 11, "text": "As a first step of our data preparation process;", "bbox": {"l": 61.666666666666664, "t": 196.66666666666663, "r": 251.0, "b": 211.0, "coord_origin": "1"}}, {"id": 12, "text": "we have", "bbox": {"l": 252.66666666666666, "t": 198.66666666666663, "r": 287.3333333333333, "b": 208.0, "coord_origin": "1"}}, {"id": 14, "text": "calculated statistics over the datasets across the", "bbox": {"l": 48.666666666666664, "t": 210.0, "r": 245.33333333333334, "b": 220.66666666666663, "coord_origin": "1"}}, {"id": 15, "text": "following", "bbox": {"l": 245.33333333333334, "t": 207.0, "r": 289.0, "b": 223.66666666666663, "coord_origin": "1"}}, {"id": 17, "text": "dimensions: (1) table size measured in the number of rows", "bbox": {"l": 48.333333333333336, "t": 221.33333333333337, "r": 287.6666666666667, "b": 233.66666666666663, "coord_origin": "1"}}, {"id": 19, "text": "and columns, (2) complexity of the table, (3) strictness of", "bbox": {"l": 48.333333333333336, "t": 232.33333333333337, "r": 287.6666666666667, "b": 246.33333333333337, "coord_origin": "1"}}, {"id": 23, "text": "the provided HTML structure and (4) completeness (i.e. no", "bbox": {"l": 48.333333333333336, "t": 245.0, "r": 287.6666666666667, "b": 258.66666666666674, "coord_origin": "1"}}, {"id": 25, "text": "omitted bounding boxes) ", "bbox": {"l": 49.0, "t": 256.0, "r": 151.0, "b": 270.33333333333326, "coord_origin": "1"}}, {"id": 26, "text": "A table is considered to be simple", "bbox": {"l": 153.0, "t": 257.0, "r": 288.3333333333333, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 29, "text": "if it does not contain row spans or column spans. Addition -", "bbox": {"l": 48.333333333333336, "t": 269.0, "r": 287.0, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 34, "text": "ally, a table has a strict HTML structure if every row has the", "bbox": {"l": 48.333333333333336, "t": 281.0, "r": 288.3333333333333, "b": 293.6666666666667, "coord_origin": "1"}}, {"id": 36, "text": "same number of columns after", "bbox": {"l": 48.666666666666664, "t": 294.0, "r": 173.33333333333334, "b": 304.0, "coord_origin": "1"}}, {"id": 37, "text": "taking into account any row", "bbox": {"l": 172.0, "t": 292.0, "r": 287.0, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 40, "text": "Or column spans. Therefore a strict HTML structure looks", "bbox": {"l": 48.666666666666664, "t": 306.0, "r": 287.3333333333333, "b": 317.0, "coord_origin": "1"}}, {"id": 42, "text": "always rectangular: However; HTML is a lenient encoding", "bbox": {"l": 47.666666666666664, "t": 315.6666666666667, "r": 288.0, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 45, "text": "format, i.e.", "bbox": {"l": 48.333333333333336, "t": 329.6666666666667, "r": 96.0, "b": 340.0, "coord_origin": "1"}}, {"id": 46, "text": "tables with rows of different sizes might still", "bbox": {"l": 99.66666666666667, "t": 329.0, "r": 287.6666666666667, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 48, "text": "be", "bbox": {"l": 49.333333333333336, "t": 342.0, "r": 60.666666666666664, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 49, "text": "regarded as correct due to implicit display rules.", "bbox": {"l": 59.666666666666664, "t": 340.6666666666667, "r": 259.0, "b": 355.0, "coord_origin": "1"}}, {"id": 50, "text": "These", "bbox": {"l": 261.3333333333333, "t": 342.0, "r": 287.3333333333333, "b": 351.3333333333333, "coord_origin": "1"}}, {"id": 56, "text": "implicit rules leave room for ambiguity; which we", "bbox": {"l": 48.0, "t": 352.3333333333333, "r": 254.33333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 57, "text": "want lo", "bbox": {"l": 256.0, "t": 355.3333333333333, "r": 287.3333333333333, "b": 363.3333333333333, "coord_origin": "1"}}, {"id": 59, "text": "avoid.", "bbox": {"l": 49.333333333333336, "t": 366.0, "r": 74.0, "b": 375.3333333333333, "coord_origin": "1"}}, {"id": 60, "text": "As such, we prefer to have", "bbox": {"l": 77.0, "t": 364.6666666666667, "r": 186.33333333333334, "b": 377.3333333333333, "coord_origin": "1"}}, {"id": 61, "text": "strict\" tables, i.e. tables", "bbox": {"l": 190.66666666666666, "t": 365.3333333333333, "r": 287.3333333333333, "b": 376.0, "coord_origin": "1"}}, {"id": 64, "text": "where every row has exactly the same length.", "bbox": {"l": 49.0, "t": 377.6666666666667, "r": 231.0, "b": 390.3333333333333, "coord_origin": "1"}}]}, "text": "As a first step of our data preparation process; we have calculated statistics over the datasets across the following dimensions: (1) table size measured in the number of rows and columns, (2) complexity of the table, (3) strictness of the provided HTML structure and (4) completeness (i.e. no omitted bounding boxes) A table is considered to be simple if it does not contain row spans or column spans. Addition ally, a table has a strict HTML structure if every row has the same number of columns after taking into account any row Or column spans. Therefore a strict HTML structure looks always rectangular: However; HTML is a lenient encoding format, i.e. tables with rows of different sizes might still be regarded as correct due to implicit display rules. These implicit rules leave room for ambiguity; which we want lo avoid. As such, we prefer to have strict\" tables, i.e. tables where every row has exactly the same length."}, {"label": "Text", "id": 6, "page_no": 0, "cluster": {"id": 6, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 234.33333333333337, "coord_origin": "1"}, "confidence": 0.9645320773124695, "cells": [{"id": 16, "text": "The process of generating a synthetic dataset can be de-", "bbox": {"l": 319.6666666666667, "t": 208.66666666666663, "r": 546.3333333333334, "b": 222.33333333333337, "coord_origin": "1"}}, {"id": 18, "text": "composed into the following steps:", "bbox": {"l": 306.6666666666667, "t": 219.66666666666663, "r": 449.3333333333333, "b": 234.33333333333337, "coord_origin": "1"}}]}, "text": "The process of generating a synthetic dataset can be decomposed into the following steps:"}, {"label": "Text", "id": 7, "page_no": 0, "cluster": {"id": 7, "label": "Text", "bbox": {"l": 306.0, "t": 232.66666666666663, "r": 547.3333333333334, "b": 317.0, "coord_origin": "1"}, "confidence": 0.9858567714691162, "cells": [{"id": 20, "text": "1 ", "bbox": {"l": 320.3333333333333, "t": 235.0, "r": 327.0, "b": 243.0, "coord_origin": "1"}}, {"id": 21, "text": "Prepare styling and content templates:", "bbox": {"l": 333.0, "t": 232.66666666666663, "r": 494.3333333333333, "b": 247.0, "coord_origin": "1"}}, {"id": 22, "text": "The styling", "bbox": {"l": 497.6666666666667, "t": 232.66666666666663, "r": 547.3333333333334, "b": 247.0, "coord_origin": "1"}}, {"id": 24, "text": "templates have been manually designed and organized into", "bbox": {"l": 307.0, "t": 244.66666666666663, "r": 546.6666666666666, "b": 259.0, "coord_origin": "1"}}, {"id": 27, "text": "groups of scope specific appearances", "bbox": {"l": 307.6666666666667, "t": 256.66666666666674, "r": 461.6666666666667, "b": 270.66666666666674, "coord_origin": "1"}}, {"id": 28, "text": "financial data,", "bbox": {"l": 486.6666666666667, "t": 258.0, "r": 546.0, "b": 268.0, "coord_origin": "1"}}, {"id": 30, "text": "marketing data; etc.)", "bbox": {"l": 306.6666666666667, "t": 267.33333333333326, "r": 395.3333333333333, "b": 283.3333333333333, "coord_origin": "1"}}, {"id": 31, "text": "Additionally;", "bbox": {"l": 399.3333333333333, "t": 268.66666666666674, "r": 454.3333333333333, "b": 282.3333333333333, "coord_origin": "1"}}, {"id": 32, "text": "we have", "bbox": {"l": 456.0, "t": 270.66666666666674, "r": 490.6666666666667, "b": 280.0, "coord_origin": "1"}}, {"id": 33, "text": "prepared cu-", "bbox": {"l": 491.6666666666667, "t": 270.0, "r": 546.3333333333334, "b": 283.0, "coord_origin": "1"}}, {"id": 35, "text": "rated collections of content templates by extracting the most", "bbox": {"l": 306.0, "t": 279.33333333333326, "r": 546.6666666666666, "b": 295.3333333333333, "coord_origin": "1"}}, {"id": 38, "text": "frequently used terms out of non-synthetic", "bbox": {"l": 307.0, "t": 292.6666666666667, "r": 488.3333333333333, "b": 306.6666666666667, "coord_origin": "1"}}, {"id": 39, "text": "datasets", "bbox": {"l": 490.6666666666667, "t": 294.6666666666667, "r": 524.0, "b": 304.0, "coord_origin": "1"}}, {"id": 41, "text": "PubTabNet, FinTabNet, etc.).", "bbox": {"l": 307.3333333333333, "t": 305.0, "r": 425.0, "b": 317.0, "coord_origin": "1"}}, {"id": 146, "text": "(e.g", "bbox": {"l": 463.0511670093418, "t": 257.7073011650955, "r": 481.9488329906582, "b": 270.95936550157126, "coord_origin": "1"}}, {"id": 147, "text": "(e.g", "bbox": {"l": 526.3845003426751, "t": 293.70730116509543, "r": 544.9488329906582, "b": 306.95936550157126, "coord_origin": "1"}}]}, "text": "1 Prepare styling and content templates: The styling templates have been manually designed and organized into groups of scope specific appearances financial data, marketing data; etc.) Additionally; we have prepared curated collections of content templates by extracting the most frequently used terms out of non-synthetic datasets PubTabNet, FinTabNet, etc.). (e.g (e.g"}, {"label": "Text", "id": 8, "page_no": 0, "cluster": {"id": 8, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 318.3333333333333, "r": 547.3333333333334, "b": 450.3333333333333, "coord_origin": "1"}, "confidence": 0.9882545471191406, "cells": [{"id": 43, "text": "2", "bbox": {"l": 320.3333333333333, "t": 319.0, "r": 326.3333333333333, "b": 327.6666666666667, "coord_origin": "1"}}, {"id": 44, "text": "Generate table structures: The structure of each syn-", "bbox": {"l": 331.6666666666667, "t": 318.3333333333333, "r": 546.3333333333334, "b": 330.3333333333333, "coord_origin": "1"}}, {"id": 47, "text": "thetic dataset assumes a horizontal table header which po-", "bbox": {"l": 307.0, "t": 330.3333333333333, "r": 545.6666666666666, "b": 342.3333333333333, "coord_origin": "1"}}, {"id": 51, "text": "tentially spans", "bbox": {"l": 306.3333333333333, "t": 341.0, "r": 369.0, "b": 355.3333333333333, "coord_origin": "1"}}, {"id": 52, "text": "ovCr", "bbox": {"l": 371.6666666666667, "t": 345.0, "r": 390.3333333333333, "b": 351.6666666666667, "coord_origin": "1"}}, {"id": 53, "text": "multiple rows", "bbox": {"l": 392.3333333333333, "t": 342.3333333333333, "r": 451.6666666666667, "b": 355.0, "coord_origin": "1"}}, {"id": 54, "text": "and", "bbox": {"l": 454.0, "t": 342.6666666666667, "r": 470.0, "b": 352.0, "coord_origin": "1"}}, {"id": 55, "text": "table body that", "bbox": {"l": 481.0, "t": 342.0, "r": 546.3333333333334, "b": 355.0, "coord_origin": "1"}}, {"id": 58, "text": "may contain a combination of row spans and column spans.", "bbox": {"l": 307.6666666666667, "t": 354.3333333333333, "r": 546.3333333333334, "b": 366.3333333333333, "coord_origin": "1"}}, {"id": 62, "text": "However, spans are not allowed to cross the header", "bbox": {"l": 307.3333333333333, "t": 366.0, "r": 517.6666666666666, "b": 378.3333333333333, "coord_origin": "1"}}, {"id": 63, "text": "body", "bbox": {"l": 523.0, "t": 366.0, "r": 547.3333333333334, "b": 379.3333333333333, "coord_origin": "1"}}, {"id": 65, "text": "boundary.", "bbox": {"l": 307.3333333333333, "t": 377.3333333333333, "r": 349.6666666666667, "b": 389.6666666666667, "coord_origin": "1"}}, {"id": 66, "text": "The table structure is described by the parame-", "bbox": {"l": 352.3333333333333, "t": 378.0, "r": 545.6666666666666, "b": 391.0, "coord_origin": "1"}}, {"id": 69, "text": "ters:", "bbox": {"l": 307.3333333333333, "t": 391.3333333333333, "r": 326.6666666666667, "b": 400.0, "coord_origin": "1"}}, {"id": 70, "text": "Total number of table rows and columns, number of", "bbox": {"l": 330.0, "t": 390.0, "r": 546.6666666666666, "b": 400.6666666666667, "coord_origin": "1"}}, {"id": 72, "text": "header rows, type of spans (header only spans, row only", "bbox": {"l": 307.6666666666667, "t": 401.6666666666667, "r": 547.0, "b": 415.0, "coord_origin": "1"}}, {"id": 75, "text": "spans, column only spans, both row", "bbox": {"l": 307.0, "t": 414.3333333333333, "r": 461.0, "b": 426.3333333333333, "coord_origin": "1"}}, {"id": 76, "text": "and column spans)", "bbox": {"l": 463.3333333333333, "t": 414.6666666666667, "r": 544.0, "b": 425.3333333333333, "coord_origin": "1"}}, {"id": 78, "text": "maximum span size and the ratio of the table area covered", "bbox": {"l": 307.6666666666667, "t": 425.6666666666667, "r": 546.3333333333334, "b": 438.3333333333333, "coord_origin": "1"}}, {"id": 81, "text": "by spans", "bbox": {"l": 307.6666666666667, "t": 438.3333333333333, "r": 345.0, "b": 450.3333333333333, "coord_origin": "1"}}]}, "text": "2 Generate table structures: The structure of each synthetic dataset assumes a horizontal table header which potentially spans ovCr multiple rows and table body that may contain a combination of row spans and column spans. However, spans are not allowed to cross the header body boundary. The table structure is described by the parameters: Total number of table rows and columns, number of header rows, type of spans (header only spans, row only spans, column only spans, both row and column spans) maximum span size and the ratio of the table area covered by spans"}, {"label": "Text", "id": 9, "page_no": 0, "cluster": {"id": 9, "label": "Text", "bbox": {"l": 47.7123380895565, "t": 389.6666666666667, "r": 288.6666666666667, "b": 630.3333333333334, "coord_origin": "1"}, "confidence": 0.987933337688446, "cells": [{"id": 67, "text": "We have developed", "bbox": {"l": 61.666666666666664, "t": 389.6666666666667, "r": 145.0, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 68, "text": "technique that tries to derive", "bbox": {"l": 155.0, "t": 389.6666666666667, "r": 279.6666666666667, "b": 401.6666666666667, "coord_origin": "1"}}, {"id": 71, "text": "missing bounding box out of its neighbors. As a first step;", "bbox": {"l": 48.333333333333336, "t": 399.6666666666667, "r": 287.6666666666667, "b": 414.6666666666667, "coord_origin": "1"}}, {"id": 73, "text": "we use the annotation data to generate the most fine-", "bbox": {"l": 49.0, "t": 413.0, "r": 257.0, "b": 425.6666666666667, "coord_origin": "1"}}, {"id": 74, "text": "'grained", "bbox": {"l": 254.33333333333334, "t": 412.0, "r": 288.0, "b": 426.6666666666667, "coord_origin": "1"}}, {"id": 77, "text": "that covers the table structure. In case of strict HTML", "bbox": {"l": 67.33333333333333, "t": 426.0, "r": 287.3333333333333, "b": 436.0, "coord_origin": "1"}}, {"id": 79, "text": "tables. all", "bbox": {"l": 48.333333333333336, "t": 437.3333333333333, "r": 90.66666666666667, "b": 448.0, "coord_origin": "1"}}, {"id": 80, "text": "squares are associated with some table cell", "bbox": {"l": 110.0, "t": 438.0, "r": 287.3333333333333, "b": 448.6666666666667, "coord_origin": "1"}}, {"id": 82, "text": "and in the presence of table spans a cell extends across mul", "bbox": {"l": 49.0, "t": 449.3333333333333, "r": 285.0, "b": 461.6666666666667, "coord_origin": "1"}}, {"id": 85, "text": "tiple grid squares. When enough bounding boxes are known", "bbox": {"l": 48.333333333333336, "t": 459.0, "r": 287.0, "b": 474.0, "coord_origin": "1"}}, {"id": 87, "text": "for a rectangular table, it is possible to compute the geo-", "bbox": {"l": 48.333333333333336, "t": 471.6666666666667, "r": 287.0, "b": 486.0, "coord_origin": "1"}}, {"id": 91, "text": "metrical border lines between the grid rows and columns.", "bbox": {"l": 49.0, "t": 485.0, "r": 285.6666666666667, "b": 497.6666666666667, "coord_origin": "1"}}, {"id": 93, "text": "Eventually this information is used to generate the missing", "bbox": {"l": 49.0, "t": 495.0, "r": 288.6666666666667, "b": 510.0, "coord_origin": "1"}}, {"id": 96, "text": "bounding boxes. Additionally; the existence of unused grid", "bbox": {"l": 48.333333333333336, "t": 507.0, "r": 287.6666666666667, "b": 521.6666666666666, "coord_origin": "1"}}, {"id": 100, "text": "squares indicates that the table rows have unequal number", "bbox": {"l": 48.333333333333336, "t": 521.0, "r": 287.6666666666667, "b": 533.3333333333334, "coord_origin": "1"}}, {"id": 104, "text": "of columns and the overall structure is non-strict. The gen-", "bbox": {"l": 48.333333333333336, "t": 532.3333333333334, "r": 287.0, "b": 545.0, "coord_origin": "1"}}, {"id": 107, "text": "eration of", "bbox": {"l": 48.333333333333336, "t": 545.3333333333334, "r": 90.0, "b": 554.6666666666666, "coord_origin": "1"}}, {"id": 108, "text": "missing bounding boxes for non-strict HTML ta -", "bbox": {"l": 89.0, "t": 543.0, "r": 287.0, "b": 558.0, "coord_origin": "1"}}, {"id": 112, "text": "bles is ambiguous and therefore quite challenging.", "bbox": {"l": 49.0, "t": 556.0, "r": 258.6666666666667, "b": 570.0, "coord_origin": "1"}}, {"id": 113, "text": "Thus,", "bbox": {"l": 263.0, "t": 556.6666666666666, "r": 287.6666666666667, "b": 567.3333333333334, "coord_origin": "1"}}, {"id": 115, "text": "we have decided to", "bbox": {"l": 49.333333333333336, "t": 569.3333333333334, "r": 128.66666666666666, "b": 579.3333333333334, "coord_origin": "1"}}, {"id": 116, "text": "simply discard those tables. In case of", "bbox": {"l": 128.66666666666666, "t": 568.6666666666666, "r": 287.6666666666667, "b": 582.0, "coord_origin": "1"}}, {"id": 120, "text": "PubTabNet we have computed missing bounding boxes for", "bbox": {"l": 48.333333333333336, "t": 579.0, "r": 287.6666666666667, "b": 594.0, "coord_origin": "1"}}, {"id": 122, "text": "489 of the simple and 699 of the complex tables. Regard-", "bbox": {"l": 49.0, "t": 592.0, "r": 287.0, "b": 605.3333333333334, "coord_origin": "1"}}, {"id": 124, "text": "FinTabNet, 689 of the simple and 98% of the complex", "bbox": {"l": 63.666666666666664, "t": 604.0, "r": 287.0, "b": 617.0, "coord_origin": "1"}}, {"id": 125, "text": "tables", "bbox": {"l": 48.666666666666664, "t": 616.6666666666666, "r": 74.0, "b": 626.6666666666666, "coord_origin": "1"}}, {"id": 126, "text": "require the generation of bounding boxes", "bbox": {"l": 72.66666666666667, "t": 614.0, "r": 244.0, "b": 630.3333333333334, "coord_origin": "1"}}, {"id": 148, "text": "grid", "bbox": {"l": 47.7123380895565, "t": 427.15344237015734, "r": 68.62099524377683, "b": 435.84655762984266, "coord_origin": "1"}}, {"id": 149, "text": "grid", "bbox": {"l": 90.09342189281021, "t": 438.7961859749014, "r": 110.90657810718979, "b": 448.2038140250986, "coord_origin": "1"}}, {"id": 150, "text": "ing", "bbox": {"l": 48.976474848285214, "t": 603.3819761204934, "r": 63.69019181838146, "b": 617.95135721284, "coord_origin": "1"}}]}, "text": "We have developed technique that tries to derive missing bounding box out of its neighbors. As a first step; we use the annotation data to generate the most fine'grained that covers the table structure. In case of strict HTML tables. all squares are associated with some table cell and in the presence of table spans a cell extends across mul tiple grid squares. When enough bounding boxes are known for a rectangular table, it is possible to compute the geometrical border lines between the grid rows and columns. Eventually this information is used to generate the missing bounding boxes. Additionally; the existence of unused grid squares indicates that the table rows have unequal number of columns and the overall structure is non-strict. The generation of missing bounding boxes for non-strict HTML ta bles is ambiguous and therefore quite challenging. Thus, we have decided to simply discard those tables. In case of PubTabNet we have computed missing bounding boxes for 489 of the simple and 699 of the complex tables. RegardFinTabNet, 689 of the simple and 98% of the complex tables require the generation of bounding boxes grid grid ing"}, {"label": "Text", "id": 10, "page_no": 0, "cluster": {"id": 10, "label": "Text", "bbox": {"l": 306.3333333333333, "t": 451.0, "r": 546.6666666666666, "b": 498.6666666666667, "coord_origin": "1"}, "confidence": 0.9816291332244873, "cells": [{"id": 83, "text": "3", "bbox": {"l": 320.3333333333333, "t": 451.6666666666667, "r": 327.0, "b": 460.3333333333333, "coord_origin": "1"}}, {"id": 84, "text": "Generate content: Based on the dataset theme. a set of", "bbox": {"l": 330.0, "t": 451.0, "r": 546.6666666666666, "b": 461.3333333333333, "coord_origin": "1"}}, {"id": 86, "text": "suitable content templates is chosen first. Then; this content", "bbox": {"l": 307.3333333333333, "t": 461.3333333333333, "r": 546.3333333333334, "b": 474.3333333333333, "coord_origin": "1"}}, {"id": 88, "text": "can be combined with purely random", "bbox": {"l": 307.0, "t": 474.3333333333333, "r": 464.3333333333333, "b": 487.0, "coord_origin": "1"}}, {"id": 89, "text": "text to", "bbox": {"l": 466.0, "t": 476.0, "r": 494.0, "b": 484.0, "coord_origin": "1"}}, {"id": 90, "text": "produce the", "bbox": {"l": 494.3333333333333, "t": 473.0, "r": 546.3333333333334, "b": 486.3333333333333, "coord_origin": "1"}}, {"id": 92, "text": "synthetic content.", "bbox": {"l": 306.3333333333333, "t": 485.0, "r": 380.3333333333333, "b": 498.6666666666667, "coord_origin": "1"}}]}, "text": "3 Generate content: Based on the dataset theme. a set of suitable content templates is chosen first. Then; this content can be combined with purely random text to produce the synthetic content."}, {"label": "Text", "id": 11, "page_no": 0, "cluster": {"id": 11, "label": "Text", "bbox": {"l": 307.0, "t": 498.0, "r": 547.0, "b": 548.0, "coord_origin": "1"}, "confidence": 0.9804794788360596, "cells": [{"id": 94, "text": "4", "bbox": {"l": 320.3333333333333, "t": 500.3333333333333, "r": 327.0, "b": 508.3333333333333, "coord_origin": "1"}}, {"id": 95, "text": "Apply styling templates: Depending on the domain", "bbox": {"l": 333.6666666666667, "t": 498.0, "r": 546.3333333333334, "b": 512.3333333333334, "coord_origin": "1"}}, {"id": 97, "text": "of the synthetic dataset;", "bbox": {"l": 307.6666666666667, "t": 510.6666666666667, "r": 408.3333333333333, "b": 524.0, "coord_origin": "1"}}, {"id": 98, "text": "a set of", "bbox": {"l": 410.0, "t": 511.3333333333333, "r": 444.0, "b": 521.3333333333334, "coord_origin": "1"}}, {"id": 99, "text": "styling templates is first", "bbox": {"l": 444.0, "t": 510.6666666666667, "r": 547.0, "b": 524.3333333333334, "coord_origin": "1"}}, {"id": 101, "text": "manually selected", "bbox": {"l": 308.0, "t": 524.0, "r": 383.0, "b": 534.6666666666666, "coord_origin": "1"}}, {"id": 102, "text": "Then,", "bbox": {"l": 389.6666666666667, "t": 523.3333333333334, "r": 415.3333333333333, "b": 534.0, "coord_origin": "1"}}, {"id": 103, "text": "style is randomly selected to", "bbox": {"l": 425.0, "t": 523.6666666666666, "r": 546.3333333333334, "b": 535.6666666666666, "coord_origin": "1"}}, {"id": 105, "text": "format the appearance of the", "bbox": {"l": 307.0, "t": 535.0, "r": 424.3333333333333, "b": 547.0, "coord_origin": "1"}}, {"id": 106, "text": "synthesized table.", "bbox": {"l": 423.0, "t": 533.3333333333334, "r": 496.3333333333333, "b": 548.0, "coord_origin": "1"}}]}, "text": "4 Apply styling templates: Depending on the domain of the synthetic dataset; a set of styling templates is first manually selected Then, style is randomly selected to format the appearance of the synthesized table."}, {"label": "Text", "id": 12, "page_no": 0, "cluster": {"id": 12, "label": "Text", "bbox": {"l": 306.6666666666667, "t": 546.6666666666666, "r": 547.6666666666666, "b": 607.3333333333334, "coord_origin": "1"}, "confidence": 0.9807284474372864, "cells": [{"id": 109, "text": "5", "bbox": {"l": 320.3333333333333, "t": 549.0, "r": 327.0, "b": 557.0, "coord_origin": "1"}}, {"id": 110, "text": "Render the complete tables:", "bbox": {"l": 334.3333333333333, "t": 548.3333333333334, "r": 451.6666666666667, "b": 560.3333333333334, "coord_origin": "1"}}, {"id": 111, "text": "The synthetic table is", "bbox": {"l": 455.0, "t": 546.6666666666666, "r": 547.0, "b": 560.6666666666666, "coord_origin": "1"}}, {"id": 114, "text": "finally rendered by a web browser engine to generate the", "bbox": {"l": 307.0, "t": 559.3333333333334, "r": 546.3333333333334, "b": 572.3333333333334, "coord_origin": "1"}}, {"id": 117, "text": "bounding boxes for each table cell.", "bbox": {"l": 306.6666666666667, "t": 569.3333333333334, "r": 448.0, "b": 585.3333333333334, "coord_origin": "1"}}, {"id": 118, "text": "A", "bbox": {"l": 451.0, "t": 573.0, "r": 457.6666666666667, "b": 581.0, "coord_origin": "1"}}, {"id": 119, "text": "batching technique is", "bbox": {"l": 458.3333333333333, "t": 570.3333333333334, "r": 546.3333333333334, "b": 584.3333333333334, "coord_origin": "1"}}, {"id": 121, "text": "utilized to optimize the runtime overhead of the rendering", "bbox": {"l": 307.3333333333333, "t": 581.3333333333334, "r": 547.6666666666666, "b": 597.3333333333334, "coord_origin": "1"}}, {"id": 123, "text": "process.", "bbox": {"l": 307.3333333333333, "t": 598.0, "r": 342.0, "b": 607.3333333333334, "coord_origin": "1"}}]}, "text": "5 Render the complete tables: The synthetic table is finally rendered by a web browser engine to generate the bounding boxes for each table cell. A batching technique is utilized to optimize the runtime overhead of the rendering process."}, {"label": "Section-header", "id": 13, "page_no": 0, "cluster": {"id": 13, "label": "Section-header", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 646.3232421875, "coord_origin": "1"}, "confidence": 0.9583657383918762, "cells": [{"id": 127, "text": "2. Prediction post-processing for PDF docu-", "bbox": {"l": 306.6666666666667, "t": 619.3333333333334, "r": 547.6666666666666, "b": 635.3333333333334, "coord_origin": "1"}}, {"id": 129, "text": "ments", "bbox": {"l": 326.6666666666667, "t": 635.3333333333334, "r": 359.3333333333333, "b": 646.0, "coord_origin": "1"}}]}, "text": "2. Prediction post-processing for PDF documents"}, {"label": "Text", "id": 14, "page_no": 0, "cluster": {"id": 14, "label": "Text", "bbox": {"l": 48.666666666666664, "t": 629.0, "r": 287.6666666666667, "b": 652.3333333333334, "coord_origin": "1"}, "confidence": 0.9655510187149048, "cells": [{"id": 128, "text": "Figure 7 illustrates the distribution of the tables across", "bbox": {"l": 60.333333333333336, "t": 629.0, "r": 287.6666666666667, "b": 641.6666666666666, "coord_origin": "1"}}, {"id": 130, "text": "different dimensions per dataset.", "bbox": {"l": 48.666666666666664, "t": 640.0, "r": 179.66666666666666, "b": 652.3333333333334, "coord_origin": "1"}}]}, "text": "Figure 7 illustrates the distribution of the tables across different dimensions per dataset."}, {"label": "Text", "id": 15, "page_no": 0, "cluster": {"id": 15, "label": "Text", "bbox": {"l": 307.3333333333333, "t": 654.0, "r": 547.0, "b": 716.9582184880587, "coord_origin": "1"}, "confidence": 0.9851495027542114, "cells": [{"id": 131, "text": "Although TableFormer can predict the table structure and", "bbox": {"l": 320.3333333333333, "t": 654.0, "r": 546.3333333333334, "b": 668.3333333333334, "coord_origin": "1"}}, {"id": 133, "text": "the", "bbox": {"l": 307.3333333333333, "t": 668.0, "r": 322.0, "b": 677.3333333333334, "coord_origin": "1"}}, {"id": 134, "text": "bounding boxes for tables recognized inside PDF docu -", "bbox": {"l": 321.3333333333333, "t": 665.3333333333334, "r": 546.6666666666666, "b": 681.6666666666666, "coord_origin": "1"}}, {"id": 138, "text": "ments, this is not enough when a full reconstruction of the", "bbox": {"l": 307.3333333333333, "t": 679.6666666666666, "r": 547.0, "b": 692.3333333333334, "coord_origin": "1"}}, {"id": 140, "text": "original table is required. This happens mainly due the fol-", "bbox": {"l": 307.6666666666667, "t": 690.3333333333334, "r": 546.3333333333334, "b": 705.3333333333334, "coord_origin": "1"}}, {"id": 143, "text": "rcasons:", "bbox": {"l": 337.3333333333333, "t": 705.3333333333334, "r": 372.0, "b": 713.3333333333334, "coord_origin": "1"}}, {"id": 151, "text": "lowing7", "bbox": {"l": 307.66883286630974, "t": 701.3751148452747, "r": 337.33116713369026, "b": 716.9582184880587, "coord_origin": "1"}}]}, "text": "Although TableFormer can predict the table structure and the bounding boxes for tables recognized inside PDF docu ments, this is not enough when a full reconstruction of the original table is required. This happens mainly due the folrcasons: lowing7"}, {"label": "Section-header", "id": 16, "page_no": 0, "cluster": {"id": 16, "label": "Section-header", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}, "confidence": 0.9235464930534363, "cells": [{"id": 132, "text": "1.2. Synthetic datasets", "bbox": {"l": 49.0, "t": 660.3333333333334, "r": 155.66666666666666, "b": 673.6666666666666, "coord_origin": "1"}}]}, "text": "1.2. Synthetic datasets"}, {"label": "Text", "id": 17, "page_no": 0, "cluster": {"id": 17, "label": "Text", "bbox": {"l": 48.0, "t": 677.6666666666666, "r": 288.3333333333333, "b": 716.0, "coord_origin": "1"}, "confidence": 0.9784752130508423, "cells": [{"id": 135, "text": "Aiming t0 train and evaluate", "bbox": {"l": 60.333333333333336, "t": 677.6666666666666, "r": 183.0, "b": 692.6666666666666, "coord_origin": "1"}}, {"id": 136, "text": "our models in", "bbox": {"l": 184.66666666666666, "t": 680.0, "r": 244.66666666666666, "b": 690.0, "coord_origin": "1"}}, {"id": 137, "text": "a broader", "bbox": {"l": 246.66666666666666, "t": 680.0, "r": 287.3333333333333, "b": 689.3333333333334, "coord_origin": "1"}}, {"id": 139, "text": "spectrum of table data we have synthesized four types of", "bbox": {"l": 48.0, "t": 690.0, "r": 288.3333333333333, "b": 704.6666666666666, "coord_origin": "1"}}, {"id": 141, "text": "datasets_", "bbox": {"l": 49.0, "t": 703.6666666666666, "r": 83.0, "b": 713.0, "coord_origin": "1"}}, {"id": 142, "text": "Each one contains tables with different appear -", "bbox": {"l": 89.66666666666667, "t": 703.0, "r": 287.0, "b": 716.0, "coord_origin": "1"}}]}, "text": "Aiming t0 train and evaluate our models in a broader spectrum of table data we have synthesized four types of datasets_ Each one contains tables with different appear -"}], "headers": []}}] |