Distribute parquet population over all users even if num_files < num_users #101

daverigby · 2024-06-11T13:57:27Z

Currently the populate logic (Dataset.get_batch_iterator()) will distribute the dataset at the file granulatity - for a parquet dataset of N files, and U users, it will split the files into into U roughtly equal subsets.

This is fine if N >= U, but if there are many fewer files than users, then some users will have no work do do. In the extreme case where there is only one file (e.g. mnist, yfcc), then we do not have any concurrency for the populate phase.

Improve this situation by distributing the data over all users.

See also #46 .

The text was updated successfully, but these errors were encountered:

jonathanzxu · 2024-09-05T15:30:23Z

closed in #191

daverigby added the enhancement New feature or request label Jun 11, 2024

daverigby added this to the Phase 2: More workloads, more databases milestone Jun 11, 2024

jonathanzxu closed this as completed Sep 5, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Distribute parquet population over all users even if num_files < num_users #101

Distribute parquet population over all users even if num_files < num_users #101

daverigby commented Jun 11, 2024

jonathanzxu commented Sep 5, 2024

Distribute parquet population over all users even if num_files < num_users #101

Distribute parquet population over all users even if num_files < num_users #101

Comments

daverigby commented Jun 11, 2024

jonathanzxu commented Sep 5, 2024