ARBML
diff --git a/‎README.md
+5-5 b/‎README.md
+5-5
diff --git a/‎datasets/1993-2007_united_nations_parallel_text.json
+1-1 b/‎datasets/1993-2007_united_nations_parallel_text.json
+1-1
diff --git a/‎datasets/1997_hub5_arabic_evaluation.json
+1-1 b/‎datasets/1997_hub5_arabic_evaluation.json
+1-1
diff --git a/‎datasets/1997_hub5_arabic_transcripts.json
+1-1 b/‎datasets/1997_hub5_arabic_transcripts.json
+1-1
diff --git a/‎datasets/2003_nist_language_recognition_evaluation.json
+1-1 b/‎datasets/2003_nist_language_recognition_evaluation.json
+1-1
diff --git a/‎datasets/2005_nist_speaker_recognition_evaluation_test_data.json
+1-1 b/‎datasets/2005_nist_speaker_recognition_evaluation_test_data.json
+1-1
diff --git a/‎datasets/2005_nist_speaker_recognition_evaluation_training_data.json
+1-1 b/‎datasets/2005_nist_speaker_recognition_evaluation_training_data.json
+1-1
diff --git a/‎datasets/2006_conll_shared_task_-_arabic_&_czech.json
+1-1 b/‎datasets/2006_conll_shared_task_-_arabic_&_czech.json
+1-1
diff --git a/‎datasets/2006_nist_speaker_recognition_evaluation_test_set_part_1.json
+1-1 b/‎datasets/2006_nist_speaker_recognition_evaluation_test_set_part_1.json
+1-1
diff --git a/‎datasets/2006_nist_speaker_recognition_evaluation_test_set_part_2.json
+1-1 b/‎datasets/2006_nist_speaker_recognition_evaluation_test_set_part_2.json
+1-1
diff --git a/‎datasets/2006_nist_speaker_recognition_evaluation_training_set.json
+1-1 b/‎datasets/2006_nist_speaker_recognition_evaluation_training_set.json
+1-1
diff --git a/‎datasets/2006_nist_spoken_term_detection_development_set.json
+1-1 b/‎datasets/2006_nist_spoken_term_detection_development_set.json
+1-1
diff --git a/‎datasets/2006_nist_spoken_term_detection_evaluation_set.json
+1-1 b/‎datasets/2006_nist_spoken_term_detection_evaluation_set.json
+1-1
diff --git a/‎datasets/2007_conll_shared_task_-_arabic_&_english.json
+1-1 b/‎datasets/2007_conll_shared_task_-_arabic_&_english.json
+1-1
diff --git a/‎datasets/2007_nist_language_recognition_evaluation_supplemental_training_set.json
+1-1 b/‎datasets/2007_nist_language_recognition_evaluation_supplemental_training_set.json
+1-1
diff --git a/‎datasets/2007_nist_language_recognition_evaluation_test_set.json
+1-1 b/‎datasets/2007_nist_language_recognition_evaluation_test_set.json
+1-1
diff --git a/‎datasets/2008_2010_nist_metrics_for_machine_translation_(metricsmatr)_gale_evaluation_set.json
+1-1 b/‎datasets/2008_2010_nist_metrics_for_machine_translation_(metricsmatr)_gale_evaluation_set.json
+1-1
diff --git a/‎datasets/2008_nist_metrics_for_machine_translation_(metricsmatr08)_development_data.json
+1-1 b/‎datasets/2008_nist_metrics_for_machine_translation_(metricsmatr08)_development_data.json
+1-1
diff --git a/‎datasets/2018_nist_speaker_recognition_evaluation_test_set.json
+1-1 b/‎datasets/2018_nist_speaker_recognition_evaluation_test_set.json
+1-1
diff --git a/‎datasets/a-speechdb.json
+1-1 b/‎datasets/a-speechdb.json
+1-1
diff --git a/‎datasets/a7'ta.json
+1-1 b/‎datasets/a7'ta.json
+1-1
diff --git a/‎datasets/a_corpus_of_arabic_literature_(19-20th_centuries)_for_stylometric_tests.json
+1-1 b/‎datasets/a_corpus_of_arabic_literature_(19-20th_centuries)_for_stylometric_tests.json
+1-1
diff --git a/‎datasets/ace_2004_multilingual_training_corpus.json
+1-1 b/‎datasets/ace_2004_multilingual_training_corpus.json
+1-1
diff --git a/‎datasets/ace_2005_multilingual_training_corpus.json
+1-1 b/‎datasets/ace_2005_multilingual_training_corpus.json
+1-1
diff --git a/‎datasets/ace_2007_multilingual_training_corpus.json
+1-1 b/‎datasets/ace_2007_multilingual_training_corpus.json
+1-1
diff --git a/‎datasets/acqad.json
+1-1 b/‎datasets/acqad.json
+1-1
diff --git a/‎datasets/adcc.json
+1-1 b/‎datasets/adcc.json
+1-1
diff --git a/‎datasets/adi-17.json
+17-17 b/‎datasets/adi-17.json
+17-17
@@ -20,7 +20,7 @@ The first online catalogue for Arabic NLP datasets. This catalogue contains more
 -   `License` license of the dataset
 -   `Year` year of the publishing the dataset/paper
 -   `Language` ar or multilingual
--   `Dialect` region ar-LEV: (Arabic(Levant)), country ar-EGY: (Arabic (Egypt)) or type ar-MSA: (Arabic (Modern Standard Arabic))
+-   `Dialect` region Levant, country ar-EGY: (Arabic (Egypt)) or type Modern Standard Arabic
 -   `Domain` social media, news articles, reviews, commentary, books, transcribed audio or other
 -   `Form` text, audio or sign language
 -   `Collection style` crawling, crawling and annotation (translation), crawling and annotation (other), machine translation, human translation, human curation or other
@@ -72,7 +72,7 @@ which gives the following output
  'Cost': '',
  'Derived From': '',
  'Description': 'the first Levantine Dialect Corpus (SDC) covering data from the four dialects spoken in Palestine, Jordan, Lebanon and Syria.',
- 'Dialect': 'ar-LEV: (Arabic(Levant))',
+ 'Dialect': 'Levant',
  'Domain': 'social media',
  'Ethical Risks': 'Medium',
  'Form': 'text',
@@ -85,19 +85,19 @@ which gives the following output
  'Paper Title': 'Shami: A Corpus of Levantine Arabic Dialects',
  'Provider': 'Multiple institutions ',
  'Script': 'Arab',
- 'Subsets': [{'Dialect': 'ar-JO: (Arabic (Jordan))',
+ 'Subsets': [{'Dialect': 'Jordan',
    'Name': 'Jordanian',
    'Unit': 'sentences',
    'Volume': '32,078'},
   {'Dialect': 'ar-PS: (Arabic (Palestinian Territories))',
    'Name': 'Palestanian',
    'Unit': 'sentences',
    'Volume': '21,264'},
-  {'Dialect': 'ar-SY: (Arabic (Syria))',
+  {'Dialect': 'Syria',
    'Name': 'Syrian',
    'Unit': 'sentences',
    'Volume': '48,159'},
-  {'Dialect': 'ar-LB: (Arabic (Lebanon))',
+  {'Dialect': 'Lebanon',
    'Name': 'Lebanese',
    'Unit': 'sentences',
    'Volume': '16,304'}],
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2013,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "other",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2002,
     "Language": "ar",
-    "Dialect": "ar-EG: (Arabic (Egypt))",
+    "Dialect": "Egypt",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2002,
     "Language": "ar",
-    "Dialect": "ar-EG: (Arabic (Egypt))",
+    "Dialect": "Egypt",
     "Domain": "transcribed audio",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2006,
     "Language": "multilingual",
-    "Dialect": "ar-EG: (Arabic (Egypt))",
+    "Dialect": "Egypt",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2011,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2011,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2006,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "news articles",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2011,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2012,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2011,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2011,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2011,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2018,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "news articles",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2009,
     "Language": "multilingual",
-    "Dialect": "ar-EG: (Arabic (Egypt))",
+    "Dialect": "Egypt",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2009,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2011,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "web pages",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2009,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "news articles",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2020,
     "Language": "multilingual",
-    "Dialect": "ar-TN: (Arabic (Tunisia))",
+    "Dialect": "Tunisia",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "Non Commercial Use - ELRA END USER",
     "Year": 2011,
     "Language": "ar",
-    "Dialect": "ar-EG: (Arabic (Egypt))",
+    "Dialect": "Egypt",
     "Domain": "transcribed audio",
     "Form": "spoken",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "unknown",
     "Year": 2019,
     "Language": "ar",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "books",
     "Form": "text",
     "Collection Style": "crawling",
 
@@ -6,7 +6,7 @@
     "License": "CC BY 4.0",
     "Year": 2021,
     "Language": "ar",
-    "Dialect": "ar-CLS: (Arabic (Classic))",
+    "Dialect": "Classical Arabic",
     "Domain": "books",
     "Form": "text",
     "Collection Style": "crawling",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2004,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "other",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2006,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "other",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "LDC User Agreement for Non-Members",
     "Year": 2014,
     "Language": "multilingual",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "news articles",
     "Form": "text",
     "Collection Style": "other",
 
@@ -6,7 +6,7 @@
     "License": "unknown",
     "Year": 2022,
     "Language": "ar",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "wikipedia",
     "Form": "text",
     "Collection Style": "crawling",
 
@@ -6,7 +6,7 @@
     "License": "unknown",
     "Year": 2017,
     "Language": "ar",
-    "Dialect": "ar-MSA: (Arabic (Modern Standard Arabic))",
+    "Dialect": "Modern Standard Arabic",
     "Domain": "other",
     "Form": "text",
     "Collection Style": "other",
 
@@ -3,103 +3,103 @@
     "Subsets": [
         {
             "Name": "Algeria",
-            "Dialect": "ar-DZ: (Arabic (Algeria))",
+            "Dialect": "Algeria",
             "Volume": "115.7",
             "Unit": "hours"
         },
         {
             "Name": "Egypt",
-            "Dialect": "ar-EG: (Arabic (Egypt))",
+            "Dialect": "Egypt",
             "Volume": "451.1",
             "Unit": "hours"
         },
         {
             "Name": "Iraq",
-            "Dialect": "ar-IQ: (Arabic (Iraq))",
+            "Dialect": "Iraq",
             "Volume": "815.8",
             "Unit": "hours"
         },
         {
             "Name": "Jordan",
-            "Dialect": "ar-JO: (Arabic (Jordan))",
+            "Dialect": "Jordan",
             "Volume": "25.9",
             "Unit": "hours"
         },
         {
             "Name": "Saudi Arabia",
-            "Dialect": "ar-SA: (Arabic (Saudi Arabia))",
+            "Dialect": "Saudi Arabia",
             "Volume": "186.1",
             "Unit": "hours"
         },
         {
             "Name": "Kuwait",
-            "Dialect": "ar-KW: (Arabic (Kuwait))",
+            "Dialect": "Kuwait",
             "Volume": "108.2",
             "Unit": "hours"
         },
         {
             "Name": "Lebanon",
-            "Dialect": "ar-LB: (Arabic (Lebanon))",
+            "Dialect": "Lebanon",
             "Volume": "116.8",
             "Unit": "hours"
         },
         {
             "Name": "Libya",
-            "Dialect": "ar-LY: (Arabic (Libya))",
+            "Dialect": "Libya",
             "Volume": "127.4",
             "Unit": "hours"
         },
         {
             "Name": "Mauritania",
-            "Dialect": "ar-MR: (Arabic (Mauritania))",
+            "Dialect": "Mauritania",
             "Volume": "456.4",
             "Unit": "hours"
         },
         {
             "Name": "Morocco",
-            "Dialect": "ar-MA: (Arabic (Morocco))",
+            "Dialect": "Morocco",
             "Volume": "57.8",
             "Unit": "hours"
         },
         {
             "Name": "Oman",
-            "Dialect": "ar-OM: (Arabic (Oman))",
+            "Dialect": "Oman",
             "Volume": "58.5",
             "Unit": "hours"
         },
         {
             "Name": "Palestine",
-            "Dialect": "ar-PS: (Arabic (Palestine))",
+            "Dialect": "Palestine",
             "Volume": "121.4",
             "Unit": "hours"
         },
         {
             "Name": "Qatar",
-            "Dialect": "ar-QA: (Arabic (Qatar))",
+            "Dialect": "Qatar",
             "Volume": "62.3",
             "Unit": "hours"
         },
         {
             "Name": "Sudan",
-            "Dialect": "ar-SD: (Arabic (Sudan))",
+            "Dialect": "Sudan",
             "Volume": "47.7",
             "Unit": "hours"
         },
         {
             "Name": "Syria",
-            "Dialect": "ar-SY: (Arabic (Syria))",
+            "Dialect": "Syria",
             "Volume": "119.5",
             "Unit": "hours"
         },
         {
             "Name": "UAE",
-            "Dialect": "ar-AE: (Arabic (United Arab Emirates))",
+            "Dialect": "United Arab Emirates",
             "Volume": "108.4",
             "Unit": "hours"
         },
         {
             "Name": "Yemen",
-            "Dialect": "ar-YE: (Arabic (Yemen))",
+            "Dialect": "Yemen",
             "Volume": "53.4",
             "Unit": "hours"
         }