Data augmentation is a very popular method in computer vision but they can be useful when your data is text. This repo contains implementation of data augmentation techniques on Turkish language.
-
Back Translation 🚥
Translate the text to another language and then translate it back to your language. This may generate text data with different words without changing the meaning of the sentence.
Google-translate, yandex etc. can be used here. --> Web scraping.
-
Easy Data Augmentation (EDA) 🚜
EDA is a simple and traditional method for data augmentation. Consist of 4 operations.
-
Synonym Replacement
Select a word that is not a stop words and replace it its synonym.
Doğal Dil İşleme insanların kendi aralarında anlaşmak için kullandıkları dili insan-bilgisayar etkileşimini en üst düzeye çıkarabilmek için çözümler üreten bilim dalıdır.
Doğal Dil İşleme insanların kendi aralarında anlaşmak için kullandıkları lisanı insan-bilgisayar etkileşimini en üst düzeye çıkarabilmek için çözümler üreten bilim alanıdır.
-
Random Insertion
Find a random synonym of a random n words in text date and insert into a random place.
Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu.
Karşımda minik, eşsiz beni ciddi ciddi süzen biri duruyordu.
-
Random Swap
Randomly select n words in the text and swap the positions.
Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu.
Beni ciddi ciddi süzen, küçük, eşi görülmedik biri karşımda duruyordu.
-
Random Deletion
Randomly select n words and remove them.
Doğal Dil İşleme insanların kendi aralarında anlaşmak için kullandıkları dili insan-bilgisayar etkileşimini en üst düzeye çıkarabilmek için çözümler üreten bilim dalıdır.
Doğal Dil İşleme insanların anlaşmak için kullandıkları dili insan-bilgisayar etkileşimini üst düzeye çıkarabilmek için çözümler üreten bilim dalıdır.
-
-
NLP Albumentation 📷
If the given text contains multiple sentences then just shuffle them.
Text:
Beynimden vurulmuşçasına yerimden fırladım. Gözlerimi ovuşturdum iyice. Her yanı gözden geçirdim. Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu.
Augmented text:
Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu. Gözlerimi ovuşturdum iyice. Her yanı gözden geçirdim. Beynimden vurulmuşçasına yerimden fırladım.
-
NLP Aug Library 📚
NLPAug is a library that helps you to implement all the data augmentation methods above on your projects.