Skip to content

Data Augmentation Techs for Natural Language Processing on Turkish.

Notifications You must be signed in to change notification settings

mdurmuss/nlp-data-augmentation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Data Augmentation for NLP

Data augmentation is a very popular method in computer vision but they can be useful when your data is text. This repo contains implementation of data augmentation techniques on Turkish language.

Data Augmentation Techniques

  1. Back Translation 🚥

    Translate the text to another language and then translate it back to your language. This may generate text data with different words without changing the meaning of the sentence.

    Google-translate, yandex etc. can be used here. --> Web scraping.

  2. Easy Data Augmentation (EDA) 🚜

    EDA is a simple and traditional method for data augmentation. Consist of 4 operations.

    • Synonym Replacement

      Select a word that is not a stop words and replace it its synonym.

      Doğal Dil İşleme insanların kendi aralarında anlaşmak için kullandıkları dili insan-bilgisayar etkileşimini en üst düzeye çıkarabilmek için çözümler üreten bilim dalıdır.

      Doğal Dil İşleme insanların kendi aralarında anlaşmak için kullandıkları lisanı insan-bilgisayar etkileşimini en üst düzeye çıkarabilmek için çözümler üreten bilim alanıdır.

    • Random Insertion

      Find a random synonym of a random n words in text date and insert into a random place.

      Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu.

      Karşımda minik, eşsiz beni ciddi ciddi süzen biri duruyordu.

    • Random Swap

      Randomly select n words in the text and swap the positions.

      Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu.

      Beni ciddi ciddi süzen, küçük, eşi görülmedik biri karşımda duruyordu.

    • Random Deletion

      Randomly select n words and remove them.

      Doğal Dil İşleme insanların kendi aralarında anlaşmak için kullandıkları dili insan-bilgisayar etkileşimini en üst düzeye çıkarabilmek için çözümler üreten bilim dalıdır.

      Doğal Dil İşleme insanların anlaşmak için kullandıkları dili insan-bilgisayar etkileşimini üst düzeye çıkarabilmek için çözümler üreten bilim dalıdır.

  3. NLP Albumentation 📷

    If the given text contains multiple sentences then just shuffle them.

    Text:

    Beynimden vurulmuşçasına yerimden fırladım. Gözlerimi ovuşturdum iyice. Her yanı gözden geçirdim. Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu.
    

    Augmented text:

    Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu. Gözlerimi ovuşturdum iyice. Her yanı gözden geçirdim. Beynimden vurulmuşçasına yerimden fırladım.
    
  4. NLP Aug Library 📚

    NLPAug is a library that helps you to implement all the data augmentation methods above on your projects.

References

About

Data Augmentation Techs for Natural Language Processing on Turkish.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published