Сервис для автоматического упрощения текстов на русском языке.
Корпус: RuSimpleSentEval + RuAdapt. Во всяком случае можно использовать dataset.
Модель: t5 (несколько вариантов моделей).
Код для обучения и инференса в папке seq2seq
, эксперименты - там же, в ноутбуке seq2seq_simplification.ipynb
.
Метрики: SARI, BLEU, FKGL (модифицированная для русского языка).
Чекпоинты метрик для нейросети хранятся в файле с логами (seq2seq/train.logs
).
Библиотека, которая может помочь с подсчетом метрик easse.
Обертка: cервис обернут в телеграм-бота, который делает запросы к API модели на huggingface (r1char9/ruT5-base-pls).
Код в папке bot
.
API сервиса упакован в docker-контенейнер. Подробности в app
.