- Распознавание русской речи из WAV файлов
- Три модели на выбор (полная 1.8GB, средняя 2.5GB, легкая 45MB)
- AI-коррекция распознанного текста
- Создание краткого описания текста
- Python 3.9+
- Минимум 15GB свободного места для моделей (включая Whisper large-v3)
- Рекомендуется наличие GPU для быстрой работы Whisper
brew install ffmpeg
sudo apt-get install ffmpeg
choco install ffmpeg
brew install ollama
curl -fsSL https://ollama.com/install.sh | sh
Посетите https://ollama.com/download
Модели загружаются автоматически при первом запуске. Доступные модели:
- Полная (1.8GB): vosk-model-ru-0.42
- Средняя (2.5GB): vosk-model-ru-0.10
- Легкая (45MB): vosk-model-small-ru-0.22
- Large-v3 (~6GB): Наиболее точная модель для распознавания речи
- Поддерживает множество языков
- Высокая точность распознавания
- Требует больше вычислительных ресурсов
При первом запуске будет автоматически загружена модель t-lite для Ollama.
git clone https://github.com/micnikolaev/SpeechToText.git
cd SpeechToText
python -m venv venv
venv\Scripts\activate
source venv/bin/activate
pip install -r requirements.txt
python server.py
Сначала сделайте скрипт исполняемым:
chmod +x start_server.command
Затем запустите двойным кликом или через терминал:
./start_server.command
- Выберите модель распознавания
- Загрузите WAV файл
- Опционально включите AI-коррекцию
- Нажмите "Перевести в текст"
- После получения текста можно создать его краткое описание