Ноутбуки для ASR (Automatic Speech Recognition). Показываю, как можно доставать текст из аудиодорожки видеороликов, а также сравниваю различные Open-Source модели для распознавания речи.
- ASR_Inference_COLAB_final.ipynb : Загрузка видеороликов по ссылке, извлечение аудиодорожки, инференс Nvidia ASR NeMo (Библиотека Nvidia весит очень много, около 30 ГБ - единственный, но значительный минус), извлечение текста из аудио и демонстрация результатов
- Сравниваю модели ASR.ipynb - Сравнение различных open-source моделей для ASR с HuggingFace (Не по метрикам)