У меня был аудиофайл, который я хотел в текстовом виде. Слушать и печатать вручную довольно сложно, так как я как программист быстро изучил, как преобразовать аудиофайлы в текст.
Давайте начнем.
Требования
- распознавание речи
pip install speech_recognition
После установки импортируйте пакет
import speech_recognition
Импортируйте аудиофайл для преобразования
audio_file = "sample.wav"
инициализировать распознаватель речи
sp = speech_recognition.Recognizer()
открыть аудио файл
with speech_recognition.AudioFile(audio_file) as source:
Далее следует прослушать аудиофайл, загрузив его в память.
audio_data = sp.record(source)
Преобразование аудио в памяти в текст
converted_text = sp.recognize_google(audio_data)
Распечатайте преобразованный текст
print(converted_text)
Сделанный.
Этот скрипт работает с короткими аудиофайлами, формат файла должен быть .wav
Полный код
#import package import speech_recognition #import audio file audio_file = "sample.wav" # initialize the recognizer sp = speech_recognition.Recognizer() # open the file with speech_recognition.AudioFile(audio_file) as source: # load audio to memory audio_data = sp.record(source) # convert speech to text text = sp.recognize_google(audio_data) print(text)