У меня был аудиофайл, который я хотел в текстовом виде. Слушать и печатать вручную довольно сложно, так как я как программист быстро изучил, как преобразовать аудиофайлы в текст.
Давайте начнем.

Требования

  • распознавание речи
pip install speech_recognition

После установки импортируйте пакет

import speech_recognition

Импортируйте аудиофайл для преобразования

audio_file = "sample.wav"

инициализировать распознаватель речи

sp = speech_recognition.Recognizer()

открыть аудио файл

with speech_recognition.AudioFile(audio_file) as source:

Далее следует прослушать аудиофайл, загрузив его в память.

audio_data = sp.record(source)

Преобразование аудио в памяти в текст

converted_text = sp.recognize_google(audio_data)

Распечатайте преобразованный текст

print(converted_text)

Сделанный.

Этот скрипт работает с короткими аудиофайлами, формат файла должен быть .wav

Полный код

#import package
import speech_recognition
#import audio file
audio_file = "sample.wav"
# initialize the recognizer
sp = speech_recognition.Recognizer()
# open the file
with speech_recognition.AudioFile(audio_file) as source:
    # load audio to memory
    audio_data = sp.record(source)
    # convert speech to text
    text = sp.recognize_google(audio_data)
    print(text)