본문 바로가기
OS & Network

Google Colab - 음성파일 텍스트로 변환하기 (Feat. Whisper)

by 새발개발JA 2025. 6. 12.
반응형

 

음성 파일을 업로드하여 텍스트로 변환하는 프로그램을 만드는 중이다

지난 시간에는 코랩을 세팅하는 포스팅을 올렸는데 오늘은 코랩을 이용한 프로그램을 만들어 볼 것이다.

 

 

지난 포스팅이 궁금하시다면 아래를 클릭해주세요👇👇👇 

 

Google Colab 세팅하기

음성 파일을 업로드하면 텍스트로 변환해주는 기능을 만드려고 한다.클로바 노트같은 유료서비스들이 있지만 만들어보기로 했다. (이런걸 지나치지 못하고)찾아보니 open ai 에서 공개한 오픈소

devbirdfeet.tistory.com

 


 

Google Colab - 음성파일 텍스트로 변환하기

 

 

사용된 기술

1. 음성 파일을 텍스트로 변환하기 위해 Whisper API 를 사용하였다. 이놈은 언어별로 자동 변환해주고 심지어 번역도 할수있다.

- 여담이지만 오픈AI 는 고급정보를 유료로하거나 안푸는데 이 API는 오픈소스로 공개하였다. 

 

2. 이를 실행하기 위해 Google Colab 을 사용하였다.  코랩은 Python 을 사용하기 적합한 언어인데 구글 클라우드 기반의 쥬피터 노트북이고, 한마디로 스크립트형 개발도구? 라 머신러닝같은 데이터 실험이나 확인하는 도구로도 쓰이더라. 웹브라우저에서 CPU 와 GPU 를 사용할 수 있기 때문에 누구와도 공유할수 있고, 따로 설치가 필요없어 편하다. (더불어 귀여운 키티모드도 한몫했다)

 

참고로  Google Colab 은 세션기반이라 비활성화시 90분마다 끊기고, 최대 12시간 유지할 수 있는 특징이 있다.

그래서 결과물을 파일로 만들어서 구글드라이브에 저장해주려고 한다.

 

 

로직

1. 음성 파일을 구글 드라이브에 업로드 한다.

2. 코랩을 켜고 filePath 에 음성파일 경로를 적어준다.

3. 구글 드라이브 mount(불러오기) 한다.

4. Whisper 설치를 한다. => 음성 변환 텍스트 파일이 생성된다.

5. 결과로 생성된 텍스트파일의 내용을 읽어서 구글드라이브에 고대로 저장을 해준다.

 

 

구현 코드

# 변환할 음성 파일 경로
filepath = '/content/gdrive/MyDrive/test/voice-sample-long.mp3'

# Whisper 설치
! pip install git+https://github.com/openai/whisper.git

# 구글드라이브 마운트
from google.colab import drive
drive.mount('/content/gdrive')

# Whisper 실행
! whisper "{filepath}"  --model medium --language Korean

# whisper 결과를 읽어서 output_path에 저장
import os
import shutil

filename = os.path.splitext(os.path.basename(filepath))[0]
gdrive_path = f"/content/gdrive/MyDrive/test/{filename}.txt"
colab_path = f"{filename}.txt"

with open(colab_path, "r", encoding="utf-8") as src:
    result_text = src.read()

with open(gdrive_path, "w", encoding="utf-8") as dst:
    dst.write(result_text)

print(f"✅ 저장 완료: {gdrive_path}")

 

 

 

참고 튜토리얼 : 

https://youtu.be/OyNHUONSLIs?si=R0a_qedJi4KZTK_4

반응형

댓글