음성 파일을 업로드하여 텍스트로 변환하는 프로그램을 만드는 중이다
지난 시간에는 코랩을 세팅하는 포스팅을 올렸는데 오늘은 코랩을 이용한 프로그램을 만들어 볼 것이다.
지난 포스팅이 궁금하시다면 아래를 클릭해주세요👇👇👇
Google Colab 세팅하기
음성 파일을 업로드하면 텍스트로 변환해주는 기능을 만드려고 한다.클로바 노트같은 유료서비스들이 있지만 만들어보기로 했다. (이런걸 지나치지 못하고)찾아보니 open ai 에서 공개한 오픈소
devbirdfeet.tistory.com
Google Colab - 음성파일 텍스트로 변환하기
사용된 기술
1. 음성 파일을 텍스트로 변환하기 위해 Whisper API 를 사용하였다. 이놈은 언어별로 자동 변환해주고 심지어 번역도 할수있다.
- 여담이지만 오픈AI 는 고급정보를 유료로하거나 안푸는데 이 API는 오픈소스로 공개하였다.
2. 이를 실행하기 위해 Google Colab 을 사용하였다. 코랩은 Python 을 사용하기 적합한 언어인데 구글 클라우드 기반의 쥬피터 노트북이고, 한마디로 스크립트형 개발도구? 라 머신러닝같은 데이터 실험이나 확인하는 도구로도 쓰이더라. 웹브라우저에서 CPU 와 GPU 를 사용할 수 있기 때문에 누구와도 공유할수 있고, 따로 설치가 필요없어 편하다. (더불어 귀여운 키티모드도 한몫했다)
참고로 Google Colab 은 세션기반이라 비활성화시 90분마다 끊기고, 최대 12시간 유지할 수 있는 특징이 있다.
그래서 결과물을 파일로 만들어서 구글드라이브에 저장해주려고 한다.
로직
1. 음성 파일을 구글 드라이브에 업로드 한다.
2. 코랩을 켜고 filePath 에 음성파일 경로를 적어준다.
3. 구글 드라이브 mount(불러오기) 한다.
4. Whisper 설치를 한다. => 음성 변환 텍스트 파일이 생성된다.
5. 결과로 생성된 텍스트파일의 내용을 읽어서 구글드라이브에 고대로 저장을 해준다.
구현 코드
# 변환할 음성 파일 경로
filepath = '/content/gdrive/MyDrive/test/voice-sample-long.mp3'
# Whisper 설치
! pip install git+https://github.com/openai/whisper.git
# 구글드라이브 마운트
from google.colab import drive
drive.mount('/content/gdrive')
# Whisper 실행
! whisper "{filepath}" --model medium --language Korean
# whisper 결과를 읽어서 output_path에 저장
import os
import shutil
filename = os.path.splitext(os.path.basename(filepath))[0]
gdrive_path = f"/content/gdrive/MyDrive/test/{filename}.txt"
colab_path = f"{filename}.txt"
with open(colab_path, "r", encoding="utf-8") as src:
result_text = src.read()
with open(gdrive_path, "w", encoding="utf-8") as dst:
dst.write(result_text)
print(f"✅ 저장 완료: {gdrive_path}")
참고 튜토리얼 :
'OS & Network' 카테고리의 다른 글
Google Colab 세팅하기 (3) | 2025.06.11 |
---|---|
Figma - 피그마에 폰트 추가하기 (Feat. 맥) (0) | 2025.02.09 |
Network - Cache 그리고 Cache-Control (5) | 2024.11.14 |
VScode - extension 오프라인으로 설치하기 (0) | 2024.07.26 |
Windows - PowerShell 에서 ohmyzsh git alias 명령어 적용하기 (0) | 2024.06.04 |
댓글