Youtubeから字幕を抽出する
Youtubeの字幕をダウンロードするためのPythonライブラリ「youtube-transcript-api」を使って、動画から字幕を抽出します。
youtube-transcript-apiをインストールする
!pip install youtube-transcript-api
ライブラリを読み込む
#youtube_transcript_apiライブラリ>YouTubeTranscriptApi関数
from youtube_transcript_api import YouTubeTranscriptApi
Youtubeから字幕を抽出する
video_idはhttps://www.youtube.com/watch?v=xxxxxのxxxxxの部分のことです。
#video_idを入力
transcript_list=YouTubeTranscriptApi.list_transcripts("xxxxx")
#英語字幕は"en"に変更
transcript=transcript_list.find_generated_transcript(["ja"])
#出力するファイル名を指定
file=open("test.txt", mode="w", encoding="utf_8")
#JSONからテキストのみ取得
for d in transcript.fetch():
print(d["text"])
file.write(d["text"])
file.close()
コメント