AzureのSpeech SDKでテキストからニューラル音声を生成する

スポンサーリンク

音声サービスのリソースを作成する

  1. Azure portalにサインイン
  2. リソースグループでspeechリソースを作成
  3. 作成したリソースからキー場所をメモ

ライブラリをインストールする

pip install azure-cognitiveservices-speech

ssml.xmlを作成する

音声合成マークアップ言語(SSML)で、音声のピッチ、読み上げ速度、音量を微調整することができます。

同じ階層にssml.xmlを作成します。

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="ja-JP">
<voice name="ja-JP-NanamiNeural">
テストです。
</voice>
</speak>

テキストからニューラル音声を生成する

subscriptionとregionにメモした情報を入力します。

pip install azure-cognitiveservices-speech

from azure.cognitiveservices.speech import AudioDataStream, SpeechConfig, SpeechSynthesizer, SpeechSynthesisOutputFormat
from azure.cognitiveservices.speech.audio import AudioOutputConfig
from IPython.display import Audio

speech_config=SpeechConfig(subscription="xxxxx", region="xxxxx")

synthesizer = SpeechSynthesizer(speech_config=speech_config, audio_config=None)
ssml_string = open("ssml.xml", "r", encoding="utf-8").read()
result = synthesizer.speak_ssml_async(ssml_string).get()

stream = AudioDataStream(result)
stream.save_to_wav_file("test.mp3")
Audio("test.mp3")

コメント

タイトルとURLをコピーしました