音声サービスのリソースを作成する
- Azure portalにサインイン
- リソースグループでspeechリソースを作成
- 作成したリソースからキーと場所をメモ
ライブラリをインストールする
pip install azure-cognitiveservices-speech
ssml.xmlを作成する
音声合成マークアップ言語(SSML)で、音声のピッチ、読み上げ速度、音量を微調整することができます。
同じ階層にssml.xmlを作成します。
<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="ja-JP">
<voice name="ja-JP-NanamiNeural">
テストです。
</voice>
</speak>
テキストからニューラル音声を生成する
subscriptionとregionにメモした情報を入力します。
pip install azure-cognitiveservices-speech
from azure.cognitiveservices.speech import AudioDataStream, SpeechConfig, SpeechSynthesizer, SpeechSynthesisOutputFormat
from azure.cognitiveservices.speech.audio import AudioOutputConfig
from IPython.display import Audio
speech_config=SpeechConfig(subscription="xxxxx", region="xxxxx")
synthesizer = SpeechSynthesizer(speech_config=speech_config, audio_config=None)
ssml_string = open("ssml.xml", "r", encoding="utf-8").read()
result = synthesizer.speak_ssml_async(ssml_string).get()
stream = AudioDataStream(result)
stream.save_to_wav_file("test.mp3")
Audio("test.mp3")
コメント