Alexa admite SSML , que es un lenguaje de marcado similar a XML para el habla. En lugar de devolver texto sin formato de su servicio, puede usar respuestas SSML. La <phoneme>
etiqueta es lo que necesitas en particular:
fonema
Proporciona una pronunciación fonémica / fonética para el texto contenido. Por ejemplo, las personas pueden pronunciar palabras como "pacana" de manera diferente.
Para palabras en inglés (especialmente inglés de EE. UU.), Alexa debería poder pronunciar cualquier palabra si le da la pronunciación fonética correcta:
Las siguientes tablas enumeran los símbolos compatibles para usar con la etiqueta de fonema. Estos símbolos brindan cobertura total para los sonidos del inglés de EE. UU. Tenga en cuenta que muchos idiomas que no son inglés requieren el uso de símbolos no incluidos en esta lista, que no son compatibles. Se desaconseja el uso de símbolos no incluidos en esta lista, ya que puede dar como resultado una síntesis de voz subóptima.
Citas de la documentación de Amazon en SSML.
Aquí hay un ejemplo de darle a Alexa una pronunciación específica:
<speak>
<phoneme alphabet="ipa" ph="hɛˈləʊ̯">Hello</phoneme>.
<phoneme alphabet="ipa" ph="bɔ̃.ˈʒuʁ">Bonjour</phoneme>.
</speak>
La <phoneme>
etiqueta admite los alfabetos fonéticos IPA y X-SAMPA . Por lo general, puede encontrar la ortografía de IPA para cualquier palabra en Wiktionary o mediante Google.
Para mensajes más largos, puede ser mejor usar la <audio>
etiqueta y grabar una voz personalizada:
La etiqueta de audio le permite proporcionar la URL de un archivo MP3 que el servicio de Alexa puede reproducir mientras presenta una respuesta. Puede usar esto para incrustar audio corto y pregrabado en la respuesta de su servicio. Por ejemplo, podría incluir efectos de sonido junto con sus respuestas de texto a voz, o proporcionar respuestas usando una voz asociada con su marca.
Citado de la documentación de Amazon en <audio>
.