Texto a voz gratis
Artículo AccionesUsando la Web Speech APLa Web Speech API proporciona dos áreas distintas de funcionalidad – reconocimiento de voz, y síntesis de voz (también conocida como texto a voz, o tts) – que abren nuevas e interesantes posibilidades de accesibilidad, y mecanismos de control. Este artículo ofrece una sencilla introducción a ambas áreas, junto con demostraciones.Reconocimiento de vozEl reconocimiento de voz implica la recepción del habla a través del micrófono de un dispositivo, que luego es comprobado por un servicio de reconocimiento de voz con una lista de gramática (básicamente, el vocabulario que se desea que sea reconocido en una aplicación particular.) Cuando una palabra o frase es reconocida con éxito, se devuelve como resultado (o lista de resultados) como una cadena de texto, y como resultado se pueden iniciar otras acciones.
La Web Speech API tiene una interfaz de controlador principal para esto – SpeechRecognition – además de una serie de interfaces estrechamente relacionadas para representar la gramática, los resultados, etc. Por lo general, el sistema de reconocimiento de voz por defecto disponible en el dispositivo se utilizará para el reconocimiento de voz – la mayoría de los sistemas operativos modernos tienen un sistema de reconocimiento de voz para la emisión de comandos de voz. Piensa en Dictation en macOS, Siri en iOS, Cortana en Windows 10, Android Speech, etc.
Aplicación de voz a texto
Esta sección se basa en gran medida o totalmente en una sola fuente. La discusión pertinente puede encontrarse en la página de discusión. Por favor, ayude a mejorar este artículo introduciendo citas a fuentes adicionales.Buscar fuentes: “Speech Services” – noticias – periódicos – libros – académico – JSTOR (marzo 2022)
Algunos desarrolladores de aplicaciones han comenzado a adaptar y ajustar sus aplicaciones de Android Auto para incluir Text-to-Speech, como Hyundai en 2015.[3] Aplicaciones como textPlus y WhatsApp utilizan Text-to-Speech para leer las notificaciones en voz alta y proporcionar la funcionalidad de respuesta de voz.
La tecnología de síntesis de voz de DeepMind es notablemente avanzada y realista. La mayoría de los sintetizadores de voz (incluido Siri de Apple) utilizan la síntesis concatenada, en la que un programa almacena fonemas individuales y luego los une para formar palabras y frases.
WaveNet genera un habla que suena más natural que otros sistemas de conversión de texto en voz. Sintetiza el habla con un énfasis y una inflexión más parecidos a los humanos en las sílabas, los fonemas y las palabras. Por término medio, una WaveNet produce un audio de voz que la gente prefiere a otras tecnologías de conversión de texto en voz.
El habla al texto en noruego
Esta sección se basa en gran medida o totalmente en una sola fuente. La discusión pertinente puede encontrarse en la página de discusión. Por favor, ayude a mejorar este artículo introduciendo citas a fuentes adicionales.Buscar fuentes: “Speech Services” – noticias – periódicos – libros – scholar – JSTOR (marzo 2022)
Algunos desarrolladores de aplicaciones han comenzado a adaptar y ajustar sus aplicaciones de Android Auto para incluir Text-to-Speech, como Hyundai en 2015.[3] Aplicaciones como textPlus y WhatsApp utilizan Text-to-Speech para leer las notificaciones en voz alta y proporcionar la funcionalidad de respuesta de voz.
La tecnología de síntesis de voz de DeepMind es notablemente avanzada y realista. La mayoría de los sintetizadores de voz (incluido Siri de Apple) utilizan la síntesis concatenada, en la que un programa almacena fonemas individuales y luego los une para formar palabras y frases.
WaveNet genera un habla que suena más natural que otros sistemas de conversión de texto en voz. Sintetiza el habla con un énfasis y una inflexión más parecidos a los humanos en las sílabas, los fonemas y las palabras. Por término medio, una WaveNet produce un audio de voz que la gente prefiere a otras tecnologías de conversión de texto en voz.
Texto a voz realista
La síntesis del habla es la producción artificial del habla humana. Un sistema informático utilizado con este fin se denomina ordenador del habla o sintetizador del habla, y puede implementarse en productos de software o hardware. Un sistema de conversión de texto a voz (TTS) convierte un texto en lenguaje normal en voz; otros sistemas convierten en voz representaciones lingüísticas simbólicas como transcripciones fonéticas[1] El proceso inverso es el reconocimiento del habla.
El habla sintetizada puede crearse concatenando trozos de habla grabada que se almacenan en una base de datos. Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena teléfonos o difonos proporciona el mayor rango de salida, pero puede carecer de claridad. Para ámbitos de uso específicos, el almacenamiento de palabras o frases enteras permite obtener una salida de alta calidad. Por otro lado, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para crear una salida de voz completamente “sintética”[2].
La calidad de un sintetizador de voz se juzga por su similitud con la voz humana y por su capacidad para ser entendido con claridad. Un programa de conversión de texto en voz inteligible permite a las personas con discapacidades visuales o de lectura escuchar las palabras escritas en un ordenador doméstico. Muchos sistemas operativos de ordenador incluyen sintetizadores de voz desde principios de los años 90.