Preguntas etiquetadas con speech-recognition

17
filtro de ruido del habla humana

¿Alguien sabe de un filtro para atenuar la no voz? Estoy escribiendo un software de reconocimiento de voz y me gustaría filtrar todo menos el habla humana. Esto incluiría ruido de fondo, ruido producido por un micrófono sucio o incluso música de fondo. Ya he implementado un filtro de primer orden...

10
¿Cómo difiere la reducción de ruido para el reconocimiento de voz de la reducción de ruido que se supone que hace que el habla sea más "inteligible" para los humanos?

Esta es una pregunta que me ha interesado desde hace algún tiempo, principalmente porque estoy trabajando en la reducción de ruido para un sistema de reconocimiento de voz existente. La mayoría de los documentos sobre técnicas de reducción de ruido parecen centrarse en cómo hacer que el habla sea...

9
Cómo implementar una transformación de Hough basada en gradiente

Estoy tratando de usar la transformación Hough para la detección de bordes, y me gustaría usar imágenes de gradiente como base. Lo que he hecho hasta ahora, dada la imagen Ide tamaño [M,N]y sus derivadas parciales gx, gy, consiste en calcular el ángulo de pendiente en cada píxel como thetas =...

8
¿Qué significa un "vector" en un modelo oculto de Markov?

Sé que se utiliza un modelo oculto de Markov (HMM) en el reconocimiento de voz y lo entiendo hasta cierto punto. Sin embargo, lo que no sé es cómo la entrada (voz) se "transforma" en un vector que luego se usa en HMM. ¿Cómo se obtiene un vector de una entrada de sonido? ¿Es este vector legible por...

8
¿Cómo me reconoce Siri diciendo "Hola Siri"?

Estoy tratando de entender cómo mi iPhone puede escuchar continuamente para mí diciendo Hey Siri, Alexa, Hey Cortanao Okay Googlesin agotar rápidamente la batería de mi hacia abajo. Me imaginé dos tipos de algoritmo. Uno que registra un segmento de tiempo como segmentos de 10 ms de ancho cada 200...