Preguntas etiquetadas con speech-recognition

17

filtro de ruido del habla humana

¿Alguien sabe de un filtro para atenuar la no voz? Estoy escribiendo un software de reconocimiento de voz y me gustaría filtrar todo menos el habla humana. Esto incluiría ruido de fondo, ruido producido por un micrófono sucio o incluso música de fondo. Ya he implementado un filtro de primer orden...

12

Determinar qué tan similar es el audio al habla humana

Mientras buscaba una respuesta a este problema, encontré este tablero, así que decidí publicar esta pregunta mía en Stack Overflow. Estoy buscando un método para determinar la similitud entre un segmento de audio y una voz humana, que se expresa numéricamente. He buscado bastante, pero lo que...

audio algorithms speech-recognition

10

Diseñar un vector de características para discriminar entre diferentes formas de onda sónicas

Considere las 4 siguientes señales de forma de onda: signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821...

computer-vision frequency-spectrum autocorrelation speech-recognition

10

¿Cómo difiere la reducción de ruido para el reconocimiento de voz de la reducción de ruido que se supone que hace que el habla sea más "inteligible" para los humanos?

Esta es una pregunta que me ha interesado desde hace algún tiempo, principalmente porque estoy trabajando en la reducción de ruido para un sistema de reconocimiento de voz existente. La mayoría de los documentos sobre técnicas de reducción de ruido parecen centrarse en cómo hacer que el habla sea...

noise speech-recognition speech-processing noise-cancellation

9

¿Cómo segmentar el audio de la llamada telefónica en silencio / no silencio?

Mi problema es que no conozco la energía del ruido de fondo, así que no puedo limitar la energía. El procesamiento se realiza en tiempo real, y tengo unos 500 ms para decidir. Idealmente, me gustaría que las consonantes silenciosas se consideren no

audio speech-recognition

9

Cómo implementar una transformación de Hough basada en gradiente

Estoy tratando de usar la transformación Hough para la detección de bordes, y me gustaría usar imágenes de gradiente como base. Lo que he hecho hasta ahora, dada la imagen Ide tamaño [M,N]y sus derivadas parciales gx, gy, consiste en calcular el ángulo de pendiente en cada píxel como thetas =...

image-processing edge-detection image-processing computer-vision image-registration discrete-signals noise bpsk snr demodulation bpsk multipath synchronization timing image-processing filters algorithms edge-detection sampling demodulation bpsk synchronization timing fft fourier-transform delay audio speech-recognition soft-question discrete-signals discrete-signals autocorrelation frequency computer-vision

8

¿Qué significa un "vector" en un modelo oculto de Markov?

Sé que se utiliza un modelo oculto de Markov (HMM) en el reconocimiento de voz y lo entiendo hasta cierto punto. Sin embargo, lo que no sé es cómo la entrada (voz) se "transforma" en un vector que luego se usa en HMM. ¿Cómo se obtiene un vector de una entrada de sonido? ¿Es este vector legible por...

speech-recognition

8

¿Cómo me reconoce Siri diciendo "Hola Siri"?

Estoy tratando de entender cómo mi iPhone puede escuchar continuamente para mí diciendo Hey Siri, Alexa, Hey Cortanao Okay Googlesin agotar rápidamente la batería de mi hacia abajo. Me imaginé dos tipos de algoritmo. Uno que registra un segmento de tiempo como segmentos de 10 ms de ancho cada 200...

sound speech-recognition voice

7

¿Cómo corresponde esta ecuación al suavizado?

Por favor, ayúdame a entender el suavizado de datos. Este es un seguimiento de mi pregunta anterior publicada aquí . Especialmente la respuesta principal de Junuxx, donde dice que una forma de suavizar una función es:F( x )f(x)f(x) F′[ t ] = 0.1 f[ t - 1 ] + 0.8 f[ t ] + 0.1 f[ t + 1...

speech-recognition smoothing speech

7

¿Cuál es la interpretación gráfica correcta de una serie de vectores MFCC?

Estoy estudiando el reconocimiento de voz, en particular el uso de MFCC para la extracción de características. Todos los ejemplos que he encontrado en línea tienden a graficar una serie de MFCC extraídos de un enunciado particular de la siguiente manera (gráfico generado por mí desde el software...

speech-recognition mfcc visualization feature-extraction