YOSEKS VAS
Voice Analysis System
Características de la plataforma
Utiliza el poder de la biometría de voz para reconocer automáticamente a un hablante por su voz.
Tecnología
- Una herramienta de calibración para una precisión aún mayor
- Comparación 1: 1 (verificación), 1: n y n:m (identificación) posible
- La tecnología es independiente del idioma, el acento, el texto y el canal
- Utiliza redes neuronales profundas para generar huellas de voz altamente representativas
- Aplica técnicas de compensación de canal de última generación, verificadas por la evaluación NIST
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE flotante de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
- Señal de voz recomendada para la inscripción: más de 20 segundos recomendados
- Señal de voz mínima para identificación: recomendado más de 7 segundos
En casos de uso específicos, el tiempo requerido para la inscripción e identificación del orador puede ser mucho más corto.
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con un índice de probabilidad de registro (-∞; ∞) y / o puntuación métrica porcentual <0-100%>
Precisión y velocidad de procesamiento
Logra más del 99% de precisión (0,96% de tasa de error equivalente según el conjunto de datos de evaluación del NIST).
Hasta 182 veces más rápido que el procesamiento en tiempo real en 1 núcleo de CPU con el modelo más preciso: por ejemplo, un servidor central estándar de 1 CPU procesa hasta 4.368 horas de audio en un día de tiempo de computación.
Permite la segmentación de voces en un registro de audio mono canal. Tecnología
- Capacitado con énfasis en la conversación telefónica espontánea.
- La tecnología es independiente del idioma, el acento, el texto y el canal
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE float de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con segmentación de voz, silencio y señales técnicas (es decir, eliminación de pitidos de líneas telefónicas, tonos DTMF, música, etc.)
- Archivo de audio extraído para cada altavoz
Velocidad de procesamiento
Aprox. 50 veces más rápido que el procesamiento en tiempo real en 1 núcleo de CPU.
Es decir, un servidor de núcleo estándar de 1 CPU procesa 1200 horas de audio en 1 día de tiempo de cómputo.
El sistema de identificación de idioma (LID) permite detectar el idioma o dialecto hablado automáticamente.
Tecnología
- La tecnología es independiente del canal y del texto.
- Aplica técnicas de compensación de canal de última generación, verificadas por la evaluación NIST
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Idiomas admitidos
Afan_Oromo, albanés, amárico, árabe, golfo árabe, árabe_Iraqi, árabe_levantino, árabe_maghrebi, árabe_MSA, azerí, bengalí, bosnio, birmano, chino_cantonés, chino_Dialects, chino_mandarín, criollo, croata_ inglés, checo, danés, americano Georgiano, alemán, griego, hausa, hebreo, hindi, húngaro, indonesio, italiano, japonés, jemer, kirundi_Kinyarwanda, coreano, lao, macedonio, ndebele, pashto, polaco, portugués, punjabi, ruso, serbio, shona, eslovaco, somalí, Español, suajili, sueco, tagalo, tamil, tailandés, tibetano, tigrigna, turco, ucraniano, urdu, uzbeko, vietnamita
Un usuario puede agregar nuevos idiomas al sistema, no es necesaria la ayuda de YOSEKS . Aprox. Se recomiendan 20 horas de grabaciones de audio para la formación de nuevos idiomas.
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE float de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
- Señal de voz mínima para identificación: recomendado más de 7 segundos
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con un logaritmo de puntuación de probabilidades (-∞; 0> y / o puntuación métrica porcentual <0-100%>
Velocidad de procesamiento
Aprox. 20 veces más rápido que el procesamiento en tiempo real en 1 núcleo de CPU con el modelo más preciso.
Es decir, un servidor de núcleo estándar de 8 CPU procesa 480 horas de audio en 1 día de tiempo de cómputo.
La identificación de género (GID) reconoce automáticamente el género de un hablante.
Tecnología
- Utiliza las características acústicas del habla.
- El habla se convierte en espectros de frecuencia y se modela con métodos estadísticos avanzados
- La tecnología es independiente del idioma, el acento, el texto y el canal
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE float de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
- Señal de voz mínima para identificación: recomendado más de 7 segundos
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con información procesada (puntuaciones para hombres y mujeres)
Velocidad de procesamiento
Aprox. 200 veces más rápido que el procesamiento en tiempo real en 1 núcleo de CPU.
Es decir, un servidor central estándar de 1 CPU procesa 4800 horas de audio en 1 día de tiempo de cómputo
La estimación de edad (AGE) calcula la edad de un hablante a partir de una grabación de audio.
Tecnología
- Capacitado con énfasis en la conversación telefónica espontánea.
- La tecnología es independiente del idioma, el acento, el texto y el canal
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE flotante de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con estimaciones de edad
Velocidad de procesamiento
Hasta 182 veces más rápido que el procesamiento en tiempo real en 1 núcleo de CPU con el modelo más preciso: por ejemplo, un servidor central estándar de 1 CPU procesa hasta 4.368 horas de audio en un día de tiempo de computación.
La transcripción de voz (STT) convierte las señales de voz en texto sin formato.
Tecnología
- Capacitado con énfasis en la conversación telefónica espontánea.
- Basado en técnicas de vanguardia para el modelado acústico, que incluyen entrenamiento discriminativo y características basadas en redes neuronales.
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Idiomas admitidos
Árabe, chino (versión beta), checo, holandés, inglés del Reino Unido, inglés de EE. UU., Farsi (versión beta), francés, alemán, italiano, español – latinoamericano, polaco, ruso, eslovaco
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE float de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con:
- La mejor transcripción es decir, un archivo con una transcripción del discurso alineada en el tiempo (la hora del inicio y el final de las palabras)
- n-mejor transcripción es decir, una red de confusión con hipótesis de palabras en cada momento
Velocidad de procesamiento
La quinta generación es aproximadamente 7 veces más rápida que el procesamiento en tiempo real en 1 núcleo de CPU – por ejemplo, un servidor central estándar de 1 CPU procesa 168 horas de audio en un día de tiempo de computación.
La cuarta generación es aproximadamente 1,2 veces más rápida que el procesamiento en tiempo real en 1 CPU.
La detección de palabras clave (KWS) identifica las apariciones de palabras clave y/o frases clave en grabaciones de audio.
Tecnología
- Tecnología robusta basada en acústica, incluso con grabaciones ruidosas
- Las palabras clave se convierten automáticamente en fonemas y se buscan
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Idiomas admitidos
Árabe, chino (versión beta), croata, checo, holandés, inglés de EE. UU., Farsi (versión beta), francés, alemán, húngaro, italiano, pashtu, polaco, ruso, eslovaco, español – latinoamericano, turco (versión beta)
Un usuario puede agregar un número ilimitado de palabras clave al sistema, así como un número ilimitado de variantes de pronunciación para cada palabra clave.
Entrada (Aporte)
- Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE float de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados generados con palabras clave detectadas (que contienen la palabra clave, hora de inicio / finalización, ruta, probabilidad, etc.)
Velocidad de procesamiento
El 5th La generación es aproximadamente 30 veces más rápida que el procesamiento en tiempo real en 1 núcleo de CPU, es decir, un servidor estándar de 1 núcleo de CPU procesa 720 horas de audio en un día de tiempo de computación.
El 5th La generación es aproximadamente 10 veces más rápida que el procesamiento en tiempo real en 1 núcleo de CPU.
La detección de actividad de voz (VAD) identifica partes de grabaciones de audio con contenido de voz frente a contenido que no es de voz.
Tecnología
- Capacitado con énfasis en la conversación telefónica espontánea.
- La tecnología es independiente del idioma, el acento, el texto y el canal
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, teléfonos satelitales, etc.
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE float de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con etiquetas (segmentos de voz frente a segmentos que no son de voz)
Velocidad de procesamiento
Aprox. 150 veces más rápido que el procesamiento en tiempo real en 1 núcleo de CPU.
Es decir, un servidor central estándar de 1 CPU procesa 3600 horas de audio en 1 día de tiempo de cómputo.
El Estimador de calidad del habla (SQE) mide los parámetros de calidad del habla en una grabación de audio.
Tecnología
- La tecnología es independiente del idioma, el acento, el texto y el canal
- Compatible con la más amplia gama de fuentes de audio posible (aplica técnicas de compensación de canal): GSM / CDMA, 3G, VoIP, teléfonos fijos, etc.
Entrada (Aporte)
– Formato de entrada para el procesamiento: WAV o RAW (PCM sin firmar de 8 o 16 bits, IEEE float de 32 bits, A-law o Mu-law, ADPCM), FLAC, OPUS; 8 kHz + muestreo (otros formatos de audio convertidos automáticamente)
Salida (Producción)
- Formato XML / JSON con todos los resultados o archivos de resultados con
- Puntaje global es decir, una expresión porcentual de la calidad de audio (rango <0; 100>), de forma predeterminada, la puntuación global se calcula en función de las variables waveform_n_bits y waveform_snr.
- Salidas detalladas es decir, señal recortada, amplitud, valores de muestra, frecuencia de muestreo, SNR, señal técnica, codificación, etc.
Velocidad de procesamiento
Aprox. 2.000 veces más rápido que el procesamiento en tiempo real en 1 núcleo de CPU.
Es decir, un servidor central estándar de 1 CPU procesa 48.000 horas de audio en 1 día de tiempo de cómputo
Solicite una sesión demo con uno de nuestros representantes
Este formulario está desactivado.