Integrar el kit de AA Virtual Human Service | autor: Sherlock | Desarrolladores de Huawei | Octubre de 2020

Virtual Human es un servicio que aprovecha las tecnologías de inteligencia artificial de vanguardia, incluida la visión de imágenes, la generación de emociones, la clonación de voz y la comprensión semántica, y tiene una amplia gama de aplicaciones, que incluyen mensajería, servicio al cliente financiero y juegos virtuales.

Escenarios de aplicación:

Con el apoyo de tecnologías de inteligencia artificial centrales como procesamiento de imágenes, conversión de texto a voz, clonación de voz y comprensión semántica, ML Virtual Virtual Human proporciona modos de autoría innovadores y rentables para empresas de educación, mensajería y multimedia. Virtual Human tiene una serie de ventajas clave sobre otros servicios similares, que incluyen las siguientes:

Efectos de película Ultra-HD 4K

l Admite pantallas grandes. Los detalles y texturas de todo el cuerpo están dibujados en la misma definición.

l Genera imágenes que se adaptan perfectamente al fondo real y logra una fusión HD sin pistas.

l Genera características de labios detalladas, un fuerte reflejo del lápiz labial y una textura realista.

l Crea dientes claros y visibles y texturas fieles.

Efectos hiperrealistas de síntesis

Verdadera restauración de dientes (sin pintar), labios e incluso reflejos de lápiz labial.

l Restauración fija de rasgos faciales como iluminación, contrastes, sombras y hoyuelos.

l Conexión perfecta entre la textura de la boca generada y la textura real.

l Efectos de animación complejos que superan los efectos de los anclajes en vivo 3D.

Comparación con los servicios prestados por otras empresas.

Como se muestra a continuación, Virtual Human genera efectos de video de alta definición, proporciona un reconocimiento más claro y controla mejor los detalles clave, como las características de los labios, los reflejos del lápiz labial, la verdadera pronunciación y la iluminación.

Llame a la API personalizada para convertir texto a video humano virtual y pase las configuraciones requeridas (especificadas por el parámetro) configuración) y texto (especificado por el parámetro). datos) al backend para el procesamiento de la API. Primero, verifique la longitud del texto que envía. La longitud máxima del texto en chino es de 1000 caracteres, mientras que el texto en inglés es de 3000 caracteres. Realice una verificación distinta de cero de las configuraciones aprobadas, luego envíe el texto y las configuraciones y convierta el texto en audio.

Al llamar a un algoritmo de conversión de texto a voz, convierte texto en video en función de los datos proporcionados por una tarea programada asincrónica y sintetiza el video con audio adquirido previamente.

Verifique que el texto se haya convertido correctamente llamando a la API para consultar los resultados de la conversión de texto a video humano virtual. Si se completa el lanzamiento, se devolverá el enlace del video.

Acceda al video generado a través del enlace devuelto por la API y consulte los resultados de convertir el texto a video humano virtual.

URL:

http://10.33.219.58:8888/v1/vup/text2vedio/submit

Solicitar parámetros

Función principal:

Ingrese una API personalizada para convertir texto en video humano virtual. La API es asincrónica. Actualmente, Virtual Human solo puede completar la conversión utilizando el modo fuera de línea, un proceso que requiere mucho tiempo. Los resultados de la conversión se pueden consultar utilizando la API para consultar los resultados de la conversión de texto a video humano virtual. Si el texto enviado ha sido sintetizado, puede volver atrás y reproducir el video directamente.

Lógica principal:

Convierta texto en audio en función del texto y las configuraciones que se sintetizarán pasadas por la interfaz. Ejecute el procesamiento de múltiples subprocesos de forma asincrónica, genere un video que cumpla con los requisitos de pronunciación en función de un algoritmo de texto a voz y luego combine el video con audio para generar un video humano virtual. Si el texto enviado ha sido sintetizado, puede volver atrás y reproducir el video directamente.

URL:

http://10.33.219.58:8888/v1/vup/text2vedio/query

Solicitar parámetros

Función principal:

Consulta el estado de la transferencia en lotes en función del ID del texto enviado.

Lógica principal:

Consultar el estado de la síntesis de video textlds (lista de ID de texto sintetizados pasados ​​por la interfaz), guarde los resultados de estado obtenidos en un conjunto como parámetro de salida e inserte el parámetro en la solicitud devuelta. Si se sintetizó el texto deseado, puede volver atrás y reproducir el video directamente.

URL:

http://10.33.219.58:8888/v1/vup/text2vedio/offline

Solicitar parámetros

Función principal:

Tome el video sin conexión en lotes según la identificación del texto que envió.

Lógica principal:

Cambiar el estado del video correspondiente a la ID en el campo a fuera de línea textlds (ID de campo del texto sintetizado transmitido por el front-end) y luego elimine el video. El video no se puede reproducir sin conexión.

ML Human Virtual Service tiene una gran cantidad de funciones poderosas.

1. Soporte para dos idiomas: Virtual Human actualmente admite chino e inglés, por lo que se puede utilizar texto en chino o inglés como datos de audio.

2. Múltiples anclas virtuales: Este servicio admite hasta cuatro presentadores virtuales, una voz femenina china, una voz femenina en inglés y dos voces masculinas en inglés.

3. Video en imagen: También se admite la reproducción de video en imagen, esencialmente reproducción de video en una ventana pequeña. Al reproducir un video en el modo de imagen en imagen, la ventana de video se mueve en línea con el resto de la pantalla. Los usuarios pueden ver texto mientras reproducen un video y pueden arrastrar el video a cualquier lugar de la pantalla para facilitar la lectura.

4. Velocidad, volumen y tono de voz ajustables: La velocidad, el volumen y el tono de la voz se pueden personalizar para adaptarse a una amplia gama de necesidades del usuario.

5. Configure varios fondos: Este servicio le permite elegir entre una variedad de fondos para presentadores virtuales. Actualmente hay tres fondos integrados disponibles: transparente, pantalla verde y tecnología. También puede cargar una imagen y utilizar un fondo personalizado.

6. Subtítulos: Virtual Human puede generar automáticamente subtítulos en chino, inglés y bilingües.

7. Configurar varios diseños: Puede cambiar la posición de los anclajes virtuales en la pantalla (izquierda, derecha o centro de la pantalla) configurando parámetros. También puede especificar el tamaño de los anclajes virtuales y elegir colocar la parte superior del cuerpo o el cuerpo completo en la vista. Además, puede configurar el logotipo del canal, su posición en la pantalla y también el video a reproducir. Esto asegura que un efecto de imagen en imagen resulte en una experiencia de mensajería honesta.

Efecto de imagen en imagen:

Como desarrollador, después de ser utilizado por el Kit virtual de ML Kit para generar video, me sorprendieron sus capacidades, especialmente las capacidades de imagen en imagen, que me ayudaron a generar efectos de mensajería reales. Me preguntaba si las personas virtuales pronto reemplazarían a los anclajes reales.

Puede encontrar más información en el sitio web oficial:

Enlace

Sitio web oficial Desarrolladores de Huawei

Guía de desarrollo

La comunidad oficial de HMS Core en Reddit

Demo y código de muestra

Discusión o Desbordamiento de pila

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *