Bienvenido, soy Luis y aquí les traigo otro nuevo post.
Índice
Un modelo que entiende un video y sus subtítulos para ayudarlo a acelerarlo
¿Alguna vez ha tenido que ver 15 conferencias de material la noche anterior a un examen? ¿O enviar un informe sobre una película de 2 horas que no ha visto en la próxima hora? Yo se que tengo. Afortunadamente, mis videos de conferencias estaban marcados con el lugar donde comenzaba y terminaba el contenido para que pudiera leerlos. Pero, ¿y si esos marcadores no estuvieran allí? No temas: ¡HERO está aquí para salvarte!
“¿Qué es HERO y cómo me salvará?”
Podrías preguntar. Su pregunta será respondida, pero primero, déjeme darle un poco de contexto. Si ha leído algunas de mis publicaciones anteriores, probablemente sabrá que el aprendizaje automático se está moviendo hacia la dirección de modelos preentrenados a gran escala, que son modelos a los que se les da una gran cantidad de datos inicialmente y aprenden de ellos. Estos modelos pueden aplicar este conocimiento a una tarea específica para lograr mejores resultados que la mayoría de los demás.
Los modelos previamente entrenados como BERT, RoBERTa y ALBERT se han apoderado del campo de la PNL y el campo multimodal también está comenzando a desarrollarlos. Modelos como UNITER y Unicoder-VL han dado grandes pasos en el espacio de preentrenamiento de imagen + texto.
Sin embargo, un espacio que no se ha explorado tanto es el espacio de video + texto. Idealmente, esta debería ser una extensión muy natural. Después de todo, los videos son solo una secuencia de imágenes. Ha habido algunos intentos de abordar este espacio a través de modelos como CBT y UniViLM, pero no logran capturar un aspecto clave de los videos: su orden. En su lugar, tratan los videos y sus subtítulos como un montón de imágenes y texto sin considerar que un subtítulo solo es relevante para ciertos marcos y que el orden de los marcos es importante.
Para remediar esto, los investigadores de Microsoft Dynamics 365 AI Research proponen Hjerárquico mincodeR para Oel aprendizaje de mnirepresentation learning ( HERO). A diferencia de los modelos anteriores de video + texto, HERO tiene en cuenta la secuencia del video y cómo el texto se asigna a él.
Para hacer esto, HERO usa una estructura jerárquica de 2 capas. La primera capa utiliza un transformador «transmodal» que fusiona texto e imagen. Hace coincidir cada oración de los subtítulos con la parte correspondiente del video. La salida de este transformador «transmodal» es luego utilizada por un transformador «temporal» para aprender el orden de los diferentes cuadros del video. Este aprendizaje jerárquico es posible a través de 4 tareas principales de formación previa.
1. Modelado de lenguaje enmascarado (MLM)
En MLM, HERO recibe una oración de subtítulos con algunas palabras faltantes y los cuadros de video correspondientes y se espera que HERO genere esas palabras faltantes.
2. Modelado de cuadros enmascarados (MFM)
MFM es como MLM para imágenes excepto que se hace con todo el video como contexto. La entrada son todas las frases de subtítulos y la mayoría de los fotogramas de vídeo. El trabajo de HERO es generar los fotogramas que faltan.
3. Coincidencia de subtítulos de video (VSM)
VSM es lo que parece en su mayor parte. HERO recibe una oración de los subtítulos como una consulta y el contexto son todas las oraciones de subtítulos y todos los fotogramas de video. HERO tiene que aprender una alineación local, es decir, identificar los fotogramas del video a los que corresponde la oración de consulta.
Pero hay una trampa. Es posible que el video proporcionado ni siquiera coincida con los subtítulos. Esto ayuda a HERO a aprender cómo debería verse una oración y viceversa.
4. Modelado de orden de fotogramas (FOM)
Mientras que MLM, MFM y FOM se utilizan para entrenar el transformador «transmodal», FOM se utiliza para entrenar el transformador «temporal». Toma el resultado de las 3 tareas anteriores y un conjunto desordenado de fotogramas para predecir el orden correcto de los fotogramas.
Después de que las tareas de preentrenamiento funcionaron su magia y HERO fue entrenado, los investigadores probaron su poder en varias tareas diferentes, incluidas Subtítulos de video, Respuesta a preguntas de video, Recuperación de momentos de video (recuperar una parte específica del video basada en una oración) y Inferencia de video-lenguaje. HERO pudo vencer a los mejores modelos en todas estas tareas e incluso logró el Posición # 1 en el TVR (Recuperación de TV) y TVC (Subtítulos de TV) tablas de clasificación.
¡Así que no esperes, deja que HERO te salve de esas lecturas / documentales / películas de última hora!
Aquí está un enlace al periódico si quieres saber más sobre el modelo HERO, un enlace al código para que usted entrene a los suyos y haga clic en aquí para ver más de nuestras publicaciones y otros trabajos.
Referencias
- Lei, Jie, Licheng Yu, Tamara L. Berg y Mohit Bansal. Tvr: un conjunto de datos a gran escala para la recuperación de momentos de subtítulos de video. preimpresión de arXiv arXiv: 2001.09099 (2020).
- Chen, Yen-Chun, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng y Jingjing Liu. Uniter: Aprendiendo representaciones universales de imágenes y textos. preimpresión de arXiv arXiv: 1909.11740 (2019).
- Li, Gen, Nan Duan, Yuejian Fang, Ming Gong, Daxin Jiang y Ming Zhou. Unicoder-VL: un codificador universal para la visión y el lenguaje mediante preentrenamiento multimodal. En AAAI, págs. 11336-11344. 2020.
- Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li, Xilin Chen y Ming Zhou. 2020. Univilm: un modelo unificado de preentrenamiento en video y lenguaje para la comprensión y generación multimodal. preimpresión de arXiv arXiv: 2002.06353.
- Li, Linjie, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu y Jingjing Liu. HÉROE: Codificador jerárquico para preentrenamiento de omni-representación de video + lenguaje. EMNLP 2020.
Añadir comentario