Muy buenas, les saluda Luis y para hoy les traigo otro nuevo tutorial.
En los últimos años, la conducción autónoma ha atraído la atención tanto del mundo académico como de la industria. Para conducir con seguridad, uno de los problemas fundamentales es percibir la estructura del carril con precisión en tiempo real. La detección sólida en el carril actual y los carriles cercanos no solo es crucial para el control lateral del vehículo y la localización precisa, sino también una herramienta poderosa para construir y validar mapas de alta definición.
3D-LaneNet [1] es una detección de línea de carril 3D con estimación de incertidumbre. Este método se basa en una representación de cuadrícula de BEV (vista de pájaro) semilocal, que descompone las líneas de carril en segmentos de línea de carril simples. Este método combina el modelo parametrizado de aprendizaje de segmento de línea y la agrupación de segmentos de línea para convertirse en la incorporación profunda de características de toda la línea de carril. Esta combinación puede extender el método a la topología de carril compleja, la curvatura y la geometría de la superficie. Además, este método es el primero en proporcionar un método basado en el aprendizaje automático para estimar la incertidumbre para las tareas de detección de líneas de carril.
La entrada a la red es una imagen monocular. Este método utiliza el método de la columna vertebral de doble ruta propuesto previamente por [2], utilizando un codificador y un módulo de mapeo anti-perspectiva (IPM) para proyectar el mapa de características a una vista de pájaro (BEV).
La proyección utiliza la homografía definida por el ángulo de elevación de la cámara ϕ y la altura h para mapear el plano de la imagen con el plano de la carretera, como se muestra en la figura. El mapa de características final de BEV se divide espacialmente en una cuadrícula G compuesta de cuadrículas W × H no superpuestas. Al igual que en el método anterior, la proyección puede garantizar que cada píxel del mapa de características BEV corresponda a una posición de carretera predefinida, independientemente de los parámetros internos y la pose externa de la cámara.
Se supone que la línea de carril que pasa por cada cuadrícula se puede ajustar como un segmento de línea. Específicamente, la red regresa tres parámetros para cada cuadrícula:
- La distancia de desplazamiento lateral desde el centro de la cuadrícula.
- El ángulo de la línea recta y el desplazamiento de altura.
- Además de estos parámetros, la red también predice una puntuación de clasificación binaria, que indica la probabilidad de que un carril cruce una cuadrícula específica.
Después de proyectar las líneas de carril intersectadas por la cuadrícula en el plano de la carretera, use los puntos de la línea de carril GT para aproximar los segmentos de carril intersectados por la cuadrícula como una línea recta, y se pueden calcular el desplazamiento y el ángulo, que es el objetivo de la regresión GT .
Suponga que los segmentos de carril que pasan por cada cuadrícula son simples y están representados por un modelo paramétrico de baja dimensión. Específicamente, cada cuadrícula contiene un segmento de línea cuyos parámetros incluyen el desplazamiento desde el centro de la cuadrícula, la dirección y el desplazamiento de altura desde el plano de vista de pájaro. Esta cuadrícula semilocal representa un cambio continuo de la representación global (canal completo) a la representación local (nivel de píxel). Esta solución basada en segmentación, cada salida de la cuadrícula es más informativa que un solo píxel, puede inferir la estructura de la línea del carril local, pero no es tan limitada como la solución global, porque la solución global debe obtener la topología de todo el carril, curvatura y complejidad de la geometría de la superficie.
Esta representación subdivide la curva de carril en múltiples segmentos de carril, pero no obtiene explícitamente ninguna relación entre ellos. Las cuadrículas adyacentes tendrán campos receptivos superpuestos y producirán resultados relacionados, pero no se captura el hecho de que varias cuadrículas representan el mismo carril. Para generar una curva de carril completa, el papel aprende la incrustación de cada cuadrícula, que cumple con la consistencia global a lo largo del carril. De esta manera, los carriles pequeños se pueden agrupar en una curva completa.
Además, modelando la salida de la red como una distribución gaussiana y estimando sus valores de varianza y media, se puede lograr la estimación de la incertidumbre. Opere en los parámetros de cada segmento de línea de carril y combínelos para generar la matriz de covarianza final para los puntos de cada línea de carril. A diferencia de los parámetros de segmento de línea que se aprenden localmente a lo largo de la cuadrícula, el error empírico requerido para que este método entrene la incertidumbre depende de todas las cuadrículas que componen el carril completo y realizan inferencias globales.
Conclusión
La eficacia del método se demuestra en experimentos extensos que logran resultados de vanguardia para la detección de carriles 3D basada en cámaras, al mismo tiempo que muestra la capacidad de generalizar a topologías complejas, curvaturas y geometrías de carreteras, así como a diferentes cámaras.
Referencias
- Netalee Efrat, Max Bluvstein, Noa Garnett, Dan Levi Detección semilocal 3D de carriles y estimación de la incertidumbre
- Noa Garnett, Rafi Cohen, Tomer Pe’er, Roee Lahav, Dan Levi.3D-LaneNet: Detección 3D de múltiples carriles de extremo a extremo
Añadir comentario