¿Desarrollo web automatizado con Inteligencia artificial?

Desarrollo Frontend con IA
Hernán Sosa at Digital Jump

Autor: Hernán Ariel

Web Developer

Día a día vemos como la inteligencia artificial está arrasando en el mundo. Sus capacidades de resolución van en incremento, a tal punto de que son capaces de llevar a cabo procesos complejos que incluso se creía imposibles. Por supuesto, aún estamos lejos de que éstas tecnologías sean totalmente perfectas. Como hemos visto y analizado en el artículo “El poder de la inteligencia artificial y la creatividad humana en la generación de contenido”, aún sigue siendo importante la mano del hombre para realizar ajustes.

Pero como todo lo que se relaciona a tecnología, lo que dijimos ayer, puede que al día siguiente deje de estar en vigencia y en éste artículo veremos si esto es así.

Recientemente se ha publicado un paper en Arxiv titulado “¿Qué tan lejos estamos de automatizar la ingeniería front-end?” donde se estudia la efectividad de la tecnología GPT-4V vs otros modelos generativos para poder desarrollar webs de forma automática. Según el artículo, es posible realizar webs más simples que reemplazan las codificadas a mano en el 49% de las veces y se consideran mejor diseñadas que las originales en el 64% de los casos.

Descripción general del método

Para medir el rendimiento en la tarea los autores seleccionaron 484 páginas web diversas del mundo real. Desarrollan un conjunto de métricas de evaluación automática que capturan tanto la similitud visual de alto nivel (usando lo que llamaron “incrustaciones CLIP”) como la coincidencia de elementos de bajo nivel (teniendo en cuenta las coincidencias de cuadros delimitadores, el contenido del texto, la posición y el color de los elementos visuales coincidentes).

También, fue utilizado un mismo prompt, el cual vemos a continuación:

Prompt IA

En cuanto a la medición del desempeño, los autores utilizan las siguientes métricas:

Similitud visual de alto nivel:

  • Similitud de CLIP: Mide la similitud entre la captura de pantalla de la página web de referencia y la captura de pantalla de la página web generada

Coincidencia de elementos de bajo nivel:

  • Coincidencia de bloques: Mide el tamaño total de los bloques de elementos visuales coincidentes entre la referencia y las páginas web generadas, en relación con el tamaño total de todos los bloques (coincidentes y no coincidentes). Este evalúa si todos los elementos visuales se reproducen correctamente sin que falten elementos importantes.
  • Texto: Mide, a través de una fórmula, la similitud en cuestión de caracteres entre el contenido del texto de los bloques coincidentes en la referencia y las páginas web generadas.
  • Posición: Calcula la similitud de la posición de bloques coincidentes comparando las coordenadas normalizadas de sus centros.
  • Color: Utilizando la fórmula de CIEDE2000 se evalúa la diferencia de percepción entre los colores de los bloques de texto coincidentes en la referencia y las páginas web generadas.

Los autores no combinan intencionalmente estas métricas en una puntuación agregada, ya que están diseñadas como puntuaciones de diagnóstico detalladas e, idealmente, los modelos deberían obtener una buena puntuación en todas las dimensiones. La Similitud CLIP captura un parecido visual de alto nivel, mientras que las métricas de coincidencia de elementos proporcionan un desglose detallado del rendimiento en diferentes aspectos de la generación de páginas web.

Resultados

Las métricas han demostrado que GPT-4V se desempeña mejor en esta tarea en comparación con otros modelos generativos de inteligencia artificial.

Benchmark de las IA

En el análisis humano descubren que en el 49% de los casos, las páginas web generadas por GPT-4V pueden reemplazar las páginas web de referencia originales en términos de apariencia visual y contenido. Sorprendentemente, en el 64% de los casos, las páginas web generadas por GPT-4V se consideran mejores que las páginas web de referencia originales.

¿Qué conclusiones sacamos de éste artículo?

Primero que nada, hay que tener en cuenta que las webs de referencia, no son necesariamente, según nuestro criterio, casos de alta o mediana complejidad.

Comparativa de Referencia vs Resultado final de la IA

Cuando analizamos algunos de esos casos, vemos que se trata de webs muy sencillas y no necesariamente representan un desafío superador para una inteligencia artificial, ni mucho menos para un desarrollador experimentado.

Modelos de referencia IA

Si bien, es notable el poder que ha tenido GPT-4V para poder llevar a cabo ésta tarea, creemos que aún así, estamos lejos de poder considerar como “amenaza” a éstos avances. Para hacer más enriquecedor al estudio, tal vez se deban ejecutar pruebas con sitios que tengan una complejidad mayor y desafiar realmente a GPT-4V para que veamos si realmente es capaz de reemplazar a un ingeniero front-end.

Y vos, ¿qué opinas? ¿Llegará el día en que las inteligencias artificiales nos reemplazarán? Estamos para leerte.