Usar inteligencia artificial para realizar tareas en páginas web
Esa es la idea de OpenAI con Operator, un nuevo agente capaz de ejecutar tareas de manera independiente a partir de las indicaciones de los usuarios, como escribir, hacer clics o desplazarse por una interfaz de un navegador.
Entre las tareas que este agente puede realizar se encuentran completar formularios, realizar pedidos de comida e incluso crear memes. Para lograrlo, utiliza las mismas interfaces que las personas emplean en su día a día, según explica la compañía.
Operator funciona gracias a un modelo denominado Computer Using Agent (CUA), el cual combina las capacidades de visión de GPT-4 y el razonamiento avanzado con aprendizaje por refuerzo.
Esta tecnología le permite interactuar con interfaces gráficas de usuario existentes. Dicho de manera sencilla, es capaz de utilizar directamente los botones, menús y campos de texto que aparecen en las pantallas.

El agente procesa los sitios mediante capturas de pantalla y puede realizar cualquier acción accesible mediante un mouse y teclado, sin necesidad de integraciones específicas con APIs.
Además, tiene la capacidad de autocorregir errores y superar desafíos específicos. Si se encuentra con un obstáculo, devuelve el control al usuario para resolver el problema.
Así funciona Operator
Para utilizarlo, basta con describir la tarea deseada como si se tratara de un prompt, y Operator se encarga del resto. Aunque la IA actúa de forma autónoma, los usuarios pueden decidir tomar el control en cualquier momento.
El sistema también solicita asistencia del usuario para tareas delicadas como inicio de sesión, ingreso de información de pago o resolución de CAPTCHAs.
Es posible personalizar su funcionamiento mediante instrucciones específicas, como seleccionar una aerolínea preferida o establecer criterios de ofertas al reservar un hotel. Además, puede gestionar varias tareas simultáneamente a través de diferentes conversaciones.
Los controles del agente
Según OpenAI, Operator se lanzará inicialmente a un público limitado con el objetivo de que la IA "aprenda rápidamente y refine sus capacidades" mediante retroalimentación obtenida en escenarios reales.

Operator implementa tres niveles de protección para garantizar la seguridad de los usuarios.
- Control del usuario: Este nivel asegura que el usuario introduzca la información confidencial directamente en el navegador, el cual no recopila dichos datos. También incluye confirmaciones antes de acciones significativas, como el envío de correos, rechaza tareas de alto riesgo, como transacciones bancarias o solicitudes de empleo, y cuenta con un modo de vigilancia para identificar errores en los sitios web.
- Gestión de la privacidad: Ofrece la posibilidad de desactivar el uso de los datos generados por Operator para mejorar los modelos de OpenAI. Asimismo, permite eliminar por completo el historial de navegación.
- Defensas contra amenazas externas: Protege al sistema de sitios maliciosos que intenten engañarlo mediante mensajes ocultos, códigos dañinos o intentos de phishing.
Disponibilidad de Operator
Actualmente, Operator se encuentra en una etapa preliminar de investigación. Aunque puede manejar una amplia variedad de tareas, todavía está en proceso de aprendizaje y evolución, lo que implica que puede cometer errores, por ejemplo, al crear presentaciones o gestionar calendarios.
Inicialmente, Operator estará disponible únicamente para usuarios del plan Pro en Estados Unidos. Más adelante, se planea expandir sus funciones a los planes Plus, Teams y Enterprise.
Ver 0 comentarios