Tu Agente de IA Entiende Audios, Imágenes y Documentos | Runia
Inteligencia Artificial5 min de lectura9 de abril de 2026

Tu Agente de IA Entiende Audios, Imágenes y Documentos

Los agentes de Runia ahora procesan notas de voz, fotos y documentos directamente desde WhatsApp con IA.

#IA conversacional#audio WhatsApp#analisis imagenes#documentos#transcripcion
Agente de IA que entiende audio e imagenes

Tu agente de WhatsApp acaba de mejorar bastante. Ahora no solo lee texto: tambien entiende las notas de voz que le mandas, puede "ver" las fotos que le envias, y leer documentos adjuntos. Todo sin salir de la conversacion.

Que hay de nuevo

  • Audio a texto: Manda una nota de voz y el agente la transcribe automaticamente con Whisper
  • Vision de imagenes: Enviale una foto y el agente la analiza con GPT-4o vision
  • Documentos: Adjunta un PDF o Word y el agente extrae y analiza el contenido

Notas de voz → texto automatico

Si preferis hablar en vez de escribir, ahora podes. El agente recibe tu nota de voz, la transcribe con la tecnologia Whisper de OpenAI, y responde como si le hubieras escrito. Ideal para cuando vas manejando o tenes las manos ocupadas.

Analisis de imagenes

Mandale una foto de un producto, un comprobante de pago, o un problema que necesitas resolver. El agente "ve" la imagen usando vision de IA y responde con informacion relevante. Por ejemplo, si le mandas una foto de un producto de catalogo, te puede decir precio y disponibilidad.

Lectura de documentos

Si necesitas consultar algo en un documento, simplemente adjuntalo al chat. El agente extrae el texto y responde tus preguntas basandose en el contenido. Funciona con PDFs, documentos de Word y otros formatos comunes.

Como funciona

Todo se procesa dentro de la misma conversacion de WhatsApp. No necesitas instalar nada extra ni cambiar de app. El agente detecta automaticamente si le mandaste audio, imagen o documento y usa el modelo adecuado para procesarlo. La respuesta es casi inmediata.

Preguntas frecuentes

Si, Whisper transcribe audios de cualquier duracion. El agente procesa el texto completo y responde a todo lo que dijiste.

Cualquier imagen que mandes por WhatsApp: fotos de productos, comprobantes, capturas de pantalla, documentos escaneados. El agente usa GPT-4o vision para interpretar el contenido.

No, ya esta activo. Simplemente manda un audio, imagen o documento como harías normalmente y el agente lo procesa automaticamente.

Tarda uno o dos segundos mas porque necesita procesar el archivo, pero la respuesta sigue siendo rapida. No vas a notar una diferencia grande.

El procesamiento funciona mejor en espanol e ingles, pero puede manejar documentos en otros idiomas tambien. La calidad de la respuesta depende del idioma del documento.

Esta mejora hace que la experiencia de chatear con tu agente sea mucho mas natural. Podes comunicarte como te sea mas comodo: texto, voz, imagenes o documentos.

Si queres ver que mas hay de nuevo: Ver todas las novedades

¿Listo para entrar en la nueva era?

Agendá hoy una consultoría gratuita. Sin compromiso. Tu agente puede estar operativo en menos de 4 semanas.

Sin compromiso · Consultoría gratuita