Por: Mary Branscombe
El aprendizaje automático está resultando tan útil, que es tentador suponer que puede resolver todos los problemas y que se aplica a todas las situaciones. Como cualquier otra herramienta, el aprendizaje automático es útil en áreas particulares, especialmente para problemas que siempre ha tenido, pero sabía que nunca podría contratar a suficientes personas para solucionarlos; o para problemas con un objetivo claro, pero no hay un método obvio para resolverlo.
Aun así, es probable que todas las organizaciones aprovechen el aprendizaje automático de una manera u otra, ya que el 42% de los ejecutivos le dijeron recientemente a Accenture que esperan que la inteligencia artificial (IA) esté detrás de todas sus nuevas innovaciones para el 2021. Pero obtendrá mejores resultados si observa más allá de la exageración y evita estos mitos comunes, al comprender lo que el aprendizaje automático puede y no puede ofrecer.
Mito: El aprendizaje automático es IA
El aprendizaje automático y la inteligencia artificial se usan frecuentemente como sinónimos, pero si bien el aprendizaje automático es la técnica más exitosamente lograda en los laboratorios de investigación en el mundo real, la IA es un campo amplio que abarca áreas como visión artificial, robótica y procesamiento del lenguaje natural, así como enfoques tales como la satisfacción de restricciones que no involucran el aprendizaje automático. Piense en ello como algo que hace que las máquinas parezcan inteligentes. Ninguno de estos es el tipo de “inteligencia artificial” general que algunas personas temen que pueda competir o incluso atacar a la humanidad.
Tenga cuidado con las palabras de moda y sea preciso. El aprendizaje automático se trata de aprender patrones y predecir resultados de grandes conjuntos de datos; los resultados pueden parecer “inteligentes”, pero en el fondo se trata de aplicar estadísticas a una velocidad y escala sin precedentes.
Mito: Todos los datos son útiles
Necesita datos para el aprendizaje automático, pero no todos los datos son útiles para el aprendizaje automático. Para entrenar su sistema, necesita datos representativos que cubran los patrones y resultados que su sistema de aprendizaje automático deberá manejar. Necesita datos que no tengan patrones irrelevantes incluidos (como fotos que muestran a todos los hombres de pie y todas las mujeres sentadas, o todos los autos en el garaje y todas las bicicletas en un campo fangoso) porque el modelo de aprendizaje de máquina que genere reflejará esos patrones excesivamente específicos y los buscará en los datos con los que lo utilice. Todos los datos que utiliza para el entrenamiento deben estar bien etiquetados, y etiquetados con las características que coinciden con las preguntas que le hará al sistema de aprendizaje automático, lo cual requiere mucho trabajo.
No suponga que los datos que ya tiene son limpios, claros, representativos o fáciles de etiquetar.
Mito: Siempre se necesita mucha información
Los principales avances realizados recientemente en reconocimiento de imágenes, comprensión de lectura de máquina, traducción de idiomas y otras áreas, han sucedido gracias a la mejora en las herramientas, el hardware -como las GPU que pueden procesar grandes cantidades de datos en paralelo y grandes conjuntos de datos etiquetados, incluyendo ImageNet y el Stanford Question Answering Dataset. Pero gracias a un truco llamado aprendizaje por transferencia, no siempre se necesita un gran conjunto de datos para obtener buenos resultados en un área específica; en su lugar, puede enseñarle a un sistema de aprendizaje automático cómo aprender utilizando un gran conjunto de datos, y luego hacer que transfiera esa capacidad para aprender a su propio conjunto de datos de entrenamiento mucho más pequeño. Así es como funcionan las API de visión personalizada de Salesforce y Microsoft Azure: Solo necesita 30-50 imágenes que muestren lo que desea clasificar para obtener buenos resultados.
El aprendizaje de transferencia le permite personalizar un sistema entrenado previamente para su propio problema con una cantidad relativamente pequeña de datos.
Mito: Cualquiera puede construir un sistema de aprendizaje automático
Existen muchas herramientas y marcos de código abierto para el aprendizaje automático, e innumerables cursos que le muestran cómo usarlos. Pero el aprendizaje automático sigue siendo una técnica especializada; necesita saber cómo preparar datos y dividirlos para entrenamiento y pruebas, necesita saber cómo elegir el mejor algoritmo y qué heurística usar con él, y cómo convertirlo en un sistema confiable en producción. También necesita monitorear el sistema para asegurarse de que los resultados sigan siendo relevantes a lo largo del tiempo; ya sea que su mercado cambie o su sistema de aprendizaje automático sea lo suficientemente bueno como para terminar con un grupo diferente de clientes, debe seguir comprobando que el modelo todavía se ajusta a su problema.
Obtener el aprendizaje automático correcto requiere experiencia; si recién está comenzando, busque APIs para modelos previamente entrenados a los que puede llamar desde adentro de su código, mientras adquiere o contrata conocimientos en ciencia de datos y aprendizaje automático para construir sistemas personalizados.
Mito: Todos los patrones en los datos son útiles
Los que sufren de asma, las personas con dolor de pecho o enfermedad cardíaca, y cualquier persona que tenga 100 años de edad, tienen una tasa de supervivencia mucho más alta para la neumonía de lo que hubiese podido esperar. Tan alta, de hecho, que un sistema de aprendizaje automático simple diseñado para automatizar la admisión hospitalaria, podría enviarlos a casa (un sistema basado en reglas entrenado en los mismos datos que una red neuronal hizo exactamente eso). Desafortunadamente, la razón por la que tienen tasas de supervivencia tan altas es que siempre son admitidos inmediatamente porque la neumonía es muy peligrosa para ellos.
El sistema está viendo un patrón válido en los datos; simplemente no es un patrón útil para elegir a quién admitir (aunque ayudaría a una compañía de seguros a predecir los costos del tratamiento). Aún más peligrosamente, no sabrá que esos antipatrones inútiles están en su conjunto de datos a menos que ya los conozca.
En otros casos, un sistema puede aprender un patrón válido (como un controvertido sistema de reconocimiento facial que predijo con precisión la orientación sexual a partir de selfies) que no es útil porque no tiene una explicación clara y obvia (en este caso las fotografías parecen mostrar señales sociales como pose en vez de algo innato).
Los modelos de “caja negra” son eficientes, pero no dejan en claro qué patrón han aprendido. Los algoritmos más transparentes e inteligibles, como los Modelos Aditivos Generalizados, aclaran lo que el modelo ha aprendido para que pueda decidir si es útil implementarlos.
Mito: El aprendizaje de refuerzo está listo para usar
Prácticamente todos los sistemas de aprendizaje automático en uso en la actualidad, usan aprendizaje supervisado; en la mayoría de los casos, están entrenados en conjuntos de datos claramente etiquetados en los que los humanos han estado involucrados en la preparación. La conservación de estos conjuntos de datos requiere tiempo y esfuerzo, por lo que hay mucho interés en las formas de aprendizaje no supervisadas, especialmente el aprendizaje reforzado (RL, por sus siglas en inglés), donde un agente aprende por ensayo y error interactuando con su entorno y recibiendo recompensas por el comportamiento correcto. El sistema AlphaGo de DeepMind usó RL junto con aprendizaje supervisado para vencer a los jugadores Go de alto rango; y Libratus, un sistema construido por un equipo de Carnegie Mellon, usó RL junto con otras dos técnicas de IA para derrotar a algunos de los mejores jugadores de póker del mundo en el Texas Hold ‘Em sin límites (que tiene una estrategia de apuestas larga y compleja). Los investigadores están experimentando con RL en todo, desde la robótica hasta el software de seguridad de prueba.
Sin embargo, el RL es menos común fuera de la investigación. Google usa DeepMind para ahorrar energía en sus centros de datos, al aprender a enfriarlos de manera más eficiente; Microsoft usa una versión específica y limitada del RL llamada bandidos contextuales para personalizar los titulares de noticias de los visitantes de MSN.com. El problema es que pocos entornos del mundo real tienen recompensas fácilmente detectables y comentarios inmediatos, y es particularmente engañoso asignar recompensas cuando el agente toma múltiples acciones antes de que ocurra algo.
Mito: El aprendizaje automático es imparcial
Debido a que el aprendizaje automático aprende de los datos, replicará cualquier sesgo en el conjunto de datos. Es probable que la búsqueda de imágenes de los CEO muestre fotos de CEO blancos y masculinos, porque más CEO son blancos y hombres. Pero resulta que el aprendizaje automático también amplifica el sesgo.
El conjunto de datos COCO, que a menudo se usa para entrenar sistemas de reconocimiento de imágenes, tiene fotos de hombres y mujeres; pero se muestran más mujeres al lado del equipo de cocina y se muestra a más hombres con teclados y ratones, o raquetas de tenis y tablas de snowboard. Entrene el sistema con COCO y este asocia a los hombres con el hardware de computadora con más fuerza que las estadísticas en las fotos originales.
Un sistema de aprendizaje automático también puede agregar un sesgo a otro. Entrenar un sistema de aprendizaje automático con marcos populares para representar palabras como vectores que muestran las relaciones entre ellos, y aprenderá estereotipos como “el hombre es para la mujer como el programador de computadoras es para el ama de casa”, o el médico para la enfermera y el jefe para la recepcionista. Si usa ese sistema con uno que traduce entre idiomas que tienen pronombres como él y ella, como el inglés, a los que tienen pronombres neutrales al género, como el finlandés o el turco, “son un médico” se convierte en “él es un doctor” y “ellos son enfermeros” se convierte en “ella es enfermera”.
Obtener recomendaciones similares en un sitio de compras es útil, pero es problemático cuando se trata de áreas sensibles y puede producir un ciclo de retroalimentación; si se une a un grupo de Facebook que se opone a la vacunación, el motor de recomendación de Facebook sugerirá otros grupos que se centren en las teorías de conspiración o la creencia de que la Tierra es plana.
Es importante conocer los problemas de sesgo en el aprendizaje automático. Si no puede eliminar el sesgo en su conjunto de datos de entrenamiento, use técnicas como regularizar las asociaciones de género entre pares de palabras para reducir el sesgo o agregar elementos no relacionados a las recomendaciones y así evitar el ‘filtro burbuja’.
Mito: El aprendizaje automático solo se usa para bien
El aprendizaje automático potencia las herramientas antivirus, observa el comportamiento de los nuevos ataques para encontrarlos tan pronto como se lanzan. Pero igualmente, los hackers están utilizando el aprendizaje automático para probar las defensas de las herramientas de antivirus, así como para crear ataques de phishing a escala, mediante el análisis de grandes cantidades de datos públicos o analizando cuán exitosos fueron los intentos previos de phishing.
Mito: El aprendizaje automático reemplazará a las personas
Es común preocuparse de que la inteligencia artificial le quite empleos y ciertamente cambiará los trabajos que hacemos y cómo los hacemos; los sistemas de aprendizaje automático mejoran la eficiencia y el cumplimiento y reducen los costos. A la larga, creará nuevos roles en el negocio y hará que algunas posiciones actuales se vuelvan obsoletas. Pero muchas de las tareas que automatiza el aprendizaje automático simplemente no eran posibles antes, debido a la complejidad o escala; no podría contratar suficientes personas para mirar cada fotografía publicada en las redes sociales para ver si presenta su marca, por ejemplo.
Lo que el aprendizaje automático ya ha comenzado es a crear nuevas oportunidades comerciales, como mejorar la experiencia del cliente gracias al mantenimiento predictivo, y ofrecer sugerencias y apoyo a los responsables de la toma de decisiones empresariales. Al igual que con las generaciones anteriores de automatización, el aprendizaje automático puede liberar empleados para utilizar su experiencia y creatividad.
Fuente: http://www.cwv.com.ve/9-mitos-sobre-el-aprendizaje-automatico/