Juan Pablo Lázaro / 07 Abril 2021

Barreras en la gestión de datos para el aprovechamiento de la inteligencia artificial

Lecciones del proyecto COGNOSFOOD

En julio de 2020, se aprobó por parte del Ministerio de Asuntos Económicos y Transformación Digital el Plan España Digital 2025. Se trata de un ambicioso plan que define un conjunto de políticas y acciones estratégicas que buscan modernizar tanto el sector público, a través de reformas estructurales, como el sector privado, definiendo 10 ejes estratégicos orientados a relanzar el crecimiento económico, la reducción de la desigualdad, el aumento de la productividad y en aprovechamiento de todas las oportunidades que aportan las nuevas tecnologías. Dentro de estos 10 ejes, dos de ellos destacan especialmente. Por un lado, el “Eje 7 Acelerar la digitalización del modelo productivo mediante proyectos tractores de transformación digital en sectores económicos estratégicos como el Agroalimentario, Movilidad, Salud, Turismo, Comercio o Energía, entre otros”, y por otro el “Eje 9. Transitar hacia una economía del dato, garantizando la seguridad y privacidad y aprovechando las oportunidades que ofrece la Inteligencia Artificial con el objetivo de que, al menos, el 25% de empresas usen Inteligencia Artificial y Big Data dentro de cinco años”. Coincidiendo con la publicación de este plan, AINIA inició su andadura en el proyecto COGNOSFOOD, justo en el ámbito donde ambos ejes se encuentran.

AINIA lleva más de 10 años desarrollando activamente proyectos avanzados en el desarrollo de tecnologías y soluciones TIC avanzadas aplicadas al sector agroalimentario (y otros como el farmacéutico, cosmético y químico) reforzando la competitividad de las empresas, y ayudándoles a crear productos singulares y deseables por los consumidores, de alta calidad y seguros para el consumidor, sin perder de vista la eficiencia, y siempre desde una perspectiva de puesta en valor de los datos que se generan en las operaciones clave de una empresa de los sectores antes mencionados. En este marco, de trabajo, AINIA se encuentra desarrollando el proyecto COGNOSFOOD, financiado por el IVACE y fondos FEDER cuyo principal objetivo es el desarrollo de una plataforma digital que integre diversas capacidades relacionadas con modelos de inteligencia artificial clave para el desarrollo de productos seguros, de una calidad homogénea, optimizando su coste de producción y haciendo eficiente el proceso de integración con la cadena de valor aguas arriba y aguas abajo. Además, COGNOSFOOD va a permitir integrar diferentes modelos predictivos, de simulación de procesos, etc, desarrollados con tecnologías Deep learning y coordinarlos desde un punto de vista global, manteniéndolos a lo largo de su vida útil.

El desarrollo de técnicas de machine learning aplicadas al ámbito de la homogenización de la calidad o la cuantificación de riesgo microbiológico exigen la recopilación de una gran cantidad de datos para poder desarrollar modelos capaces de anticiparse a un problema de seguridad alimentaria en planta, e incluso identificar las causas de productos fuera de especificaciones para poder corregirlas. Sin embargo, el hecho de recopilar datos de manera masiva y tomar decisiones basadas en dichos datos no es una operación que deba tomarse a la ligera.

A raíz del desarrollo del proyecto COGNOSFOOD, nos hemos dado cuenta de que existen grandes carencias y desconocimiento en lo relativo a como recoger datos que puedan ser de utilidad para el desarrollo de la inteligencia artificial en las empresas. Desde AINIA, queremos aprovechar para identificar un conjunto de barreras y dificultades que se dan de manera muy frecuente en el sector agroalimentario a la hora de gestionar datos masivos y convertirlos en valor mediante técnicas de inteligencia artificial. Posiblemente, otros sectores también se vean reflejados en estos aspectos:

  1. Recoger datos es una tarea compleja que requiere organización y una metodología sólida

Hasta no hace muchos años, las iniciativas de inteligencia artificial basadas en datos en una empresa productiva se limitaban a experimentos concretos muy focalizados y para los que se recogían datos prácticamente de manera artesanal, para poder construir un modelo para algún proceso limitado. Hoy en día, cuando pensamos en aprovechamiento de datos, estamos todavía en un entorno muy tradicional y poco automatizado y profesionalizado, aunque el potencial es enorme ya que las nuevas técnicas disponibles, como el Deep learning, son muy prometedoras. Aunque muchas empresas piensan que recogen datos de sus Scada, o de sus MES; en la mayoría de casos no existe un protocolo organizado para su gestión almacenamiento, control de su validez, control de datos faltantes, gestión de históricos, copias de seguridad… Sí existe este control, en determinados registros necesarios para evidenciar el adecuado control de determinadas operaciones (ej, analíticas) frente a requisitos regulatorios pero no está generalizado para otros datos de interés. Los datos, tanto aquellos que se obtienen automáticamente desde un sensor colocado en una línea, como aquellos que se obtienen por parte del laboratorio de la empresa o de un laboratorio externo, deben ser gestionados adecuadamente, etiquetados y asociados a un contexto productivo, a un lote a un producto, es decir, deben contextualizarse. Sólo así lograremos beneficiarnos del dato. A todo este contexto alrededor del dato lo llamamos metadatos, es decir, los datos que describen nuestro dato, y que realmente son la clave de que podamos reaprovechar un dato y deben tenerse en cuenta como parte de la metodología que implantemos en nuestra organización.

  1. Los datos en crudo o “raw data” nos dicen poco, es necesario caracterizarlos y conocerlos antes de ponernos a procesarlos y tratar de extraerles valor.

Supongamos que soy capaz de recoger datos y de almacenarlos en algún repositorio de datos de la tecnología que elijamos. A estos datos los llamamos datos en crudo o raw data, porque nos llegan tal cual prácticamente del sensor, o del laboratorio, o de la inspección visual de un operario de calidad. Este dato en crudo es como el mineral que extraemos de una mina, y para que tenga valor aún queda aplicarles procesos de transformación. Pero antes de eso, en esta etapa toca preguntarse, ¿conocemos nuestros datos? ¿conocemos su variabilidad? ¿sabemos si esa gran cantidad de datos que tenemos realmente es significativa y representativa del fenómeno que describen? ¿sabemos qué carencias de datos tenemos y qué limitaciones? En este punto, queremos llamar la atención de la necesidad de herramientas y procedimientos estadísticos adecuados para poder conocer a nuestros datos, tal y como conocemos cómo funciona mi máquina de extrusión o cómo funciona el horno de nuestra línea favorita. Disponer de herramientas capaces de caracterizar y describir los datos que capturamos, nos da una idea del potencial de dichos datos y si realmente tenemos que adaptar nuestros protocolos de recogida para lograr metas más ambiciosas con ellos.

  1. Vida útil de los datos, y por lo tanto de los modelos matemáticos en los que se basan

Hasta hace pocos años, los problemas de inteligencia artificial se centraban en recoger un conjunto de datos, lo más extensos posibles con numerosas repeticiones, con la finalidad de construir un modelo que, por ejemplo, sea capaz de predecir si mis cereales saldrán bien tostados del horno en función de los datos de todo el proceso productivo. Pero entonces, ¿qué pasa si cambio de horno o si cambio de proveedor y no tengo datos de ese nuevo horno ni de ese proveedor? ¿Puedo usar ese modelo en otra línea que es prácticamente igual? ¿Ya no me vale el modelo predictivo que tanto me costó desarrollar? La respuesta sería “depende”, pero es muy probable que no siga siendo válido, es decir, que la vida útil de ese modelo y de esos datos haya llegado a su fin. Por eso, hoy en día, la aproximación debe ser más dinámica, como por ejemplo teniendo en cuenta el largo plazo. Los datos irán cambiando al igual que las tolerancias de mi horno o de los engranajes de la cinta transportadora y por lo tanto, debemos ser capaces de construir sistemas que sean flexibles y que cambien con la propia línea. Además, existe el potencial de que desarrollemos un conocimiento basado en datos de una línea y que, si otra línea se parece mucho, también pueda aplicarlo a esta con buenos resultados. A este tipo de técnicas se les conoce como transfer learning y están en plena investigación en el campo de la inteligencia artificial. Eso sí, no pensemos que si los datos han llegado al final de su vida útil no valen para nada. No nos deshagamos de datos históricos ya que quizá podamos emplearlos en un futuro para enriquecer algún modelo o para comparar situaciones productivas pasadas con las actuales.

  1. Disponer de una infraestructura computacional especializada, ya sea “in-premise” o “cloud”

En general, la mayoría de las empresas, no disponen de una infraestructura especializada para el tratamiento de datos masivos, aunque con algunas excepciones. Hasta el momento no ha sido necesario puesto que o bien los datos no se adquirían de manera tan masiva o no se sabía muy bien qué hacer con ellos a medida que se iban generando y se dejaban perder. Si nos planteamos aprovechar los datos que genera mi organización en sus tareas clave, comienza a ser interesante disponer de una infraestructura computacional, separada del sistema de información doméstico de la empresa. Este sistema separado debe ser capaz de procesar datos, caracterizarlos y poder aprovechar su potencial. Los datos pueden necesitar moverse, o bien almacenarse y ello exige un procesamiento, computación, capacidad en la red. Para hacer realidad esta infraestructura podemos confiar en disponer equipos propios para su tratamiento (in-premise) o confiar en proveedores externos que me ayuden con la infraestructura (cloud). En cualquiera de los entornos, es importante disponer en las propias empresas, de personal especializado en el tratamiento de datos o formar a personal propio en esa dirección, además de confiar en proveedores externos capacitados para ayudar con el tratamiento y poder extraer el valor que los datos tienen.

En AINIA disponemos de experiencia en todos estos ámbitos después de haber analizado con motivo del proyecto COGNOSFOOD, un buen número de empresas y modelos productivos del sector agroalimentario y otros afines. Además, AINIA dispone de la sensibilidad adecuada gracias a la disponibilidad de equipos multidisciplinares que construyen valor en torno a los datos que somos capaces de computar y de los procesos que somos capaces de describir con los modelos de inteligencia artificial que desarrollamos.

Para hacer realidad en Eje 9 del programa España Digital 2025, todavía queda mucho por hacer, y AINIA es un socio fundamental que puede acompañar a las empresas a hacer realidad el aprovechamiento del dato de manera realista, con rigor, de manera duradera, e impactando directamente sobre indicadores clave de la empresa como la competitividad, y sobre el valor final percibido por clientes y consumidores de los productos.

  Logo FEDER Ivace mayo 2019

Juan Pablo Lázaro (14 artículos)

Noticias
relacionadas

icono izquierdaicono derecha

¿Te ha interesado este tema?
Contacta con nosotros

He leído y acepto la política de privacidad

Acepto recibir comunicaciones por parte de AINIA.

Juan Pablo Lázaro

Suscríbete a nuestra newsletter

Mantente al día de lo más destacado sobre innovación y nuevas tecnologías.
SUSCRIBIRME
close-link

Subscribe to our newsletter

Sign-up to get the latest news straight to your inbox.
ENVIAR
Give it a try, you can unsubscribe anytime.