Con todo el revuelo que rodea a los macrodatos y las formas en que las empresas lo aprovecharán, es posible que te preguntes «¿a qué tipos de datos nos referimos?». Lo primero que hay que entender es que no todos los datos son iguales. Esto significa que los datos generados por las aplicaciones de redes sociales son completamente diferentes de los datos generados por los sistemas de punto de venta o cadena de suministro. Algunos datos están estructurados, pero la mayoría no están estructurados. La forma en que se recopilan, procesan y analizan estos datos depende de su formato. Para aclarar las cosas, analizaremos las diferencias entre datos estructurados y datos no estructurados.
¿Qué son datos estructurados (Structured Data)?
Los datos estructurados se clasifican con mayor frecuencia como datos cuantitativos, y es el tipo de datos con el que la mayoría de nosotros estamos acostumbrados a trabajar. Piensa en datos que encajen perfectamente en campos y columnas fijos en bases de datos relacionales y hojas de cálculo.
Los datos estructurados están muy organizados y se comprenden fácilmente mediante el lenguaje de máquina. Quienes trabajan con bases de datos relacionales pueden ingresar, buscar y manipular datos estructurados con relativa rapidez. Esta es la característica más atractiva de los datos estructurados.
El lenguaje de programación utilizado para administrar datos estructurados se denomina lenguaje de consulta estructurado, también conocido como SQL. Este lenguaje fue desarrollado por IBM a principios de la década de 1970 y es particularmente útil para manejar relaciones en bases de datos.
Los datos estructurados revolucionaron los sistemas basados en papel en los que las empresas confiaban para la inteligencia empresarial hace décadas. Si bien los datos estructurados siguen siendo útiles, más empresas buscan deconstruir datos no estructurados para oportunidades futuras.
Se ha creado un formato de etiquetado o marcado, dentro del propio lenguaje HTML de las páginas, que permite identificar y describir explícitamente diferentes tipos de información: marcado de datos estructurados que Google utiliza para las búsquedas.
Ejemplos de datos estructurados
Los ejemplos de datos estructurados incluyen nombres, fechas, direcciones, números de tarjetas de crédito, información bursátil, geolocalización y más.
Con los datos estructurados es posible mejorar el SEO de tus páginas web.
La evolución de la tecnología proporciona nuevas fuentes de datos estructurados que se producen a menudo en tiempo real y en grandes volúmenes. Las fuentes de datos se dividen en dos categorías:
Generados por computadora o por máquina
Los datos generados por máquina generalmente se refieren a datos que son creados por una máquina sin intervención humana.
Los datos estructurados generados por máquina pueden incluir lo siguiente:
- Datos del sensor: los ejemplos incluyen etiquetas de identificación por radiofrecuencia, medidores inteligentes, dispositivos médicos y datos del Sistema de posicionamiento global. Las empresas están interesadas en esto para la gestión de la cadena de suministro y el control de inventario.
- Datos de registro web: cuando operan servidores, aplicaciones, redes, etc., capturan todo tipo de datos sobre su actividad. Esto puede equivaler a enormes volúmenes de datos que pueden ser útiles, por ejemplo, para hacer frente a acuerdos de nivel de servicio o para predecir brechas de seguridad.
- Datos de punto de venta: cuando el cajero desliza el código de barras de cualquier producto que está comprando, se generan todos los datos asociados con el producto.
- Datos financieros: muchos sistemas financieros ahora son programáticos; se operan según reglas predefinidas que automatizan los procesos. Los datos de negociación de acciones son un buen ejemplo de esto. Contiene datos estructurados como el símbolo de la empresa y el valor en dólares. Algunos de estos datos son generados por máquinas y otros son generados por humanos.
Generados por humanos
Estos son datos que los humanos, en interacción con las computadoras, suministran.
Los ejemplos de datos estructurados generados por humanos pueden incluir los siguientes:
- Datos de entrada: se trata de cualquier dato que un ser humano pueda introducir en una computadora, como nombre, edad, ingresos, respuestas de encuestas no libres, etc. Estos datos pueden resultar útiles para comprender el comportamiento básico del cliente.
- Datos de flujo de clics: los datos se generan cada vez que hace clic en un enlace en un sitio web. Estos datos se pueden analizar para determinar el comportamiento del cliente y los patrones de compra.
- Datos relacionados con los juegos: se pueden registrar todos los movimientos que hagas en un juego. Esto puede resultar útil para comprender cómo se mueven los usuarios finales en una cartera de juegos.
¿Qué son datos no estructurados (Unstructured Data)?
Los datos no estructurados se clasifican con mayor frecuencia como datos cualitativos y no pueden procesarse y analizarse utilizando herramientas y métodos convencionales.
Los datos no estructurados son difíciles de deconstruir porque no tienen un modelo predefinido, lo que significa que no se pueden organizar en bases de datos relacionales. En cambio, las bases de datos no relacionales o NoSQL son las más adecuadas para administrar datos no estructurados.
Otra forma de administrar datos no estructurados es hacer que fluyan a un lago de datos, lo que les permite estar en su formato sin formato y no estructurado.
Más del 80 por ciento de todos los datos generados en la actualidad se consideran no estructurados, y este número seguirá aumentando con la prominencia del Internet de las cosas.
Encontrar la información escondida dentro de los datos no estructurados no es una tarea fácil. Requiere análisis avanzado y un alto nivel de experiencia técnica para realmente marcar la diferencia. Este puede ser un cambio costoso para muchas empresas.
Sin embargo, quienes pueden aprovechar datos no estructurados tienen una ventaja competitiva. Si bien los datos estructurados nos brindan una visión general de los clientes, los datos no estructurados pueden brindarnos una comprensión mucho más profunda del comportamiento y la intención del cliente.
Por ejemplo, las técnicas de minería de datos aplicadas a datos no estructurados pueden ayudar a las empresas a aprender hábitos de compra y tiempos, patrones en las compras, sentimiento hacia un producto específico y mucho más.
Los datos no estructurados también son clave para el software de análisis predictivo. Por ejemplo, los datos de los sensores conectados a la maquinaria industrial pueden alertar a los fabricantes de una actividad extraña antes de tiempo. Con esta información, se puede realizar una reparación antes de que la máquina sufra una avería costosa.
Ejemplos de datos no estructurados
Los ejemplos de datos no estructurados incluyen texto, vídeo, audio, actividad móvil, actividad en redes sociales, imágenes satelitales, imágenes de vigilancia; la lista sigue y sigue.
Echemos un vistazo a unos ejemplos de datos no estructurados para comprender mejor la fuente, el carácter y la importancia de cada uno.
- Registros médicos: la atención médica genera grandes volúmenes de datos no estructurados generados por humanos. Los datos generados por máquinas incluyen datos recopilados por dispositivos de imágenes médicas como endoscopios, laparoscopios, robots quirúrgicos, cámaras de vídeo de emergencia y datos de bioseñales de monitores de pacientes en quirófanos y unidades de cuidados intensivos. Los dispositivos portátiles de control de la salud también generan una gran cantidad de datos. Los datos generados por humanos podrían ser las conversaciones entre pacientes y profesionales de la salud que se graban en forma de texto o como archivos de audio.
- Redes sociales: las redes sociales se han convertido en una parte intrínseca del estilo de vida de miles de millones de personas en todo el mundo, y para muchos, es el canal preferido cuando se trata de ver, crear o compartir información. Las redes sociales también son utilizadas por empresas, gobiernos y organizaciones en dominios como compras, entretenimiento, educación, gestión de crisis y política. Las plataformas de redes sociales generan datos en todo momento, las 24 horas del día, en todo el mundo. Esto ha llevado a una enorme proliferación de datos que podrían estar en forma de texto, imágenes, vídeos, audio o ubicaciones geográficas.
- Documentos comerciales: la multitud de documentos que se utilizan para realizar negocios, como correos electrónicos, presentaciones e informes, contienen datos en forma de texto, imágenes, números o vídeos y no están estructurados. Estos documentos forman importantes repositorios de conocimiento dentro de la organización, pero actualmente, en su mayoría, se subutilizan si no se pueden asignar a sistemas de información estructurados.
- Contenido de medios de imágenes, vídeo y audio: la industria de los medios y el entretenimiento, los sistemas de vigilancia, los editores profesionales e incluso las personas crean constantemente contenido de imágenes, vídeo y audio. Estos archivos multimedia a menudo se almacenan en bases de datos estructuradas, pero dichas bases de datos no procesan ni comprenden el contenido real de los archivos multimedia, que se encuentran en forma de datos no estructurados.
- Comunicaciones en chat en vivo, mensajería y reuniones web: en la actualidad, las discusiones tanto profesionales como personales tienen lugar a través de una variedad de plataformas de comunicación. Aplicaciones populares como WhatsApp, plataformas de conferencias web como Zoom o Skype y herramientas de colaboración como Slack son algunos de los lugares donde se crean datos en forma de audio y texto no estructurados. Para obtener una visión unificada de un cliente en particular, es necesario no solo integrar datos no estructurados creados en diferentes plataformas, sino también estandarizarlos e interpretarlos.
Diferencias fundamentales entre los datos estructurados y los no estructurados
Actualmente, dentro del Big Data, se distinguen dos tipos de datos: datos estructurados y datos no estructurados. Veamos cuál es la diferencia entre ambos.
Los datos estructurados están altamente organizados y formateados de tal manera que se pueden buscar fácilmente en bases de datos relacionales. Los datos no estructurados no tienen un formato u organización predefinidos, lo que hace que sea mucho más difícil de recopilar, procesar y analizar.
Además de ser recopilados, procesados y analizados de diferentes formas, los datos estructurados y no estructurados residirán en bases de datos completamente diferentes.
Almacenamiento
El lugar de los datos estructurados es la base de datos relacional y el almacén de datos, por otro lado. Los datos no estructurados residen en aplicaciones, bases de datos NoSQL, almacenes de datos y lagos de datos.
Facilidad de análisis
Los datos estructurados son modelos de datos predefinidos, generalmente solo texto y fáciles de buscar y analizar, mientras que los datos no estructurados no son modelos de datos predefinidos, pueden venir en texto, imágenes, sonido, vídeos u otros formatos, y su búsqueda y análisis es más difícil.
Flexibilidad
Los datos estructurados son menos flexibles y dependen del esquema, mientras que los datos no estructurados son muy flexibles y no dependen del esquema, lo que significa la ausencia de esquema.
¿Qué son los datos semiestructurados?
Los datos semiestructurados son información que no reside en una base de datos relacional ni en ninguna otra tabla de datos, pero que, sin embargo, tiene algunas propiedades organizativas para facilitar su análisis, como las etiquetas semánticas.
Un buen ejemplo de datos semiestructurados es el código HTML, que no restringe la cantidad de información que desea recopilar en un documento, pero impone la jerarquía a través de elementos semánticos.
Los datos semiestructurados se encuentran en el medio entre los datos estructurados y no estructurados. Contiene ciertos aspectos que están estructurados y otros que no.
Por ejemplo, los rayos X y otras imágenes grandes consisten en gran parte en datos no estructurados, en este caso, una gran cantidad de píxeles. Es imposible buscar y consultar estos rayos X de la misma manera que se puede buscar, consultar y analizar una gran base de datos relacional. Después de todo, todo lo que busca son píxeles dentro de una imagen. Afortunadamente, hay una forma de evitar esto. Aunque los archivos en sí pueden constar de no más de píxeles, palabras u objetos, la mayoría de los archivos incluyen una pequeña sección conocida como metadatos. Esto abre la puerta a poder analizar datos no estructurados.
Escribe aquí tu comentario