Una fuente de datos es un conjunto de datos estadísticos, estudios de organismos públicos, informes y asociaciones que conforman un agrupamiento muy valioso para las organizaciones ya que, a través de ellas, pueden generar análisis que les ayudarán a tomar decisiones futuras.
Tipos de datos
En la actualidad, existen diferentes herramientas de software que permite abordar eficazmente el almacenamiento de datos y hacen que la gestión y el mantenimiento de los mismos sea sencillo, sin embargo, no todos los datos son igualmente sencillos de gestionar y se clasifican a través de tres categorías, los datos estructurados, los datos no estructurados y los datos semiestructurados.
Datos estructurados
Los datos estructurados son aquellos que se suelen encontrar en las bases de datos. Son archivos de tipo texto que se suelen representar mediante filas y columnas con títulos y que además, pueden ser ordenados y procesados de forma sencilla por cualquier herramienta de minería de datos. Los datos estructurados tienen perfectamente definidos el formato, la longitud y el tamaño de los mismos.
Datos no estructurados
Los datos no estructurados, por lo general son aquellos datos binarios que no tienen estructura interna identificable. Es un conjunto desorganizado de varios objetos que no presentan valor hasta que se ordenan y almacenan de forma organizada. Es posible aunque no siempre, convertir los datos no estructurados en datos estructurados el cual, es un proceso costoso que requiere mucho tiempo. Muchas veces, los datos se encuentran almacenados de cierta forma que hace que clasificarlos y categorizarlos sea una dura tarea debido a la incompatibilidad con un sistema de base de datos relacional. Por ejemplo, los textos en pdf son datos no estructurados.
Datos semiestructurados
Los datos semiestructurados son aquellos datos que no han sido previamente organizados en una base datos los cuáles, presentan información asociada como los metadatos que hace que la tarea del procesamiento para convertirlos en datos estructurados sea más sencilla. Son una forma de datos estructurados que no presentan la estructura básica de los mismos, pero contienen etiquetas u otros elementos que hacen que puedan ser identificados.