ciencia de los datos

En el mundo actual hablar de ciencia de los datos es hablar de un espacio a veces casi infinito de información que son el resultado de la traducción de alguna actividad en una abstracción numérica o simbólica que tiene un significado particular.

Por lo general hablar de datos es hablar de inputs que alimentan un proceso que genera nuevos resultados, como un circuito cerrado de entrada y salida o como el conocido dilema del huevo o la gallina, en el sentido de que si los datos son necesarios para generar un resultado que a la vez produce datos, entonces quien fue primero, los datos que producen o los datos que los generan es el dilema, entonces los datos en si mismos deben entenderse como el equivalente a la materia en el campo de la Física pero en este caso la masa son los bites de información y la energía es la capacidad de generar nueva información, entonces bajo este silogismo debemos entender que los datos son a la Ciencia de los datos como la materia a la Física.

Con esta semejanza y simetría debemos entender que la capacidad de generar resultados basados en datos, parte de la transformación técnica e interpretación con base en hechos o conocimientos a través de variados recursos (computacionales y teóricos) y con gestión humana que bien pudiera tener significado para lo que en la modernidad suele asociarse con Arte o con la Ciencia práctica.

Según el diccionario de la Real Academia Española, entre otras acepciones el Arte se refiere a:

  • capacidad, habilidad para hacer algo”;
  • manifestación de la actividad humana mediante la cual se interpreta lo real o se plasma lo imaginado con recursos plásticos, lingüísticos o sonoros”;
  • conjunto de preceptos y reglas necesarios para hacer algo”.

Por otra parte, según el mismo RAE, el concepto de Ciencia entre otras acepciones  está referido a:

  • Conjunto de conocimientos obtenidos mediante la observación y el razonamiento, sistemáticamente estructurados y de los que se deducen principios y leyes generales con capacidad predictiva y comprobables experimentalmente”;
  • saber o erudición”;
  •  “habilidad, maestría, conjunto de conocimientos en cualquier cosa”.

Bajo estos conceptos y al contrastar el Arte con la Ciencia, donde la fuente de materia son los datos, se encuentran más similitudes que antagonismos porque por ejemplo tanto en el Arte como la Ciencia es necesario una capacidad de interpretación basada en conocimientos previos, también son el producto de la actividad humana (generalmente hablando), y además el resultado se plasma con recursos interpretables que tienen algún valor para la sociedad y que ha sido desarrollado de forma óptima.

En este sentido, tanto el Arte como la Ciencia que tratan datos,  debe entenderse como un medio ordenado de locución humana y de carácter creativo que ayudan a predecir la forma de actuar de un sistema observado en determinadas circunstancias. Por ejemplo, una base de datos es porque no una representación artística de un conjunto de datos o los resultados de una selección aleatoria basada en conocimientos estadísticos para interpretar el comportamiento de cierto fenómeno, puede ser visto también como una manifestación científica de un conjunto de datos.

Podría entonces, bien interpretarse que el concepto de Ciencia es tan amplio que fácilmente englobaría al concepto de Arte como simplemente una categoría del saber o saber creador, entonces es más fácil hablar de Ciencia de los datos que de Arte de lo datos, no obstante, para que haya Ciencia siempre debe haber un método científico, pero cuando se habla de datos no es verdad que toda fuente generadora de conocimiento surge de técnicas y métodos para obtener dichos conocimientos y rigurosamente comprobables, y por tanto pudiera más aproximarse al Arte que a la Ciencia.

Un ejemplo práctico de ello puede ser el uso de datos para predecir el desempeño deportivo de un equipo donde el producto del conocimiento con base en la experimentación no obedece a leyes o principios con los que se puedan construir hipótesis que han sido organizadas mediante algún método científico, a menos que se incluya un término probabilístico que aproxime la certeza de un hecho que ayuda a predecir el futuro, en ese caso, entraríamos en la histórica controversia de la Estadística como ciencia, en los que para algunos puede considerarse como una rama de la ciencia no exacta.

En todo caso, al adentrarnos en la conceptualización moderna de Ciencia de los datos y que es ejecutada por científicos de datos, esto es, personas con competencias en el campo de la tecnología, la estadística y la comunicación cuyo objetivo es ejecutar investigaciones de análisis y diagnostico que permiten predecir o explicar un fenómeno de cualquier naturaleza para tomar decisiones generalmente de negocios, cabe la duda de pensar si toda actividad que de forma genérica engloba la Ciencia de los datos podría llamarse Ciencia, ya que con el avance computacional, es cada vez más común ver programas que resumen de una forma sistemática, organizada y de fácil comprensión resultados estadísticos (algoritmos de minería de datos por ejemplo) que son útiles y fácilmente interpretables, que,  en muchos casos se validan muy poco las condiciones de aplicabilidad (rigurosidad de la Ciencia) de los modelos intrínsecos utilizados en la experimentación y modelaje,  sin embargo no deja de ser una fuente generadora de conocimiento.

En este sentido, si en vez de llamar científico de datos o ciencia de los datos simplemente lo sustituyéramos por artista de los datos o arte de los datos de alguna forma, haríamos una distinción entre los científicos puros y los que no (entre los que se incluye quien escribe), y que bien podría darle mayor amplitud de ramas que desencadenen en especialistas que sustenten el área de pensamiento generadora de conocimiento, pues al final de cuentas la pertinencia de ser un científico de datos como profesión está más asociada al oficio que a la formación intelectual (con o sin formación científica-metodológica), y porque no pensar que es mucho más sexy ser reconocido como un artista que como un científico.

Finalmente, Ernst Friedrich “Fritz” Schumacher, en su libro Small is Beautiful, presenta el campo de la estadística en forma ingeniosa, diciendo: “Cuando Dios creó el mundo y la gente -una empresa que, de acuerdo a la Ciencia moderna, tomó un largo tiempo- razonó así: Si hago todo anticipable, los seres humanos, a quienes he dotado de buenos cerebros, aprenderán a predecir todo y no tendrán motivos para trabajar, pues se darán cuenta que el futuro está totalmente predeterminado y que no puede ser influido por acciones humanas. Por el contrario, si hago todo impredecible, descubrirán gradualmente que no hay bases racionales para las decisiones y, como en el primer caso, no tendrán motivos para trabajar. Ninguno de los dos esquemas tiene sentido. Debo crear una mezcla de ambos. Sean algunas cosas predecibles y otras impredecibles. Ellos tendrán así, entre otras muchas cosas, la tarea de descubrir cuál es cuál”, que bien tiene cabida a la Ciencia de los datos o bajo esta propuesta genérica el Arte de los datos.

Alex Coello
Actuary & Data Artist. “As simple as possible but not simpler”
¿Ciencia de los datos o Arte de los datos?
Puntúa mi artículo