científicos de datos

Para aquellos científicos de datos que estén empezando en el mundillo del Aprendizaje Automático, es imprescindible entrenar las habilidades adquiridas en los cursos con los datos con datasets de prueba.

Tanto en R como en Python existen multitud de datasets para empezar a practicar. Sin embargo, no podrás compararte con otros científicos de datos, por lo que es probable que llegue el momento en que quieras unirte a alguna comunidad para compartir y adquirir nuevos conocimientos. Bajo este paradigma nace Kaggle, aunque puedes encontrar mucho más que eso.

¿Qué es Kaggle?

Kaggle es una plataforma construida por y para los científicos de datos. En ella podrás encontrar desde datasets sencillos para iniciarte en el mundillo hasta datasets cedidos por empresas para resolver problemas de negocio reales.

Partes de Kaggle

La interfaz de la plataforma es amigable y muy sencilla de usar. Se divide en tres grandes bloques: Competitions, Datasets y Kernels.

Competitions

Este es el principal apartado de la plataforma, en el que podrás ver un listado de las competiciones activas. Las competiciones se dividen en Featured, Playground, Getting Started y Recruitment:

Getting Started

En este apartado podrás descargarte datasets y manuales básicos para empezar a crear modelos sencillos. Es muy intuitivo y merece realmente la pena empezar por este apartado antes de adentrarte en el Kaggle más profundo…

Playground

Una vez hayas ganado suficiente soltura en el apartado anterior, te recomiendo que accedas a este apartado. Podrás encontrar datasets más complejos de tipologías muy variadas (desde análisis de datos poblacionales a análisis de imágenes).

Recruitment

Este apartado es realmente para los científicos de datos que busquen empleo. Podrás encontrar competiciones en las que, el premio es un contrato laboral con la empresa que ha colgado los datos.

Featured

Este es el lugar de los peces gordos. En este apartado encontrarás las competiciones en las cuáles los mejores se llevan premios económicos. Y no son poca cosa, pueden ir de 0 a más de 20.000$.

Datasets

Si estás buscando un dataset concreto con datos de alguna temática concreta, es muy probable que ya haya alguno colgado en kaggle, te recomiendo que pongas a prueba a la plataforma en este apartado, es muy probable que te sorprenda.

Kernels

Sin duda esta es la parte más interesante de la plataforma, sobretodo para los que están trabajando en alguna área relacionada con el dato (feature engineering, modelización…). Aquí podrás encontrar los scripts que han compartido otros científicos de datos para la resolución de los problemas planteados. Es francamente muy útil, y si trabajas con datos, puede ser un complemento fantástico para mejorar cualquier modelo que estés haciendo. Es muy probable que en Kaggle encuentres alguien que haya desarrollado algún script que puedas adaptar para mejorar tu trabajo, por lo que te recomiendo que visites esta parte.

 

Ferran Arroyo
Fan del Machine Learning, la IA, la tecnología y viajar. No siempre por este orden.
Científicos de datos vuestra casa se llama Kaggle
Puntúa mi artículo