Si has llegado hasta aquí es porque quieres aprender Data Science con R. Antes de empezar, la primera cuestión que deberías hacerte es: Porque utilizar R? Es R un lenguaje realmente útil?

¿Necesitas un último empujón?

R es un lenguaje open source a diferencia de otros lenguajes comerciales como puede ser SAS o SPSS. Ello lo convierte en un lenguaje mucho más popular debido al bajo coste que conlleva implementarlo en cualquier proyecto. La demanda de profesionales que dominen este lenguaje está creciendo año tras año. Estas son las principales razones por las que R se ha convertido en la lingua franca del Data Science.

Necesitas motivación adicional?

Configura R en tu sistema operativo

La manera más rápida de instalar R es descargando una copia del principal repositorio de R. Actualmente existen versiones para Linux, Mac y Windows.

Es muy recomendable además (por no decir imprescindible), trabajar con algún IDE para tener una interfaz más amigable, entre otras ventajas. El más popular entre la comunidad es RStudio. Entre las principales ventajas de este IDE destaca la facilidad de uso en tareas tales como la visualización de gráficos, carga de datos, creación y ejecución de scripts e instalación de paquetes.

Actividades propuestas

  1. Instala R y RStudio
  2. Instala los paquetes caret y ggplot2.
  3. Carga los paquetes instalados utilizando el comando library

Aprende e interactúa con la comunidad de R

El principal motivo del éxito de R es su amplia y participativa comunidad. El core de este lenguaje es el infinito ecosistema de paquetes desarrollados por la comunidad que están al alcance de todo el mundo. Aunque no lo parezca, esta una de las partes más importantes si quieres aprender Data Science con R, ya que saber dónde consultar es vital.

Entre otras fuentes, las más importantes desde las cuáles podrás descargar casi cualquier paquete son Comprehensive R Archive Network y Github.

Además de las funciones incluidas dentro de cada uno de los paquetes, podrás encontrar muy fácilmente solución a cualquier problema introduciendo el comando ? o bien en foros y webs especializadas, como StackOverflowR-Bloggers o Quora.

Actividades propuestas

  • Visita la web Cran Task Views para tener una idea de las distintas áreas que abordan los paquetes.
  • Regístrate en algun foro o web especializada para obtener la newsletter diaria y estar al día.

Empezando con lo más basico

Llegados a este punto, ya estás preparado para iniciar el camino para aprender Data Science con R. Para empezar, es necesario que aprendas las instrucciones más básicas de R, las principales librerías y las estructuras de datos que necesitarás dominar.

El mejor modo de empezar a aprender Data Science con R es utilizando un entorno online interactivo, y en este campo, la mejor plataforma de aprendizaje que encontrarás es Datacamp. Dentro de los cursos gratuitos que encontrarás, estos son los más recomendables para empezar:

Además del aprendizaje en Datacamp, existe un amplio ecosistema de plataformas que ofrecen MOOC, las que ofrecen más contenidos orientados al aprendizaje de R son Coursera, Edx y Udemy.

Dentro del amplio catálogo de cursos gratuitos ofrecidos, estos son los más recomendables:

Además de la oferta de cursos gratuitos, algunas de estas plataformas ofrecen formación de pago para el acceso al contenido, los siguientes cursos son los más recomendados por los usuarios:

Una vez finalizados estos cursos, estarás preparad@ para aprender Data Science con R en cursos más orientados a este campo.

Adicionalmente a los cursos online, podrás encontrar más información en las siguientes fuentes:

Conocimientos a adquirir: read.table, data frames, table, summary, describe, loading and installing packages, data visualization using plot command

Actividades propuestas

  1. Termina dos cursos propuestos.
  2. Crea una cuenta en github.
  3. Consulta en google algún problema que te haya surgido.
  4. Consulta los artículos en R de Datificados.

Importación de datos

Una vez estés familiarizado con los principales comandos de R, es muy importante que aprendas a importar y manipular datos como segundo paso de tu aprendizaje de Data Science con R. Desgraciadamente gran parte del trabajo del científico de datos consiste en saber importar y limpiar los datos para su posterior análisis e ingesta para los algoritmos de aprendizaje automático.

Es muy recomendable que utilices y practiques con los siguientes paquetes que te permitirán importar datos de un modo más sencillo:

  • readr para importar ficheros de tipo flat
  • readxl para importar ficheros de excel en R
  • haven te permite importar ficheros de SAS, STATA y SPSS a R
  • RMySQL y RpostgreSQL para la conexión con bases de datos

Actividades propuestas

  • Termina el primer tema del curso Importing Data Into R.
  • Importar los siguientes ficheros a R:
    • Crimes – 2001 to present: Este dataset contiene datos acerca de la criminalidad en la ciudad de Chicago desde 2001 hasta la actualidad. Intenta cargar en R el dataset en formato csv y en formato json.
    • Datasets de ejemplo de SPSS: En este directorio encontrarás varios ejemplos en formato .mdd y en formato .ddf.

Manipulación de datos

Una vez tengas los datos disponibles, el siguiente paso es la limpieza de los datos. A a tal efecto, es recomendable que conozcas y practiques con los siguientes paquetes:

  • tidyr para manipulación de datos en general
  • stringr para manipulación de datos de texto
  • dplyr o data.table para  manipular de un modo rápido y efectivo los dataframes
  • Para series temporales los paquetes zoo, xts y quantmod te serán muy útiles

Actividades propuestas

Visualización de datos

Si hay una disciplina que cualquier a dominar en Data Science con R es esta. Pese a no ser la parte más técnica si que dará mucha más visibilidad de tu trabajo al mundo. Esta habilidad requiere arte y ciencia por igual. En los siguientes recursos podrás conseguir inspiración para saber representar gráficamente los datos de un modo útil y atractivo:

  • Information is beautiful: Esta web es simple y llanamente espectacular.
  • Flowing Data: En esta web se explica las técnicas más utilizadas por los profesionales para visualizar, explorar y entender los datos.
  • Data Visualization.ch: Canal dedicado exclusivamente a la visualización de datos y a la creación de infografías atractivas.
  • Datavizblog: Blog repleto de ideas para hacer las mejores visualizaciones de los datos posible.

R ofrece múltiples variantes para crear gráficos. Existen varias funciones incluidas en el paquete básico. Sin embargo, hay paquetes con muchos más recursos para crear los gráficos de un modo más sencillo y atractivo visualmente:

  • El paquete más utilizado actualmente en R para visualización de datos es ggplot2. Su éxito está fundamentado en el amplio abanico de recursos disponibles y su facilidad de uso para crear gráficos completamente personalizados. Es recomendable que finalices el primer tema de este tutorial y le eches un vistazo a esta infografía.
  • Otro paquete muy recomendable para empezar es ggvis. Te permitirá crear gráficos interactivos muy útiles para visualizar los datos de forma dinámica. Si quieres aprender como funciona, échale un vistazo al siguiente tutorial.
  • Si necesitas ejemplos prácticos hechos en R, aquí encontraras miles de ellos.

Actividades propuestas

  • Construye un gráfico para visualizar 5 dimensiones con el paquete ggplot. (pista)
  • Construye un gráfico para visualizar 5 dimensiones con el paquete ggvis.

Aprendizaje automático

Una vez estés familiarizado con el funcionamiento de R para importar, manipular y visualizar datos, es el momento de dar un paso más en tu aprendizaje de Data Science con R y utilizar el lenguaje de programación que estás aprendiendo para algo más complejo, el aprendizaje automático (también llamado machine learning).

Aprendizaje automático y algoritmos son dos conceptos estrechamente ligados. La manera más recomendable de empezar es entendiendo el funcionamiento de algún algoritmo sencillo, como la regresión lineal o los árboles de decisión. Una vez lo entiendas, es recomendable que hagas alguno de estos tutoriales para entender cómo están implementados en R:

Además, es recomendable que hagas algunos cursos para coger soltura con el uso de los algoritmos utilizando R. Aquí tenéis una lista con algunos de los más recomendables:

Actividades propuestas

  • Realiza el siguiente test.
  • Haz un tutorial sobre regresión lineal y otro sobre árboles de decisión.
  • Termina dos de los cursos propuestos.
  • Inscríbete en kaggle y haz uno de los tutoriales del apartado Getting Started.

Mantente al día

Aunque no menos importante, aprender Data Science con R requiere estar al día de las últimas novedades en el campo.

Si has terminado todas las partes anteriores de esta guía, ya estás preparado para proseguir tú sol@ el camino. No dejes de visitar la sección tutoriales de la web, donde tendrás información actualizada de las últimas novedades en R.