RStudio, IDE para programar con R. Instalación y primeros pasos
RStudio es una aplicación web que permite desarrollar webs con R y otros lenguajes de programación orientados al tratamiento de grandes cantidades de datos, estadísticas, etc… Es todo un completo IDE de desarrollo, pero embutido en una aplicación web, que permite además integrarse con una serie de herramientas enfocadas en la gestión de proyectos. A continuación vamos a contaros sus funcionalidades principales y os explicaremos paso a paso como instalar RStudio.
R es un lenguaje de programación de código abierto orientado al trabajo con datos y su análisis estadístico, usado principalmente en el ámbito de la investigación matemática y machine learning, minería de datos, etc… Es multiplataforma, por lo que se puede usar en cualquier sistema operativo de escritorio.
Por su parte, RStudio es un entorno de desarrollo remoto, que se instala comúnmente en un servidor Linux y que permite manejar y ejecutar proyectos en R de manera remota, sin tener que instalar nada en el ordenador del usuario.
Funcionalidades principales de RStudio
RStudio ofrece todas las herramientas que podemos esperar de un IDE moderno, como coloreado de sintaxis, ayudas para completado y formateado de código. Ofrece además una plataforma de ejecución para los programas escritos en R, de modo que se pueden poner en marcha de manera cómoda, online y sin salir de la propia aplicación.
El entorno de desarrollo integra diversas herramientas adicionales dentro del espacio de trabajo, como la documentación del lenguaje R, sistemas de control de versiones (Git y otros), la gestión de proyectos y visualización de datos, así como un depurador que permite localizar y corregir errores en el código fácilmente. Además se puede extender por medio de packages adicionales en función de las necesidades de los profesionales. Todo ello funciona en el navegador y por tanto es accesible desde cualquier lugar, simplemente disponiendo de un acceso a Internet, lo que permite el trabajo en remoto y la disponibilidad de las herramientas de análisis de datos, así como cualquiera de los archivos usados, desde cualquier lugar.
Dentro de la categoría del machine learning, ofrece un entorno de desarrollo completamente accesible desde el navegador desde el que puedes fácilmente desarrollar y depurar código y organizar tus documentos en proyectos. La interfaz es una plataforma para análisis y cálculo para proyectos con grandes cantidades de datos o con funciones matemáticas complejas.
Instalar RStudio
Instalar RStudio es muy sencillo en el cloud de Arsys. Para poder disponer en pocos minutos de nuestro IDE para R, simplemente necesitamos acceder al panel de control de Cloudbuilder y crear un nuevo servidor cloud.
Al crear el servidor, en la sección Imágenes > Aplicaciones, encontraremos decenas de proyectos de software libre que podemos desplegar en las máquinas virtuales, incluido el IDE RStudio. Para obtenerlo, simplemente necesitamos seleccionar la aplicación y crear el servidor. En pocos minutos dispondremos de nuestro entorno para desarrollo con R listo para usar.
Una vez creado el servidor, podemos acceder a RStudio a través de la IP y autenticarnos con el usuario y la clave generada, que podemos encontrar en el propio panel de Cloudbuilder, en las propiedades que aparecen al seleccionar el servidor.
Una vez autenticados estaremos dentro del editor, el cual está compuesto por varios paneles donde encontramos distribuidas todas las herramientas de trabajo. La interfaz de la aplicación será similar a la de la siguiente imagen:
Primeros pasos con RStudio
RStudio permite administrar proyectos en los que se trabaja con múltiples tipos de archivos de código, entre los que encontramos R scripts, Documentos R Markdown, archivos HTML o TeX, y muchos otros.
Para comenzar vamos a localizar el menú «File». Desde aquí se pueden crear archivos de «R» así como proyectos. Si lo deseamos podemos abrir varios archivos a la vez, que podremos seleccionar por medio de unas pestañas dentro de la interfaz del programa.
Para estos primeros pasos vamos a crear un nuevo proyecto, así podremos tener organizados diversos archivos. Seleccionamos «File > New Project» y en el asistente indicamos que es un nuevo proyecto de tipo «folder». Nos solicitará entonces que indiquemos simplemente el nombre de la carpeta donde se van a almacenar los archivos y su ruta.
En el panel de abajo a la derecha encontramos un explorador de los archivos del proyecto. Desde allí podemos hacer un upload de archivos de datos que deseemos tratar mediante la aplicación. Para estos primeros pasos vamos a subir un archivo CSV, que es una hoja de cálculo con valores separados por comas, ideal para ver lo sencillo que es desarrollar con R y acceder a sus datos. Podemos usar cualquier archivo *.csv que tengamos a mano para esta prueba. Los archivos se suben con el botón de «Upload» en el panel de archivos.
Ahora vamos a leer ese archivo desde R. Para ello tenemos que crear un nuevo archivo «R Script» que luego guardaremos dentro del proyecto. Leer y posteriormente visualizar un archivo CSV con R es extremadamente sencillo. Para ello escribimos en el script las siguientes líneas de código.
data <- read.csv('SacramentocrimeJanuary2006.csv') View(data)
Para agregar el script al proyecto simplemente pulsamos el botón «Save» e indicamos el nombre del archivo. El icono de guardar tiene forma de disco y lo podemos ver en la siguiente imagen marcada con el número «1».
Luego, podemos ejecutar el código de R. Podemos hacerlo línea a línea, con el icono que hay en la imagen anterior marcado con el número «2». Ejecutando ambas líneas de código obtendremos la siguiente salida en la consola.
Además, al ejecutar la segunda línea de código, «view(data)», dentro del propio IDE se abrirá una nueva pestaña donde podremos ver el archivo CSV formateado para su fácil lectura, como si lo hubiésemos abierto con un programa de hoja de cálculo.
Ejecutar múltiples líneas de código
Por supuesto, también podemos ejecutar varias líneas de código al mismo tiempo. Para ello simplemente las seleccionamos todas a la vez y luego pulsamos el icono de ejecutar.
En este caso, debido a que hemos escrito una línea extra de código «names(data)», veremos la siguiente salida por la consola.
Con esto hemos visto una pequeña muestra de las utilidades de RStudio y lo sencillo que es trabajar con el lenguaje R dentro de este entorno de desarrollo. Hemos realizado un sencillo ejemplo de acceso a datos que tenemos en un archivo CSV, pero con un poco de tiempo es posible sacar un excelente partido a esta herramienta para el análisis estadístico y la minería de datos, entre otras muchas cosas.