R es un lenguaje y entorno de programación de software libre para análisis estadístico, cálculo numérico y representaciones gráficas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, algoritmos de clasificación y otros).
Por su parte Big Data es el término que se utiliza para describir los grandes volúmenes de datos que componen Internet y la posibilidad de obtener información sobre ellos.
Actualmente compañías como Google, Amazon, Facebook, Netflix, Walmart, GAP, IBM y General Electric, entre otras, están liderando procesos de gestión masiva de información y reclutando “Data Scientists” en la nueva era que deviene de Big Data.
El trabajo de un buen Científico de Datos es hacer descubrimientos “buceando” en un océano de datos cada vez más masivos y complejos. Identifican potenciales fuentes ricas en datos valiosos y acercan la brecha entre los datos, la información y finalmente las decisiones de negocio.
Este entrenamiento tiene como objetivo familiarizar a los participantes con R y sus principales algoritmos más difundidos.
Se espera que los participantes incorporen criterios para diseñar y utilizar repositorios de datos.
Objetivo general
Formar profesionales Científicos de Datos para los que se requiere que los participantes:
Ubiquen a la ciencia de datos en el contexto de disciplinas al servicio de los negociosEntiendan la estructura de RConozcan las convenciones utilizadas de sintaxis de RSepan usar los algoritmos más difundidosPuedan diseñar un repositorio de datosIncorporen la necesidad de limpiar los datos antes de usarlosUsen sin dificultad las herramientas de inferencia estadísticaComplementen su formación y entrenamiento como Data Scientists
Objetivos específicos
Unidad 1: Introducción a Big Data, Ciencia de Datos y R
Que los participantes:
Dominen el concepto de ciencia de datosEntiendan la estructura general de RManejen la sintaxis de comandos de RUbiquen los principales repositorios de los que bajar algoritmosIncorporen el lugar que R va tomando como estándar de facto dentro de la ciencia de datos.
Unidad 2: Diseño y Construcción de repositorios de datos
Que los participantes:
Adquieran criterio propio para diseñar repositorios de datosPalpen las consecuencias nefastas de no realizar adecuadamente la limpieza de los datosManejen la terminología relacionada con los repositorios de datosComparen adecuadamente las herramientas que existen en el mercado para soportar repositorios de datos
Unidad 3: Algoritmos Descriptivos en R
Que los participantes:
Identifiquen los principales algoritmos aplicados a la estadística descriptiva que vienen dentro de REntiendan el significado de cada parámetro de la invocación de los algoritmos descriptivos desde RPuedan comparar las ventajas y desventajas de los distintos algoritmos que se ofrecen para las diferentes técnicas descriptivas cubiertas.
Unidad 4: Gráficos en R
Que los participantes:
Identifiquen las principales herramientas gráficas que vienen dentro de RComprendan como distintas visualizaciones sirven o no para transmitir diferentes conceptos.Manejen la sintaxis de R para generar los gráficos.
Unidad 5: Algoritmos Predictivos básicos en R
Que los participantes:
Identifiquen los algoritmos más simples aplicados a la inferencia estadística que vienen dentro de REntiendan el significado de cada parámetro de la invocación de los algoritmos predictivos más simples desde RPuedan comparar las ventajas y desventajas de los distintos algoritmos que se ofrecen para las diferentes técnicas predictivas cubiertas.
Unidad 6: Algoritmos Predictivos avanzados en R y perspectivas de Ciencia de Datos
Que los participantes:
Identifiquen los principales algoritmos avanzados aplicados a la inferencia estadística que vienen dentro de REntiendan el significado de cada parámetro de la invocación de los algoritmos predictivos avanzados desde RPuedan comparar las ventajas y desventajas de los distintos algoritmos avanzados que se ofrecen para las diferentes técnicas predictivas cubiertas.Conozcan las futuras tendencias de la disciplina de la ciencia de datos.
Destinatarios
Todos aquellos profesionales que quieran profundizar en el uso de R aplicado a la 'Inteligencia de Negocios' (BI) ya sea para incorporarse en una posición de Analista de Business Intelligence como para mejorar sus posibilidades de crecimiento en este competitivo y creciente mercado.
Junto con una formación previa en BI este curso complementa a los destinatarios en su formación como Data Scientists.
Unidad 1: Introducción a BI, R y la Ciencia de los Datos
- BI: La ciénaga conceptual:
- ¿Qué es BI?
- ¿Qué es Big Data?
- ¿Qué es un Datawarehouse?
- ¿Qué es R?
- ¿Qué es la Ciencia de los Datos?
- El Rol del Científico de Datos
- Elementos de sintaxis de R
- Repositorios de Algoritmos
- Comunicación multinivel
Unidad 2: Diseño y construcción de repositorios de datos
- Criterios de arquitectura de datos
- Estrategias de limpieza de datos
- Técnicas para carga de datos
Unidad 3: Algoritmos Descriptivos en R
- Medidas estadísticas
- Análisis de Fourier
- Algoritmos de Agrupamiento
Unidad 4: Herramientas de Graficación en R
- Gráficos de densidad
- Gráficos de puntos
- Gráficos de barras
- Gráficos de líneas
- Gráficos circulares
- Gráficos de cajas
- Gráficos de dispersión
Unidad 5: Algoritmos Predictivos básicos en R
- Árboles de Decisión y Random Forest
- Redes Neuronales
- Reglas de asociación
Unidad 6: Algoritmos Predictivos avanzados en R
- Métodos Bayesianos
- Discriminante Lineal y Cuadrático
- Máquinas vectoriales de soporte
- Perspectivas futuras de BI y de la Ciencia de Datos
Examen Final
Es conveniente que los participantes tengan un manejo general de las herramientas informáticas (ofimática, carpetas, archivos, etc.) así como los conceptos básicos de estadística descriptiva y probabilidad.
Los participantes se beneficiarán de su experiencia previa en uno o más de los siguientes campos:
- Manejo de base de datos
- Programación
- Matemáticas
- Marketing
- Inteligencia de Negocios
Aunque ninguno de los conocimientos resulta excluyente, dado que se trata de un curso específico, resultará muy conveniente que los participantes cuenten con formación previa de carácter general, idealmente tener formación en Inteligencia de Negocios (como por ejemplo la tener aprobada la Diplomatura en BI de esta institución).