Base de Datos
Avanzada
Fundamentos de Minería de
Datos.
Modelo predictivo usando
Regresión Lineal
Ing. Víctor Jaime Polo Romero
Qué aprenderemos?
- Definir Minería de Datos
- Elaborar modelo predictivo usando regresión lineal.
- Determinar el error estándar de la variable predictiva.
- Determinar el grado de relación de las variables del modelo.
- Determinar la confiabilidad del modelo.
- Implementar el modelo en Lenguaje R.
2
Que es la Minería de Datos
3
La minería de datos es el proceso de hallar anomalías, patrones y
correlaciones en grandes conjuntos de datos para predecir resultados.
Empleando una amplia variedad de técnicas, puede utilizar esta
información para incrementar ingresos, reducir costos, mejorar las
relaciones con clientes, reducir riesgos y más.
Historia de la minería de datos y avances actuales
4
El término "minería de datos" no se acuño sino hasta la década de 1990.
Su base comprende tres disciplinas científicas entrelazadas: estadística,
inteligencia artificial (inteligencia similar a la humana exhibida por software y/o
máquinas) y machine learning (algoritmos que pueden aprender de datos para
hacer predicciones).
Lo que era antiguo es nuevo otra vez, ya que la minería de datos continúa
evolucionando para igualar el ritmo de crecimiento del big data y poder de
cómputo asequible.
¿Por qué es importante la minería de datos?
5
Ha podido apreciar los números asombrosos sobre el volumen de datos
producidos, el cual se duplican cada dos años.
Los datos no estructurados por sí solos conforman el 90% del universo digital.
Pero más información no significa necesariamente más conocimientos.
La minería de datos le permite:
● Filtrar todo el ruido caótico y repetitivo en sus datos.
● Entender qué es relevante y luego hacer un buen uso de esa información para
evaluar resultados probables.
● Acelerar el ritmo de la toma de decisiones informadas.
La Minería de Datos.
Objetivo.
El objetivo de la MD es el desarrollo y aplicación de procesos
de estimación de valores objetivo. Se tienen dos situaciones:
1. Obtener la estimación del “grado de pertenencia” de un
elemento a una clase.
2. Obtener la estimación del valor de una variable que
representa una cantidad directa y objetivamente medible.
Muy importante: La MD se basa en casos (datos) de
experiencias pasadas en los que ya sabemos el valor de la
“variable objetivo”.
Modelos
Con estas dos situaciones en mente podemos
desarrollar
modelos para:
i. Clasificar clientes como los que están en el grupo que responde a una
promoción con cierta “probabilidad” (o que la densidad de casos
“exitosos” está arriba de cierta densidad).
ii. Pronosticar o estimar el valor esperado de una variable del “negocio”
estando esta variable en un rango continuo de valores.
Modeladores - Técnicas más populares
• Árboles de decisión
• Regression Lineal
• Análisis Discriminante
• Redes Neuronales
• Vecinos Cercanos
• Bayes Naive
• Redes Bayesianas
Análisis de Regresión Lineal
9
Resumen
10
Resumen
11
Resumen
12
Resumen
13
Resumen
14
Conclusión
Luego de elaborar el modelo podemos concluir que:
● El resultado del modelo es Y=1.75 + 0.25*X
● El error estándar de la estimación(Y=ventas) es de 0.306. En el modelo
equivale a $30600.
● La variable dependiente , respecto a la variable independiente, tienen una
correlación fuerte(0.9).
● El modelo propuesto, predice con una exactitud de 81% las ventas debido a
la nómina de manhattan.
15
Practica 01 en R
16
Modelo en
R
Se tienen datos de 5 árboles de naranjas, a través del set de datos
Orange.
17
Active R on Line en :
colab.to/r
data("Orange")
View(Orange)
library(tidyverse)
lm(circumference ~ age,
data=Orange)
18
Proyectando para 800 dias
dias<-800
medida<-0.1068*dias + 17.3997
cat("La proyeccion para", dias, "Dias sera de ", medida)
CoefCorrR=cor(Orange$circumference, Orange$age)
cat("El coeficiente de correlacion es ", CoefCorrR)
cat("Las variables estan fuertemente relacionadas positivamente")
CoefDeterR2=CoefCorrR^2
cat("El coeficiente de determinacion es ",CoefDeterR2)
cat("El Modelo explica la prediccion en un ", CoefDeterR2*100,"%")
19
Proyectando para 800 dias
20
Graficando
library(ggplot2)
ggplot(data = Orange, aes(x = age, y = circumference)) + geom_point()+
geom_abline(intercept = 17.3997,slope =0.1068, col="green") +
geom_vline(xintercept=dias, col="blue") +
geom_hline(yintercept=medida, col="red")
21
Grafico
22
Gracias
Ing Victor Jaime Polo Romero.
vpolo@unitru.edu.pe
http://colab.to/r

Fundamentos Minería Datos

  • 1.
    Base de Datos Avanzada Fundamentosde Minería de Datos. Modelo predictivo usando Regresión Lineal Ing. Víctor Jaime Polo Romero
  • 2.
    Qué aprenderemos? - DefinirMinería de Datos - Elaborar modelo predictivo usando regresión lineal. - Determinar el error estándar de la variable predictiva. - Determinar el grado de relación de las variables del modelo. - Determinar la confiabilidad del modelo. - Implementar el modelo en Lenguaje R. 2
  • 3.
    Que es laMinería de Datos 3 La minería de datos es el proceso de hallar anomalías, patrones y correlaciones en grandes conjuntos de datos para predecir resultados. Empleando una amplia variedad de técnicas, puede utilizar esta información para incrementar ingresos, reducir costos, mejorar las relaciones con clientes, reducir riesgos y más.
  • 4.
    Historia de laminería de datos y avances actuales 4 El término "minería de datos" no se acuño sino hasta la década de 1990. Su base comprende tres disciplinas científicas entrelazadas: estadística, inteligencia artificial (inteligencia similar a la humana exhibida por software y/o máquinas) y machine learning (algoritmos que pueden aprender de datos para hacer predicciones). Lo que era antiguo es nuevo otra vez, ya que la minería de datos continúa evolucionando para igualar el ritmo de crecimiento del big data y poder de cómputo asequible.
  • 5.
    ¿Por qué esimportante la minería de datos? 5 Ha podido apreciar los números asombrosos sobre el volumen de datos producidos, el cual se duplican cada dos años. Los datos no estructurados por sí solos conforman el 90% del universo digital. Pero más información no significa necesariamente más conocimientos. La minería de datos le permite: ● Filtrar todo el ruido caótico y repetitivo en sus datos. ● Entender qué es relevante y luego hacer un buen uso de esa información para evaluar resultados probables. ● Acelerar el ritmo de la toma de decisiones informadas.
  • 6.
    La Minería deDatos. Objetivo. El objetivo de la MD es el desarrollo y aplicación de procesos de estimación de valores objetivo. Se tienen dos situaciones: 1. Obtener la estimación del “grado de pertenencia” de un elemento a una clase. 2. Obtener la estimación del valor de una variable que representa una cantidad directa y objetivamente medible. Muy importante: La MD se basa en casos (datos) de experiencias pasadas en los que ya sabemos el valor de la “variable objetivo”.
  • 7.
    Modelos Con estas dossituaciones en mente podemos desarrollar modelos para: i. Clasificar clientes como los que están en el grupo que responde a una promoción con cierta “probabilidad” (o que la densidad de casos “exitosos” está arriba de cierta densidad). ii. Pronosticar o estimar el valor esperado de una variable del “negocio” estando esta variable en un rango continuo de valores.
  • 8.
    Modeladores - Técnicasmás populares • Árboles de decisión • Regression Lineal • Análisis Discriminante • Redes Neuronales • Vecinos Cercanos • Bayes Naive • Redes Bayesianas
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
    Conclusión Luego de elaborarel modelo podemos concluir que: ● El resultado del modelo es Y=1.75 + 0.25*X ● El error estándar de la estimación(Y=ventas) es de 0.306. En el modelo equivale a $30600. ● La variable dependiente , respecto a la variable independiente, tienen una correlación fuerte(0.9). ● El modelo propuesto, predice con una exactitud de 81% las ventas debido a la nómina de manhattan. 15
  • 16.
  • 17.
    Modelo en R Se tienendatos de 5 árboles de naranjas, a través del set de datos Orange. 17
  • 18.
    Active R onLine en : colab.to/r data("Orange") View(Orange) library(tidyverse) lm(circumference ~ age, data=Orange) 18
  • 19.
    Proyectando para 800dias dias<-800 medida<-0.1068*dias + 17.3997 cat("La proyeccion para", dias, "Dias sera de ", medida) CoefCorrR=cor(Orange$circumference, Orange$age) cat("El coeficiente de correlacion es ", CoefCorrR) cat("Las variables estan fuertemente relacionadas positivamente") CoefDeterR2=CoefCorrR^2 cat("El coeficiente de determinacion es ",CoefDeterR2) cat("El Modelo explica la prediccion en un ", CoefDeterR2*100,"%") 19
  • 20.
  • 21.
    Graficando library(ggplot2) ggplot(data = Orange,aes(x = age, y = circumference)) + geom_point()+ geom_abline(intercept = 17.3997,slope =0.1068, col="green") + geom_vline(xintercept=dias, col="blue") + geom_hline(yintercept=medida, col="red") 21
  • 22.
  • 23.
    Gracias Ing Victor JaimePolo Romero. [email protected] http://colab.to/r