setwd("C:/DATOS/DOCUMENTACION/DOCTORADO/MODELOS/R/REGRESION") source('simpleRegressionFunctions.txt', local=TRUE) 'EJERCICIO 5.2 'trabajadores.dat 'Fuente :Chaterjii and Price Regression by example 'Descripción 'Primera columna : número de supervisores 'Segunda columna : Número de trabajadores 'EXPLICACION DE DATOS 'A: CARGA DE DATOS RUTA <- "C:/DATOS/DOCUMENTACION/DOCTORADO/MODELOS/R/REGRESION/DATOS_LIBRO/" FICHERO <- "trabajadores.dat" DATOS <- read.table("C:/DATOS/DOCUMENTACION/DOCTORADO/MODELOS/R/REGRESION/DATOS_LIBRO/trabajadores.dat",header=F,sep="", quote="") Y = as.numeric(DATOS$V1) X = as.numeric(DATOS$V2) TY <- "Numero de supervisores, NS" TX <- "Numero de trabajadores, NT" 'B: UNIVARIATE EDA viewEDA(Y,X,TY,TX) 'CONCLUSIONES: 'Como se observa, en los graficos, existe una cierta normalidad de los datos en ambos casos, 'Presentando datos anomalos en la variable Y. 'Se observan colas en ambos casos. 'C: CREATE MODEL REGRESSION <- createSRM(Y,X,1) REGRESSION 'CONCLUSIONES 'Los datos de la regresion son los siguientes: 'Residuals: ' Min 1Q Median 3Q Max '-53.294 -9.298 -5.579 14.394 39.119 'Coefficients: ' Estimate Std. Error t value Pr(>|t|) '(Intercept) 14.44806 9.56201 1.511 0.143 'X 0.10536 0.01133 9.303 1.35e-09 *** '--- 'Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 'Residual standard error: 21.73 on 25 degrees of freedom 'Multiple R-Squared: 0.7759, Adjusted R-squared: 0.7669 'F-statistic: 86.54 on 1 and 25 DF, p-value: 1.350e-09 'Como se observa, el R-Squared es de un 77.59% lo cual indica un buen ajuste. 'El error estandard residual tiene un valor de 21.73. 'El modelo seria: Y = 14.44806 + 0.10536*X ' NOTA: Si se detectan datos outliers, es necesario eliminarlos del modelo simpleOutlierDetection(Y,1) simpleOutlierDetection(X,1) 'NOTA: Una vez tengo detectado donde estan los datos OUTLIERS que afectan al modelo, se vuelve a generar el modelo. Y2 = getSubconjunto(Y,1,24) X2 = getSubconjunto(X,1,24) viewEDA(Y2,X2,TY,TX) 'CONCLUSIONES 'Tras eliminar del modelo los datos anomalos, se observa, como X ya no presenta colas 'Y presenta una cierta normalidad. Y sigue presentando colas, aunque a primera vista no 'parece que tenga datos anomalos. 'Se procedera a realizar de nuevo el modelo para extraer nuevas conclusiones. REGRESSION2 <- createSRM(Y2,X2) REGRESSION2 'CONCLUSIONES 'Los resultados del modelo son los siguientes: 'Residuals: ' Min 1Q Median 3Q Max '-34.592 -9.399 -2.353 11.501 27.901 'Coefficients: ' Estimate Std. Error t value Pr(>|t|) '(Intercept) 2.18083 8.25886 0.264 0.794 'X 0.12675 0.01135 11.169 1.56e-10 *** --- 'Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 'Residual standard error: 15.69 on 22 degrees of freedom 'Multiple R-Squared: 0.8501, Adjusted R-squared: 0.8433 'F-statistic: 124.7 on 1 and 22 DF, p-value: 1.558e-10 'Como se observa, el modelo ha mejorado mucho debido a un R-Squared de 85.01% 'El modelo seria: Y = 2.18083 + 0.12675*X