Nolazco Y Esparta (2012) - Guia_stata_11

   EMBED

Share

Preview only show first 6 pages with water mark for full document please download

Transcript

GUIA DE USUARIO DE STATA 11

Primera Versi´
on
Jos´e Luis Nolazco Cama
(UNALM)
[email protected]
David Joel Esparta Polanco
(UNAC)
[email protected]

´Indice general
Apendice de tablas

II

Apendice de figuras

0

1 Introducci´
on

1

I

3

Introducci´
on al STATA

2 Aspectos Generales del STATA
2.1 Entorno de STATA . . . . . . . . . .
2.2 La Barra de Herramientas . . . . . .
2.3 Tipos de Archivo . . . . . . . . . . .
2.4 Sint´axis de los Comandos del STATA
2.5 Expresiones L´ogicas del STATA . . .
2.6 Organizando un Proyecto de Trabajo
2.7 Recursos del STATA . . . . . . . . .
2.8 Comandos de Ayuda . . . . . . . . .
2.9 Instalaci´on de Nuevos Comandos . .
2.10 Ejercicio Propuesto . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

3 Gesti´
on de Base de Datos
3.1 El Do-File . . . . . . . . . . . . . . . . . .
3.1.1 Comentarios en el Do-File . . . . .
3.2 Iniciando la Estrucutra de un Do-File . . .
3.3 Asignando Memoria . . . . . . . . . . . . .
3.4 Manejo de Directorios . . . . . . . . . . .
3.5 Guardar Resultados en Bit´acoras . . . . .
3.6 Creando Base de Datos . . . . . . . . . . .
3.7 Cargando Base de Datos . . . . . . . . . .
3.7.1 Abriendo base de datos del STATA.

i

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

5
5
7
8
8
9
10
11
11
12
15

.
.
.
.
.
.
.
.
.

17
17
18
19
20
20
21
24
25
25

´INDICE GENERAL

ii

3.8
3.9
3.10
3.11
3.12

3.13

3.14
3.15
3.16
3.17

3.18
3.19
3.20
3.21

3.7.2 Importando Base de Datos . . . . . . . . . . . . . . . . . .
3.7.3 Convertir Base de Datos . . . . . . . . . . . . . . . . . . . .
Guardar Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . .
Inspecci´on Base de Datos . . . . . . . . . . . . . . . . . . . . . . . .
Generando y Transformando Variables . . . . . . . . . . . . . . . .
Nombrando y Etiquetando Variables . . . . . . . . . . . . . . . . .
Tipo y Formato de Variables . . . . . . . . . . . . . . . . . . . . . .
3.12.1 Tipo de Variables . . . . . . . . . . . . . . . . . . . . . . . .
3.12.2 Formato de Variables . . . . . . . . . . . . . . . . . . . . . .
Conversi´on de Variables . . . . . . . . . . . . . . . . . . . . . . . .
3.13.1 De una Variable String Num´erica a una Variable Num´erica .
3.13.2 De una Variable Num´erica a una Variable String . . . . . . .
3.13.3 De una Variable String No-Num´erica a una Variable Num´erica
Selecci´on de Muestra y Variables . . . . . . . . . . . . . . . . . . .
Manipulaci´on de Base de Datos . . . . . . . . . . . . . . . . . . . .
3.15.1 Ordenar Observaciones y Variables . . . . . . . . . . . . . .
Preservar y Restaurar Base de Datos . . . . . . . . . . . . . . . . .
Tablas y Tabulaciones . . . . . . . . . . . . . . . . . . . . . . . . .
3.17.1 Tabulate . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.17.2 Table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.17.3 Tabstat . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Formas de Base de Datos . . . . . . . . . . . . . . . . . . . . . . . .
3.18.1 Formas Long y Wide . . . . . . . . . . . . . . . . . . . . . .
Colapsar Base de Datos . . . . . . . . . . . . . . . . . . . . . . . .
Fusi´on de Base de Datos . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Gr´
aficos en STATA
4.1 Introducci´on a STATA GRAPH . . . . . . .
4.2 Tipos de Gr´aficos . . . . . . . . . . . . . . .
4.2.1 Histograma . . . . . . . . . . . . . .
4.2.2 Graph Toway . . . . . . . . . . . . .
4.2.3 Gr´afico de Caja y Bigote (Box Plot)
4.2.4 Gr´afico de Pastel (Pie) . . . . . . . .
4.2.5 Gr´afico de Barras (Bar) . . . . . . .
4.2.6 Gr´afico de Puntos (Dot Plot) . . . .
4.3 A˜
nadiendo Textos a los Gr´aficos . . . . . . .
4.4 M´
ultiples Ploteos . . . . . . . . . . . . . . .
4.5 Guardar, Combinar y Exportar Gr´aficos . .
4.6 Ejercicio Propuesto . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

27
30
34
34
39
41
43
43
44
46
46
46
47
47
49
49
51
52
52
55
57
59
59
60
61
64
67
67
68
68
73
87
89
92
96
98
100
105
106

´INDICE GENERAL

iii

5 Programaci´
on en STATA
5.1 Generando N´
umeros Seudo-Aleatorios . . . . . . . . .
5.2 Macros Local y Global . . . . . . . . . . . . . . . . .
5.2.1 Macro Global . . . . . . . . . . . . . . . . . .
5.2.2 Macro Local . . . . . . . . . . . . . . . . . . .
5.3 Comandos para Bucles . . . . . . . . . . . . . . . . .
5.3.1 El comando foreach . . . . . . . . . . . . . . .
5.3.2 El comando forvalues . . . . . . . . . . . . . .
5.3.3 El comando while . . . . . . . . . . . . . . . .
5.4 Escalares y Matrices . . . . . . . . . . . . . . . . . .
5.4.1 Escalar . . . . . . . . . . . . . . . . . . . . . .
5.4.2 Matrices . . . . . . . . . . . . . . . . . . . . .
5.5 Usando los Resultados de los Comandos de STATA .
5.5.1 Usando los Resultados con el Comando r-class
5.5.2 Usando los Resultados con el Comando e-class
5.6 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . .
6 Dise˜
no Muestral
6.1 Muestra vs Censo . . . . . . . . . . . . . . .
6.2 Dise˜
no Muestral . . . . . . . . . . . . . . . .
6.3 T´ecnicas de Muestreo . . . . . . . . . . . . .
6.4 La Encuesta Nacional de Hogares (ENAHO)
6.5 Aplicaci´on - ENAHO . . . . . . . . . . . . .
6.6 Ejercicio Propuesto . . . . . . . . . . . . . .

II

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

109
109
111
112
112
113
113
115
115
116
116
117
119
119
121
123

.
.
.
.
.
.

125
125
126
128
132
136
150

Modelos de Regresi´
on Lineal

7 Modelo de Regresi´
on Lineal General
7.1 Especificaci´on y Supuestos del Modelo General . . . . . . . . . .
7.2 Formas Funcionales . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Coeficiente de Determinaci´on . . . . . . . . . . . . . . .
7.3.2 Coeficiente de Determinaci´on Ajustado . . . . . . . . . .
7.4 Prueba de Hip´otesis e Intervalo de Confianza . . . . . . . . . . .
7.5 Criterios para elecci´on de modelos . . . . . . . . . . . . . . . . .
7.5.1 Criterio de Informaci´on de AKAIKE (AIC) . . . . . . . .
7.5.2 Criterio de Informaci´on de SCHWARZ (BIC) . . . . . .
7.6 Pruebas de Hipotesis y Estimacion MCO con Variables Dummy
7.7 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . . . . . .

151
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

153
153
154
155
155
155
156
156
156
157
167
171

´INDICE GENERAL

iv
8 Heteroscedasticidad
8.1 Problema de Heteroscedasticidad . . . . .
8.2 Test de Heteroscedasticidad . . . . . . . .
8.2.1 M´etodo Informal (M´etodo Gr´afico)
8.2.2 M´etodo Formal . . . . . . . . . . .
8.3 Medidas Correctivas . . . . . . . . . . . .
8.4 Ejercicio Propuesto . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

9 Autocorrelaci´
on
9.1 Problema de Autocorrelaci´on . . . . . . . . . .
9.2 Test de Autocorrelaci´on . . . . . . . . . . . . .
9.2.1 M´etodo Informal (M´etodo Gr´afico) . . .
9.2.2 M´etodo Formal . . . . . . . . . . . . . .
9.3 Medidas Correctivas . . . . . . . . . . . . . . .
9.3.1 M´etodo de Estimaci´on Prais-Winsten . .
9.3.2 M´etodo de Estimaci´on Cochrane-Orcutt
9.3.3 Estimaci´on de Modelos Din´amicos . . . .
9.3.4 Estimaci´on de Modelos Din´amicos . . . .
9.4 Ejercicio Propuesto . . . . . . . . . . . . . . . .
10 Multicolinealidad
10.1 Problema de Multicolinealidad .
10.2 Detecci´on de Multicolinealidad .
10.3 Medidas Correctivas . . . . . .
10.4 Ejercicio Propuesto . . . . . . .

III

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

175
175
178
179
181
189
193

.
.
.
.
.
.
.
.
.
.

195
195
197
197
201
204
205
206
208
210
211

.
.
.
.

213
213
215
218
220

Modelos de Elecci´
on Discreta

11 Modelo de Elecci´
on Discreta Binaria
11.1 Tipos de Variables de Elecci´on Discreta . . . . . . . . . .
11.2 Modelos de Elecci´on Discreta para Variables Dicot´omicas
11.2.1 Modelo Lineal de Probabilidad (MLP) . . . . . .
11.2.2 Modelo Logistico (Logit) . . . . . . . . . . . . . .
11.2.3 Modelo Probabil´ıstico (Probit) . . . . . . . . . . .
11.2.4 Relaciones entre Modelos Logit y Probit . . . . .
11.3 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . .

221

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

223
223
224
224
226
227
227
242

´INDICE GENERAL

IV

v

Econometr´ıa de Series de Tiempo

12 Introducci´
on a Series de Tiempo en STATA
12.1 An´alisis de Serie Temporal Univariado en STATA . .
12.2 Operadores de Serie de Tiempo . . . . . . . . . . . .
12.2.1 Operador de Rezagos . . . . . . . . . . . . . .
12.2.2 Operador de Adelanto . . . . . . . . . . . . .
12.2.3 Operador de Diferencia . . . . . . . . . . . . .
12.2.4 Operador de Diferencia Estacional . . . . . . .
12.2.5 Combinando Operadores de Serie Temporales
12.2.6 Expresiones con Operadores . . . . . . . . . .
12.2.7 Cambios Porcentuales . . . . . . . . . . . . .
12.3 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . .

243
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

13 Series de Tiempo Estacionarios
13.1 La Naturaleza de Series de Tiempo . . . . . . . . . . . . . .
13.2 Estacionariedad . . . . . . . . . . . . . . . . . . . . . . . . .
13.3 Procesos Autoregresivos y de Media M´ovil . . . . . . . . . .
13.3.1 Procesos de Media M´ovil (MA) . . . . . . . . . . . .
13.3.2 Procesos Autoregresivos (AR) . . . . . . . . . . . . .
13.3.3 Procesos Autoregresivos y Medias M´oviles (ARMA) .
13.4 Funci´on de Autocorrelaci´on Muestral (FAS) y Parcial (FAP)
13.4.1 Funci´on de Autocorrelaci´on Muestral (FAS) . . . . .
13.4.2 Funci´on de Autocorrelaci´on Parcial (FAP) . . . . . .
13.5 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . . . .
14 Procesos Estoc´
asticos No Estacionarios
14.1 Serie No Estacionaria en Media . . . . . . . . . . . . . .
14.1.1 Proceso Estacionario de Tendencia Determin´ıstica
14.1.2 Proceso Estacionario de Tendencia Estoc´astica . .
14.2 Proceso de Ra´ız Unitaria . . . . . . . . . . . . . . . . . .
14.2.1 Pruebas de Ra´ız Unitaria . . . . . . . . . . . . . .
14.2.2 Transformaci´on de Series No estacionarias . . . .
14.3 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

245
245
248
249
250
251
252
253
254
256
257

.
.
.
.
.
.
.
.
.
.

259
259
261
263
264
268
275
279
279
283
286

.
.
.
.
.
.
.

287
287
288
289
293
294
300
303

15 Modelos de Vectores Autoregresivos
305
15.1 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
16 Modelos de Correci´
on de Errores
317
16.1 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . 330

´INDICE GENERAL

vi

V

Modelos de Panel de Datos

333

17 Modelos de Datos de Panel Est´
aticos
17.1 Modelo Agrupado (Pooled) . . . . . . . . . . . . . . . . . . . . . . .
17.2 Modelos con efectos individuales (One-Way) . . . . . . . . . . . . .
17.3 Modelo de Efectos Fijos (FE) . . . . . . . . . . . . . . . . . . . . .
17.4 Modelo de Efectos Aleatorios (RE) . . . . . . . . . . . . . . . . . .
17.5 Comparaci´on de Modelos . . . . . . . . . . . . . . . . . . . . . . . .
17.5.1 Modelo Pooled vs. Modelo de Efectos Fijos: Prueba F . . . .
17.5.2 Modelo Pooled vs. Modelo de Efectos Aleatorios: Prueba LM
17.5.3 Modelo de Efecto Fijo vs. Modelo de Efecto Aleatorio: Prueba Hausman . . . . . . . . . . . . . . . . . . . . . . . . . . .
17.6 Ejercicio Propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . .

335
336
336
337
338
339
339
339
340
354

. . . . . . . . . . 75 81 82 83 5. . . . . . . . . . . . . . . .1 Muestra vs. .1 Funciones de Variables Aleatorias . . . . . .legend() . .connect() . . . . . . . . . Formato de Variable con Fechas . . . . . . . . . . . . . . . . . . . . . . . . . .1 4. . . . . . . . . . . . . . . . . . . . .2 3. . . . .Ap´ endice de Tablas 3. . . . .3 3. . .1 3. . . . . . . . . . . . . . . . Tipo de Variable No Num´erico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 4.3 4. . . .4 Tipo de Variable Num´erico . . . . . . . . . . . . . . . . . . 43 43 44 44 4. . 126 de mysimbol() . . . . . . . vii . Censo . .clpattern() . . . . . 110 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . Formato de Variable Num´erico . . . . . . . . .4 Opciones Opciones Opciones Opciones . . . . .

. . . Line Plot (2) . . . . . . . . . . . . . . . Expresiones L´ogicas . . . . . . . . . . . .7 4. . . Esquema de un Proyecto de Trabajo . . . . . . . . . . . Line Plot (5) . . . . . . . . Wide . .18 4. . . . . . . . . . . . . . . . . . STAT TRANSFER . . . . . . . .13 4. . . . .14 4. . . . . . . Scatter Plot (2) . . . . . . . . . . . . . . . . . . . . . .12 4. . Histograma (5) . . . . . . . . Cargando Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Line Plot (4) . . . . . . . . . Fomas de Base de Datos Long y . . . . . .´Indice de figuras 2. . . . . . .3 4. . . . . . . Data Windows La Barra de Herramientas . . . . . .4 2. Line Connected Plot . . . . . . . . . . . . . . . . . . . . . . Multiples Scatter Plot Line Plot (1) .11 4. . . . . . . . . . Editando Base de Datos . . . . . . . . . . . . . . . . . . . . . .4 3. . . . . . Do-File. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Histograma (2) . . . . . . . . . .1 2. . . . . .1 4. Histograma (4) . . . . . . . .2 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . Otros Plot (1) . . . .10 4. . . . . . . . . . . . . . . . . . . . . . . . . Scatter Plot (3) . . . . . . . . . . . . . . . . . . . . . . viii . . .6 Manejo de Directorio . . . . . . . . . . . . . . . . . . . . . . . . . . . Histograma (3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Scatter Plot (5) . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 2. . . . . . Scatter Plot (1) . . . . . .5 Entorno del STATA 11 . . . . . . . . . . . . .8 4. . . . . . . . . . . . Scatter Plot (4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 3. . . . . . . . . . . . . .19 Histograma (1) . . . . . . . . . 69 70 71 72 73 74 76 76 77 78 79 80 80 81 82 83 84 85 86 . .2 2. . . . . . . . .9 4. . . . . . . . . .6 4. . . Otros Plot (2) . . . . . . . . . . . . . . .15 4. . . . Viewer Windows. . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 7 9 10 3. . . . . . . . . . . . . . . . . . . . . . .2 4. . .5 3. . . . . . . . .17 4. . . . . . . . . . .4 4. Line Plot (3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5 4. . . Cargando Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 3. .16 4. . . 21 25 26 27 30 59 4. .

. .24 4. . Bar Graph (3) . . . . .ARMA FAS para un Proceso MA(1) . . . . . . . Otros Plot (4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23 4. . . . . . . . . FAS para un Proceso AR(1) con Phi<0 . . . . Proceso Media M´ovil . . .28 4. . . . . . . . . . . . . . . . . . . . . . . 180 9. . . . . . . . . . . . . Bar Graph (1) . . . . . 313 . . . . . . . . . . . .1 9. . . . . . . . . .20 4. . . . . . . . . . . .´INDICE DE FIGURAS ix 4. . . . . . . . .Heteroscedasticidad . 263 267 273 278 280 281 282 283 285 15. . . . . Texto en Gr´aficos (1) Texto en Gr´aficos (2) Ploteos M´ ultiples (1) Ploteos M´ ultiples (2) Ploteos M´ ultiples (3) Ploteos M´ ultiples (4) Ploteos M´ ultiples (5) Graficos Combinados . . . . . . Proceso Autoregresivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Autocorrelaci´on . . . . . . . . . . . . 199 12. . . . . . . . . . .2 M´etodo Gr´afico (1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 13. . . . .25 4. . . . .36 4. . . . . . . . . . . . . . . . . . . . . . . . . Box Plot (2) . . . . . . . . . . . . . . . . Bar Graph (2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bar Graph (4) . . . . . . . . . . . . . .AR . . . . . Pie Graph (1) . . . . . . . . . . . . . . . . . . . . . . . . . .31 4. . . . . . . . . . . .35 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 13. . . . . . .37 4. . . . . . . . . 198 M´etodo Gr´afico (2) . . . . . . . . . . . Dot Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . .32 4. . .34 4. . .Variables Aletarias . . . . . . . .21 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . FAP para un Proceso AR .MA . . .30 4. . . .9 Ruido Blanco . . . . . . . . .2 M´etodo Gr´afico (1) . . .1 Proyecci´on . . . . . . . . . . . . . . . . . .Heteroscedasticidad . . . . . . .8 13. . . . . . . . 179 M´etodo Gr´afico (2) . . . . . . . . . . . . . . . . . . . . . . . . .29 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Comando tsline . . . . . . . . . .Autocorrelaci´on . . . . . . . . . . . 249 13. . . . . . . . .6 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27 4. . . . Proceso Autoregresivo de Media M´ovil . . . . . . . . . . .5 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 8. . . . . . . . . .22 4. . . . . . . . . . . . . . . . . . Pie Graph (2) . Box Plot (1) . . . . . . . . . . . . . . . . . . . . . . . .26 4. . . . 111 8. . . . . . 86 87 88 89 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 5. .2 13. .33 4. . . . . . .38 4. . . . . .1) . . . . . . . . . . .7 13. FAS para un Proceso ARMA(1. . . . . . . . . . . . . . . . . . . . . . .39 Otros Plot (3) . . . . . . . . . . Otros Plot . . . . . FAS para un Proceso AR(1) . . . . .3 13. . . . . . . .1 Gr´aficos . . . . . .

. . . . . . . . . . .2 Heterogeneidad entre Individuos . . . . 342 17. . . . . . . . . . . . . . . . . . . . . . . . . .2 Proyecci´on en un MCE .2 Funci´on de Impulso Respuesta . . . . . . . . 330 17. . . . . . . . . . 336 17. . . .3 Caja y Bigote de la Heterogeindad entre Individuos . . . . . . 342 . . . . 329 16. . . . . . . . . . . .0 ´INDICE DE FIGURAS 15. . . . . . . . .1 Datos de Panel balanceado y No balanceado . . . . 315 16. .1 Funci´on de Impulso Respuesta en un MCE . . . . . . . .

Queremos dar las gracias a Juan Pichihua Serna (UNALM) y a Juan Manuel 1 . se requiere que el estudiante previamente haya revisado autores tales como Gujarati & Porter (2010). usted puede descargar la base de datos de los ejercicios resueltos y propuestos de cada cap´ıtulo en la siguiente pagina web xxxxxx para su pr´actica.Cap´ıtulo 1 Introducci´ on El presente manual de Stata 11 es una recopilaci´on de clases dictadas en la Facultad de Ciencias Econ´omicas de la Universidad Nacional del Callado (UNAC) y en el Departamento de Econom´ıa de la Universidad Nacional Agraria la Molina (UNALM) en los cursos de Econometr´ıa I. El objetivo final que se pretende con su publicaci´on es facilitar la difusi´on a los estudiantes e interesados en la pr´actica de Econometr´ıa usando Stata. Este manual no tiene el inter´es de reemplazar un libro te´orico de econometr´ıa. MINEM. Por tal motivo. MINAG. el estudiante podr´a contar con ejercicios resueltos y propuestos en cada cap´ıtulo y cuya informaci´on proviene de fuentes econ´omicas peruanas tales como BCRP. Greene (2010) y Cameron & Trivedi (2009). El orden est´a organizado de tal forma que cualquier estudiante pueda empezar a familiarizarse y utilizar modelos micro y macroeconom´etricos desde la parte b´asica hasta una introducci´on a los temas avanzados de econometr´ıa usando el software Stata. por tanto. Durante el contenido de los temas. Wooldridge (2006). II e Intermedia. INEI. etc. Lo anterior se considera relevante pues el estudio de la teor´ıa y la resoluci´on de ejercicios debe completarse con el an´alisis de problemas reales donde el estudiante compruebe por s´ı mismo lo que aporta la teor´ıa estudiada.

2 Rivas Castillo (UNAC) por su apoyo y motivaci´on en el estudio de la econometr´ıa. . todos los errores son de nuestra entera responsabilidad y agradecer´ıamos comentarios para su mejora de esta primera versi´on. como es de rigor. Sin embargo.

Parte I Introducci´ on al STATA 3 .

.

Entorno de STATA Al momento de iniciar la sesi´on en STATA. esta mostrar´a cuatro ventanas importantes: Figura 2.1: Entorno del STATA 11 5 .Cap´ıtulo 2 Aspectos Generales del STATA 2.1.

Data Windows . 2. 3. Do-File. En el siguiente cap´ıtulo ense˜ naremos como acceder a ellas a trav´es de la barra de herramientas Figura 2. Entorno de STATA Otras ventanas a tomar en consideraci´on son: 1.1. STATA Viewer: Podemos acceder a la informaci´on online y a las ayudas que nos otorga el programa. STATA Browser: Accedemos a la ventana de datos sin poder modificar su contenido. 4.2: Viewer Windows. STATA Graphs: Nos muestra una ventana con el gr´afico que hemos ejecutado. 5. STATA Data Editor: Nos permite digitar y modificar los datos de la misma forma que una hoja de Excel.6 2. STATA Do-File Editor: Es una ventana que funciona como editor de texto para poder guardar y ejecutar una lista de comandos programados.

7 La Barra de Herramientas La barra de herramientas nos permite realizar operaciones rutinarias como abrir.smcl). suspender o resumir una bit´acora (la cual se guardan con extensi´on *. .log o *. Ordena al Stata continuar la ejecuci´on de un comando que fue detenido. Nos permite guardar una base de datos que est´a siendo utilizada. Nos indica la ventana del Stata Graphic. Nos permite abrir la ventana del Stata Browser que est´a oculta. adem´as de otras particularidades. Es u ´til para guardar los resultados mostrados por el Stata Result. Nos permite iniciar el uso del Stata Do-File. Nos permite iniciar. Nos muestra la ventana del Stata Viewer oculta.2.dta. Nos permite imprimir el contenido registrado en la ventana del Stata Result.2. Aspectos Generales del STATA 2.3: La Barra de Herramientas A continuaci´on se explicar´a la funci´on de cada uno de los elementos de la Barra de Herramientas: Nos permite abrir una base de datos con extensi´on *. Ordena al Stata detener la ejecuci´on de un comando. guardar. Figura 2. imprimir alg´ un archivo. cerrar. Nos permite abrir la ventana del Stata Editor que est´a oculta.

la cual contiene una serie de comandos y/o funciones.3. weight: Indica la variable de ponderaci´on.8 2. varlist: Indica la lista de nombres de variables.do : Lee el Do-File. 3.dta : Lee base de datos del entorno de STATA. tambi´en llamado bit´acora. Tipos de Archivo 2. [prefix :] command [varlist] [if expr ] [in] [weight] [using filename] [.log : Guarda los resultados que arroja el STATA. exp: Indica la expresi´on matem´atica utilizada para la condicional. Archivo *. Archivo *. command : Indica el comando del STATA.4. options] Donde: prefix : Permite repetir las ejecuciones de un determinado comando o modificar el input y/o output de la base de datos. 2. Archivo *. 4. .gph : Guarda los gr´aficos creados en el STATA. Tipos de Archivo Stata reconoce 4 tipos de archivos: 1. 2. Sint´ axis de los Comandos del STATA Describe la estructura b´asica de los comandos del lenguaje de programaci´on de Stata.3. Archivo *. if : Indica una expresi´on l´ogica condicional.

Figura 2.2. help language 2. Aspectos Generales del STATA 9 in: Se˜ nala el rango de observaciones que queremos analizar. options: Se˜ nala una o m´as opciones que aplica el comando. Utilizando el comando help language podemos obtener mayor informaci´on de cada uno de sus componentes.4: Expresiones L´ogicas . filename: Se˜ nala el nombre del archivo. .5. Expresiones L´ ogicas del STATA Las siguientes expresiones nos servir´an para la programaci´on en STATA.

5: Esquema de un Proyecto de Trabajo . 2.6.10 2. Organizando un Proyecto de Trabajo Organizando un Proyecto de Trabajo Al momento de trabajar con STATA (espec´ıficamente en un archivo Do-file) es recomendable mantener el siguiente esquema de trabajo: Figura 2.6.

3.ats.com/support Incluye un resumen de lo que hace el STATA. 2. entre ellas tenemos: help : Es muy u ´til si se conoce el nombre comando para la cual se necesita ayuda. En particular se recomienda ver la parte de respuestas: FREQUENTLY ASKED QUESTION (FAQs).8. Guide’s User STATA: La gu´ıa de usuario se accede en la barra de herramientas a trav´es de la siguiente ruta: Help —>PDF Documentation.ucla. Comandos de Ayuda Existen diversos comandos que sirven como ayuda para el manejo de STATA.stata. Otras Fuentes: http://www.7. 2. 11 Recursos del STATA STATA cuenta con una documentaci´on extensa la cual puede encontrarse en el mismo software as´ı como tambi´en en la web. Esta gu´ıa es muy importante para los usuarios que comienzan a trabajar con el STATA.edu/stat/stata/ Provee diversos tutoriales y videos para aprender STATA. http://www. mientras que el STB siempre est´a disponible online. El SJ pueden ser descargados por la web siempre y cuando presenten m´as de 3 a˜ nos de antiguedad.2. . STATA Journal (SJ) y STATA Technical Bulletin (STB): Presentan documentaci´on detallada acerca de nuevos comandos que no est´an incluidos en el software. Aspectos Generales del STATA 2. 1.

Es u ´til ya que no se necesita especificar el “keyword”en su forma completa. se har´a necesario emplear diversos comandos que el software no cuenta en un incio y que son programados por usuarios libres el cual deben ser descargado a trav´es de la web. . Una manera sencilla de realizar este procedimientos es a trav´es del comando update all. search ols net search : Busca en Internet paquetes instalables. help regress search : Busca una palabra clave “keyword”en los archivos oficiales de ayuda. pero no del internet. El inconveniente es que se necesita el “keyword”completo.ado. .hlp). net search random effect hsearch : Busca el “keyword”en todos los archivos de ayuda (con extensi´on *. . Estos comandos se guardan en archivos con extensi´on *. para cudir a este comando escribimos la siguiente sint´axis: .12 2. update all . Instalaci´ on de Nuevos Comandos Durante el desarrollo de los temas estudiados en este manual.9. Instalaci´on de Nuevos Comandos . . the SJ y el STB.9. findit weak inst 2. incluyendo c´odigos del SJ y el STB. examples. hsearch weak instrument findit : Provee la m´as amplia b´ usqueda del “keyword”con informaci´on relacionado al STATA.sthlp o *. Los archivos descargados se guardan en la carpeta que se ubica el software. el cual permite actualizar una lista de archovos ado. FAQs.

2. findit outreg2 Nos saldr´a la siguiente ventana: A continuaci´on.edu/RePEc/bocode/o y se observar´a lo siguiente: . supongamos que queremos instalar el comando outreg2. Otra de las formas m´as comunes para realizar este procedimiento es utilizar el comando findit siempre y cuando se conozca el nombre del comando que se busca. deberiamos escribir en la ventana de comandos la siguiente sint´axis: . hacemos click en outreg2 from http://fmwww.bc.ado para elaborar una mejor presentaci´on de los resultados de nuestras estimaciones. Entonces. Aspectos Generales del STATA 13 Hay que esperar unos minutos que se descargar todos los archivos de programaci´on. Por ejemplo.

y pegarlos en el interior de la carpeta base que se ubica dentro del software en la siguiente ruta C:\Archivos de programa\Stata 11\ado\base. hay que copiar las carpetas con nombres de letras.14 2.9. Instalaci´on de Nuevos Comandos Damos click en la opci´on click here to install y esperamos unos segundos a que se instale el comando. seg´ un como inicia el nombre de cada uno de los comandos descargados. El comando instalado se ubica por default en la ruta C:\ado\plus como se puede apreciar en la siguiente figura: Finalmente. .

. net install outreg2 . los nuevos comandos se descargan en la ruta por defecto de C:\ado\plus.2. Aspectos Generales del STATA 15 Otras herramientas que permiten instalar paquetes de comandos desde la web es el ssc install y el net install.10. Ejercicio Propuesto Por medio de los comandos de ayuda. En ambos casos. el cual es necesario tener conocimiento del nombre del paquete que se quiere instalar. ssc install outreg2 2. descarge y explique en que consiste la siguiente lista de comandos: usespss lmhgl fgtest xttest3 xtcsd sim arma .

10. Ejercicio Propuesto .16 2.

sirve como un mecanismo de seguridad que permite regresar a la base de datos original despu´es de haberle hecho diversas transformaciones. El Do-File STATA cuenta con una ventana que nos permite trabajar con una serie de comandos y almacenarlas. Permite ir corrigiendo posibles errores que se pueden generar en la elaboraci´on y ejecuci´on de nuestro trabajo. Permite replicar los procedimientos en sesiones posteriores sin necesidad de crearlo nuevamente. explicaremos el funcionamiento de esta herramienta. Adem´as. Estos archivos son muy importantes por los siguientes motivos: Permite registrar una de serie de comandos. Para dicho fin. la cual representa todo el procedimiento de nuestro trabajo. 3.Cap´ıtulo 3 Gesti´ on de Base de Datos Aprenderemos en qu´e consiste una sesi´on de trabajo en STATA y exploraremos algunos comandos que nos permitar´an realizar un an´alisis de base de datos haciendo uso del Do-file.1. 17 .

Comentarios en el Do-File El Do-file puede incluir comentarios incrementando el entendimiento de un programa o archivo de trabajo.1. donde STATA ignorar´a tales l´ıneas. colocamos el texto entre los s´ımbolos (/*) al inicio y (*/) al final. se reflejar´a los resultados en la ventana Result View del STATA.18 3.1. Para l´ıneas con m´ ultiples comentarios. 3. *********************** ** MI PRIMER DO FILE ** *********************** *En este cap´ ıtulo elaboraremos nuestro primer Do-File /* .do. Con respecto a las formas de poder ejecutar los comandos. se puede hacer a trav´es del icono (execute do) ubicado en la parte superior derecha de la barra de herramientas del archivo Do-file o presionando los teclados Ctrl+D una vez que sombremos el comando queramos correr. Existen diferentes formas de incluir un comentario: Una simple l´ınea de comentario empieza con un asterisco (*). Por u ´ltimo. Para colocar un comentario en la misma l´ınea donde fue escrito el comando utilizamos dos slash (//). tambi´en se utilizan los s´ımbolos de comentarios con fines decorativo.1. El Do-File Para acceder al Do-file hacemos clic al ´ıcono correspondiente en la barra de herramientas o simplemente presionamos la siguiente sucesi´on de teclas Ctrl+8. STATA entender´a como si fuera una u ´nica l´ınea de comando. Una vez realizada esta acci´on. En el caso de que se haga uso de un comando la cual presenta una expresi´on muy larga podemos utilizar triple slash (///) en medio de la expresi´on y as´ı continuar en la siguiente l´ınea la parte faltante. Recuerde que el archivo Do-file se guarda con extensi´on *.

clear //Limpiamos alguna base de dato que estuviese cargada. mata | results | matrix | programs | ado  Si se desea borrar todo de una sola vez.3. Gesti´on de Base de Datos 19 CURSO: ECONOMETRIA FACULTAD: ECONOM´ IA */ Como se podr´a apreciar en el Do-file elaborado . Es importante saber que este comando presenta algunas opciones que se mostrar´an a continuaci´on: Para remover funciones del MATA1 . se puede usar la siguiente sintaxis: clear  . 3. se usa la siguiente sint´axis: clear all 1 MATA es un lenguaje de programaci´on matricial que puede ser usado por quienes desean calcular iteraciones en un entorno de matrices.2. programas y archivos *. adem´as de matrices. Este comando nos permite limpiar por inercia una base de datos y etiquetas existentes en la memoria del STATA. esta empieza con el comando clear. . Iniciando la Estrucutra de un Do-File Como se explic´o en el esquema usual de un do-file. .ado. los comentarios se registran con color verde.

. estimaciones.3. Es decir. data space max. Para saber en qu´e directorio se est´a trabajando actualmente utilizamos el siguiente comando pwd: . Sin embargo. deber´a asignarse una memoria de 75m (1. entonces.254M 103. variables allowed max.163M 3. entonces la carpeta de trabajo o directorio se encontrar´a en la siguiente ruta C: \Archivos de Programas \Stata 11. con el fin de que el STATA noelimine variable u observaciones. C:\Archivos de Programas\Stata 11 2 Para saber cu´ ales son las diversas opciones que presenta el STATA para trabajar con diferentes tama˜ nos de base de datos recurra al comando help set eligiendo la opci´on memory o simplemente escriba help memory. para no establecer cualquier cifra para la memoria.5 veces el peso de la base de datos. Si por ejemplo. Para realizar esta operaci´on escribimos lo siguiente2 : .000M 1. no disminuya el rendimiento de la computadora y pueda generar nuevas variables. etc. por defecto se trabaja en la carpeta en donde se encuentra ubicado el software. si la base de datos pesa 50m. pero en este caso utilizaremos 100m.4. guardar gr´ aficos. Cameron & Trivedi recomiendan asignar una cantidad de memoria igual a 1.3. Asignando Memoria 3.909M 100. Asignando Memoria Generalmente se suele trabajar con una capacidad de memoria de 20m (megabyte). Manejo de Directorios Cuando se incia una sesi´on en STATA. pwd //Este es el directorio actual donde se est´ a trabajando. RHS vars in models 1.5x(50m)). set memory 100m //Establecemos una memoria de 100 megabyte Current memory allocation current settable value set maxvar set memory set matsize 5000 100M 400 description memory usage (1M = 1024k) max.20 3. el software se ubicase en la ruta C:\Archivos de Programas.

smcl o *. D:\Econometria-Stata 3. *.3. el cual se guarda en archivos con extensi´on *. Figura 3.log. cd "D:\Econometria-Stata" //Nos cambiamos al nuevo directorio de trabajo.1: Manejo de Directorio Supongamos que en el disco D:\ creamos una carpeta con el nombre Econometr´ıaStata la cual nos va a servir para guardar nuestros trabajos. utilizamos el comando cd para cambiarnos al nuevo directorio creado. indicando la nueva ruta entre comillas: . Ahora. Para realizar este procedimiento. entonces. se emplea el comando log3 el cual presenta la siguiente sint´axis: 3 Para una descripci´ on completa del funcionamiento de este comando puede escribir en la ventana de comando help log. Guardar Resultados en Bit´ acoras Los resultados que arroja STATA en la ventana de resultados puede ser almacenados en una bit´acora. .text. el nuevo directorio se encontrar´ıa en la siguiente ruta D:\Econometria.5. Gesti´on de Base de Datos 21 Tambi´en es posible saber lo anterior viendo la parte inferior izquierda del entorno del STATA.

replace smcl *Este comentario se grabar´ a en la bitacora log off //Dejamos de registrar moment´ aneamente los resultados *Este comentario no se guardar´ a en la bit´ acora log on //Volvemos a registrar los resultados *Este comentario se volver´ a a grabar en la bitacora log close //Cerramos la bit´ acora 4 Es importante usar siempre est´a opci´on cuando se crea una bit´acora para poder ejecutar el Do-File sin problemas en posteriores sesiones. replace Para observar una bit´acora ya elaborada en el Result View: type nombre bitacora Para el ejemplo que estamos siguiendo. Si no se usa est´a opci´on es probable que salga el siguiente error: log file already open. append Para sobreescribir en la bit´acora4 : log using nombre bitacora. . Guardar Resultados en Bit´acoras Si desea crear una bit´acora: log using nombre bitacora    .22 3. se puede estructurar el Do-file de la siguiente manera: *Creamos nuestra primera bit´ acora con extensi´ on *. text | smcl Para dejar de registrar moment´aneamente los resultados: log off Para volver a registrar los resultados : log on Para cerrar la bit´acora: log close Para reanudar la bit´acora: log using nombre bitacora.smcl log using primera bitacora.5.

00:15:43 .smcl smcl 14 Feb 2012. Gesti´on de Base de Datos 23 *Este comentario ya no se grabar´ a en la bit´ acora log using primera bitacora. Para ver el contenido de este archivo.smcl name: log: log type: opened on: <unnamed> D:\Econometria-Stata\primera_bitacora.smcl smcl 14 Feb 2012. *Este comentario se volver´ a a grabar en la bitacora .smcl log type: smcl paused on: 14 Feb 2012. *Este comentario se grabar´ a en la bit´ acora reanudada . log close //Cerramos la bit´ acora name: <unnamed> log: D:\Econometria-Stata\primera_bitacora.smcl smcl 14 Feb 2012. 00:15:43 .append //Reanudamos a grabar en la bit´ acora *Este comentario se grabar´ a en la bit´ acora reanudada log close *Vemos lo que grab´ o la bit´ acora type primera bitacora. log close name: log: log type: closed on: <unnamed> D:\Econometria-Stata\primera_bitacora.3. 00:15:43 . log off //Dejamos de registrar moment´ aneamente los resultados name: <unnamed> log: D:\Econometria-Stata\primera_bitacora. *Este comentario se grabar´ a en la bitacora . 00:15:43 name: log: log type: resumed on: <unnamed> D:\Econometria-Stata\primera_bitacora. se observa que se cre´o un nuevo archivo con el nombre primera bitacora. . 00:15:43 name: log: log type: opened on: <unnamed> D:\Econometria-Stata\primera_bitacora.smcl log type: smcl closed on: 14 Feb 2012.smcl smcl 14 Feb 2012. 00:15:43 Si revisamos nuestra carpeta de trabajo.

STATA puede arrojar un mensaje de error diciendo que la bit´acora ya est´a creada. *Creamos una base de datos . siempre se recomienda usar la opci´on replace. 3. (Log Be- Importante: Se sugiere tener en cuenta dos cosas al momento de usar este comando: Al momento de crear una bit´acora con el comando log using. input codigo a~ no sexo salario codigo a~ no sexo 1 2009 0 500 1 2010 0 300 2 2009 1 400 2 2010 1 600 3 2009 0 900 3 2010 0 450 end salario . Creando Base de Datos La manera de editar manualmente una base de datos a trav´es del Do-file es a trav´es del comando input. Creando Base de Datos se debe ir a la venta principal del STATA y hacer clic en el ic´ono gin/Close/Suspend/Resume) y buscar el archivo correspondiente. Esto porque al ejecutar el Do-file m´as de una vez.6. .24 3. Siempre que se crea una bit´acora.6. no se debe olvidar colocar al final de la grabaci´on el comando log close. browse Para observar la base de datos elaborada se debe hacer clic al icono (Data Editor Browse) de la ventana principal del STATA o en su defecto escribir en la ventana de comando browse.

Para abrir una base de datos desde la ventana principal del STATA debemos acceder a la siguiente ruta: File −− > Open.3. Abriendo base de datos del STATA.xls .2: Editando Base de Datos 3. *.txt . etc). 3.7. Gesti´on de Base de Datos 25 Figura 3. Luego aparecer´a un cuadro de di´alogo para buscar y elegir la base de datos que deseamos trabajar. Cargando Base de Datos Existen diferentes formas de cargar una base de datos.7.1. .dta o en otros formatos (*. *.saw. ya sea en formato .

*Cargamos una base de datos del sitema del STATA . para cargarlos se utiliza el comando sysuse.dta (1978 Automobile Data) Si deseamos cargar una base de datos propia.26 3. use enaho01-2010-100. clear all . basta con guardarlo en el directorio actual que se est´a trabajando y cargarlo usando el comando use.dta de la siguiente manera: . En este caso.3: Cargando Base de Datos STATA cuenta con bases de datos dentro de su sistema como ejemplos aplicativos. cargaremos la base de datos denominada enaho01-2010-100. clear all . sysuse auto.dta . Cargando Base de Datos Figura 3. *Cargamos una base de datos de la carpeta de trabajo .7.

xls”. Como caso aplicativo. El comando compuesto insheet using lee base proveniente de una hoja de c´alculo como por ejemplo Excel que son guardados por un spreadsheet o un programa de base de datos guardado como delimitado por comas (*. se ha descargado de la base de informaci´on del Banco Central de Reservas del Per´ u (BCRP) correspondiente al ´Indice General de la Bolsa de Valores de Lima desde enero de 1992 hasta Junio de 2012.3. Gesti´on de Base de Datos 27 Figura 3.4: Cargando Base de Datos En la parte inferior izquierda del entorno del STATA se apreciar´a las variables que contiene la base de datos enaho01-2009-100.dta. .csv) o datos delimitado por tabulaciones (*. donde el archivo que se descarga por defecto es en excel y se ha guardado con el nombre de “igbvl mensual. Importando Base de Datos Seg´ un el tipo de archivo que queremos importar la base de datos debemos usar el comando indicado. 3.2.7.txt).

7. el nombre de las variables ubicada en la primera fila ser´a periodo e igbvl. Luego. Cargando Base de Datos Para importar esta base de datos es importante mencionar que la primera fila de la hoja de c´alculo se registre el nombre de las variables de la forma m´as sencilla 5 . En nuestro caso. y a partir de la segunda fila se comienzan a registrar los datos.28 3. Adem´as. la base de datos a importar debe de comenzar desde la celda A1 . dicha base lo guardamos en nuestra carpeta de trabajo “D:\Econometria I” con formato Texto (delimitado por tabulaciones) o csv (delimitado por comas). 5 Se recomienda designar un nombre corto y sin dejar espacios entre palabras.

clear all . usespss using " Enaho01-2010-100.clear . insheet using igbvl mensual.") .sav . insheet using igbvl mensual. delimiter(" . . Gesti´on de Base de Datos 29 Finalmente utilizamos el comando insheet para importar la base de datos como se indica a continuaci´on: .3.txt. esta gu´ıa trabajar´a en parte con bases de datos proveniente de la Encuesta Nacional de Hogares (ENAHO) que pueden ser descargados del Instituto Nacional de Estad´ıstica e Inform´atica (INEI). Para poder cargar una base de datos con este tipo de formato directamente en el STATA usamos el comando usespss. el cual est´an guardados con formatos del SPSS (*. //Si fue guardado como delimitado por comas .sav ". clear all . Importamos una base de datos desde excel . // Si fue guardado como delimitado por tabulaciones .sav). *Cargamos una base de datos de la carpeta de trabajo con formato *. tab Por u ´ltimo.csv.

File Specification : Indicamos la ruta donde queremos colocar la base de datos convertida haciendo uso del bot´on Browse.7. Convertir Base de Datos STATA cuenta con una herramienta que permite convertir base de datos de SPSS.5: STAT TRANSFER Para acceder a este software basta con hacerle clic y posteriormente nos saldr´a una ventana de dialogo solicit´andonos la siguiente informaci´on: Input File Type : Indicamos el tipo de archivo en la cual se encuentra nuestra base de datos original.3. contamos con la base de datos de la Enaho en formato de SPSS llamada “SUMARIA-2010. File Specification : Indicamos la ruta donde se encuentra nuestra base de datos original haciendo uso del bot´on Browse. SAS.sav”que se encuentra en nuestra carpeta de trabajo. Para nuestro caso ilustrativo. Matlab. al formato *. Output File Type : Indicamos el tipo de archivo al cual deseamos que la base de datos se convierta. Para desarrollar esta aplicaci´on realizamos los siguientes pasos: . Excel.7. Cargando Base de Datos 3. Gauss. etc. el cual queremos convertirlo a un archivo de base de datos del STATA con el mismo nombre y que se guarde en la misma carpeta de trabajo.dta a trav´es del sotfware STAT/TRANSFER. Figura 3.30 3.

. Gesti´on de Base de Datos 31 1. Finalmente hacemos clic en el archivo original llamado SUMARIA-2010.3. 3. En la secci´on Input File Type hacemos clic a la barra desplegable y elegimos el formato SPSS Data File ya que se debe un archivo de base de datos del SPSS. En la secci´on File Specification hacemos clic en el bot´on Browse para definir la ruta donde se encuentra nuestra base original. Observe que en la barra “Unidades”(ubicado en la parte inferir derecha) escogemos el disco D.sav.sav) En el cuadro “Carpetas”hacemos clic en las carpetas seg´ un como se se˜ nala la ruta del archivo de origen D:\Econometria-Stata. En la barra “Mostrar Archivos Tipos”(ubicado en la parte inferir izquierda) por default se muestra SPSS Data File (*. 2. Abrimos la ventana de di´alogo del STAT/TRANSFER.

5.7. Observe que en la barra “Unidades”(ubicado en la parte inferir derecha) escogemos el disco D. En el .dta).32 3. Cargando Base de Datos 4. En la secci´on Output File Type hacemos clic a la barra desplegable y elegimos el formato Stata Version 4-5 la cual es el formato de la base de datos que queremos obtener. En la secci´on File Specification hacemos clic en el boton Browse para definir la ruta donde queremos que se encuentre nuestra base convertida. En la barra “Mostrar Archivos Tipos”(ubicado en la parte inferir izquierda) por default se muestra Stata version 4-5 (*.

. Finalmente hacemos clic en el bot´on Transfer.3. Esperamos unos segundos mientras el programa est´a convertiendo la base de datos. Gesti´on de Base de Datos 33 cuadro “Carpetas”hacemos clic en las carpetas seg´ un como se se˜ nala la ruta donde se guardar´a la base convertida D:\Econometria-Stata. 6. Finalmente escribimos el nombre de nuestra nueva base. este caso sumaria-2010.dta.

Esto porque al ejecutar el Do-file m´as de una vez.dta saved Importante: Al guardar una base con el comando save. STATA puede arrojar un mensaje de error diciendo que ya existe el archivo. *Guardamos la base de datos con formato *. Inspeccionar las variables de la base de datos usando el comando inspect. . usespss using " Enaho01-2010-100.8. Generamos un diccionario de variables con el comando codebook. A veces podr´ıa ser de ayuda hacer una lista de los valores de algunas variable de inter´es para un determinado rango de observaciones a trav´es del comando list.dta .8. Usualmente despu´es de abrir una base de datos. es decir. siempre se recomienda usar la opci´on replace. saber con qu´e esquema de datos y tipos de variables que estamos trabajando. El comando browse nos permite ver la base de datos sin poder modificarla y el comando edit nos permite ver la base de datos pudiendo modificarlo. save modulo100-2010.9. replace file modulo100-2010. Guardar Base de Datos 3.34 3. Guardar Base de Datos Una vez trabajado y modificado la base de datos es posible guardarlo con el comando save. 3.sav . Observar la base de a trav´es del comando browse o edit. recurrimos a la siguiente rutina de inspecci´on de una base de datos: Descripci´on de la base de datos con el comando describe. Inspecci´ on Base de Datos En esta secci´on aprenderemos comandos que nos permitan dar una revisada a la base de datos.sav ".dta. . *Cargamos una base de datos de la carpeta de trabajo con formato *.clear .

Gesti´on de Base de Datos 35 Realizar un cuadro estad´ıstico resumen de diferentes variables num´ericas con el comando summarize. ins p1141 p1142 p1143 p1144 // inspeccionar algunas variables p1141: su hogar tiene : tel´ efono (fijo) Number of Observations # # # # # # # Negative Zero Positive Total 17059 4437 Integers 17059 4437 Total Missing 21496 5680 21496 Nonintegers - 0 1 27176 (2 unique values) p1141 is labeled and all values are documented in the label.dta .dta. clear .0g %8. cable internet .dta" . . *Vemos la ventana de la base de datos . use enaho01-2010-100. d p1141 p1142 p1143 p1144 // describir algunas variables storage display value variable name type format label variable label p1141 p1142 p1143 p1144 byte byte byte byte %8. browse // para observar el Data Window sin modificar . - . *Cargamos la base "enaho01-2010-100.3. *Describimos la base modulo100-2010. p1142: su hogar tiene : celular Number of Observations # # 0 # # # # # # Negative Zero Positive Total 6783 14713 Integers 6783 14713 Total Missing 21496 5680 21496 Nonintegers - 1 27176 (2 unique values) p1142 is labeled and all values are documented in the label.0g p1141 p1142 p1143 p1144 su su su su hogar hogar hogar hogar tiene tiene tiene tiene : : : : tel´ efono (fijo) celular tv.0g %8. *Inspeccionamos las variables .0g %8. br p1141 p1142 p1143 p1144 // observar algunas variables .

p1144: su hogar tiene : internet Number of Observations # # # # # # 0 . units: missing . Numeric 17059 0 4437 1 5680 .: 1 5680/27176 Label pase telefono p1142 su hogar tiene : celular type: label: range: unique values: tabulation: numeric (byte) p1142 [0.: Label pase celular 1 5680/27176 . cable # Number of Observations Negative Zero Positive Total 17425 4071 Integers 17425 4071 Total Missing 21496 5680 21496 Nonintegers - 0 1 27176 (2 unique values) p1143 is labeled and all values are documented in the label.36 3.9.1] 2 Freq. Inspecci´on Base de Datos p1143: # # # # # # su hogar tiene : tv. 6783 14713 5680 Numeric 0 1 . units: missing .1] 2 Freq. *Creamos un diccionario de variables . codebook p1141 p1142 p1143 p1144 // diccionario de algunas variables p1141 su hogar tiene : tel´ efono (fijo) type: label: range: unique values: tabulation: numeric (byte) p1141 [0. Negative Zero Positive Total 19702 1794 Integers 19702 1794 Total Missing 21496 5680 21496 Nonintegers - 1 27176 (2 unique values) p1144 is labeled and all values are documented in the label. .

cable p1144 su hogar tiene : internet type: label: range: unique values: numeric (byte) p1144 [0.4647442 . 1 5680/27176 Label pase internet . cabl tv.1893841 . summarize p1141 p1142 p1143 p1144 // resumen estadistico de algunas variabl > es Variable Obs Mean Std. 17. Min Max p1141 p1142 p1143 p1144 21496 21496 21496 21496 .6844529 . 17425 4071 5680 units: missing . cabl tv. *Realizamos un cuadro estad´ ıstico resumen de algunas variables . cabl pase pase pase pase pase pase 20.3. pase telefono pase telefono telefono celular celular celular celular celular pase pase pase tv. 13. 14. 19.: Numeric 0 1 . list p1141 p1142 p1143 p1144 in 10/20 // listado de valores entre la observaci´ on 10 y 20 p1141 p1142 p1143 p1144 10. 11. *Realizamos una lista de valores de algunas variables . Gesti´on de Base de Datos 37 p1143 su hogar tiene : tv.3918225 . cabl pase .: Numeric 0 1 . 18. cable type: label: numeric (byte) p1143 range: unique values: tabulation: [0. telefono pase pase pase telefono celular celular celular celular celular pase pase tv. Dev. 1 5680/27176 Label pase tv. pase celular tv. 19702 1794 5680 units: missing . 12.1] 2 tabulation: Freq.2765788 0 0 0 0 1 1 1 1 . cabl pase pase pase internet internet 15.2064105 .404738 . 16.0834574 .1] 2 Freq.

63012 Obs Sum of Wgt.0834574 .404738 .detail // resumen estad´ ıstico detallado de algun > as variables su hogar tiene : tel´ efono (fijo) 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles 0 0 0 0 0 Percentiles 0 0 0 0 1 Smallest 0 0 0 0 Largest 1 1 1 1 su hogar tiene : tv. Mean Std.6844529 . Dev. Mean Std.2159872 -. 21496 21496 .012179 10.2064105 .1535249 1.513905 Obs Sum of Wgt. Mean Std. sum p1141 p1142 p1143 p1144.1893841 .4647442 Variance Skewness Kurtosis cable .104812 Obs Sum of Wgt.3918225 Largest 1 1 Variance 1 Skewness 1 Kurtosis su hogar tiene : internet Smallest 0 0 0 0 21496 21496 .07322 .58553 3.0764958 3. Mean Std.793801 1.38 3. Dev. Largest 1 1 Variance 1 Skewness 1 Kurtosis su hogar tiene : celular 0 1 1 1 1 1 1 1 Smallest 0 0 0 0 Smallest 0 0 0 0 Largest 1 1 1 1 .450797 3. Dev. Percentiles 0 0 0 0 0 0 1 1 1 Percentiles 0 0 0 0 0 0 0 1 1 Obs Sum of Wgt. 21496 21496 .9. *Realizamos un cuadro resumen detallado de algunas variables .1638128 1. 21496 21496 .2765788 Variance Skewness Kurtosis . Inspecci´on Base de Datos . Dev.

generar una variable llamada HoGaR es diferente a que si lo denominamos hogar u HOGAR. // variable cuyo valor va de 1 hasta la ´ ultima // observacion en saltos de 1 unidad . //Creaci´ on de variables con "generate" usando funciones . generate alqp2=i105b/2 //la mitad del gasto de alquiler pagado (25304 missing values generated) . Gesti´on de Base de Datos 3. Si bien es cierto que STATA solamente reconoce los comandos con letras min´ usculas.3. la diferencia entre ambos se explica a continuaci´on: El comando generate nos permite generar variables haciendo uso de expresiones matem´aticas. desviaci´on est´andar. como es el caso de: medias. 39 Generando y Transformando Variables Para la creaci´on de nuevas variables. *Generaci´ on de variables . gen ln_alq=ln(i105b) //logaritmo natural del gasto en alquiler pagado (25304 missing values generated) . m´ınimos. promedios m´oviles. Por ejemplo. tambi´en es importante decir que hace una diferenciaci´on de los nombres de las variables entre si son min´ usculas o may´ usculas. generate alqp3=i105b*2 //el doble del gasto de alquiler pagado (25304 missing values generated) . m´aximos. STATA cuenta con el comando generate y egen.10. generate alqp1= i105b^2 //gasto de alquiler pagado al cuadrado (25304 missing values generated) . gen exp_alq=exp(i105b) //exponencial del gasto en alquiler pagado (26825 missing values generated) . El comando egen es una extensi´on del anterior. que permite utilizar expresiones que incluyan funciones m´as complejas del STATA. num´ericas. etc. generate id=_n . gen sq_alq=sqrt(i105b) //ra´ ız cuadrada del gasto en alquiler pagado (25304 missing values generated) . generate N=_N . // variable cuyo valor indica el n´ umero total de // observaciones en la muestra . //Creaci´ on manual de variables . variables estandarizadas. . l´ogicas.

4762596 .40 3. replace telefono=0 if telefono==. sum luz agua Variable Obs Mean luz 27176 .6522667 agua 27176 . Generando y Transformando Variables . El comando replace permite reemplazar o modificar una variable o sus respectivos valores. 0 si no posee . egen median_alq=median(i105b) //mediana del gasto en alquiler pagado . generalmente tendr´a que cumplir algunas condiciones. Si se trata de reemplazar algunos valores de una variable. //Usando el comando "replace" para cambios en la variable . 0 si no posee (12463 missing values generated) .4979161 Min Max 0 0 1 1 . 0 si no posee . //Generando variables dic´ otomicas . browse p1121 luz p111 agua Std. . egen min_alq=min(i105b) //valor m´ ınimo gasto en alquiler pagado . *Transformaci´ on de variables . gen agua =(p111==1 | p111==2 | p111==3) // 1 si el hogar posee agua.5457021 . podemos hacer uso de los comandos replace y recode. //Creaci´ on de variables con "egen" usando funciones . (22739 real changes made) .10. . gen luz =(p1121==1) // 1 si el hogar posee luz. El comando recode permite modificar valores espec´ıficos de una variable. gen telefono=1 if p1141==1 (22739 missing values generated) // 1 si el hogar posee tel´ efono fijo. egen max_alq=max(i105b) //valor m´ aximo del gasto en alquiler pagado En caso que se quiera cambiar los valores de una variable una vez creadas o de las ya existentes. por lo que se debe usar la codnicional if . Dev. egen moda_alq=mode(i105b) //moda del gasto en alquiler pagado . gen movil=0 if p1142==1 // 1 si el hogar posee celular fijo. egen medan_alq=mean(i105b) //promedio del gasto en alquiler pagado . 0 si no posee . Este comando se digita despu´es del comando generate.

replace cable=0 if p1143!=1 (23105 real changes made) . sum tipo_viv viv_alq 3.4647442 .3155471 . 2 si es propia y 0 otro (4629 differences between p105a and viv_alq) .3568831 . 0 s . *Nombrando y Etiquetando Variables .1632691 . .3696178 .3.7496249 Min Max 0 0 4 2 Nombrando y Etiquetando Variables Si se desea cambiar de nombre a una variable se hace uso del comando rename.7527236 . Dev. Min Max 0 0 0 0 1 1 1 1 . gen internet=0 if p1144!=1 (1794 missing values generated) // 1 si el hogar posee servicio de internet.1498013 .gen(viv_alq) //1 si es alquila. replace movil=1 if p1142==0 (6783 real changes made) . Variable Obs Mean tipo_viv viv_alq 21064 21496 1. sum telefono movil cable internet Variable Obs Mean telefono movil cable internet 27176 21496 27176 27176 .597693 Std. br p1141 telefono p1142 movil p1143 cable p1144 internet . //Usando el comando "recode" para recodificar valores espec´ ıficos de las variables .gen(tipo_viv) //0 si es otro tipo de vivienda (970 differences between p101 and tipo_viv) .2483114 .162885 1. 0 si no posee .0660141 Std. //De las ´ ultimas variables creadas cambiamos de nombre a la variable id y N rename id ident_obs ren N ident_total . gen cable =1 if p1143==1 > i no posee (23105 missing values generated) // 1 si el hogar posee servicio de cable. Dev. recode p105a (2/4=2) (5/7=0). replace internet=1 if p1144==1 (1794 real changes made) .11. recode p101 (5=0) (6=0) (7=0) (8=0). Gesti´on de Base de Datos 41 .

label list p101 p101: 1 2 3 4 5 6 7 8 casa independiente departamento en edificio vivienda en quinta vivienda en casa de vecindad (callej´ on. // siguiente forma: label variable ident_obs "Identificador de Observaciones" la var ident_total "Identificador Total" En el caso que tengamos variables categ´oricas. label define p101 0 "Otro" . //Primero definimos una etiqueta llamada "tipo_vivienda" y luego etiquetamos los valores . para este proceso usamos los comandos label define y label value. br p105a viv_alq . br p101 tipo_viv .11. solar o corral´ on) choza o caba~ na vivienda improvisada local no destinado para habitaci´ on humana otro . label list p101 . label value p101 tipo_vivienda . . label list vivienda_alquilada vivienda_alquilada: 0 Otro 1 Alquilada 2 Propia . . podemos etiquetarlo con el comando label variable. es u ´til explicar el significado de cada uno de los valores discretos. solar o corral´ on) choza o caba~ na vivienda improvisada local no destinado para habitaci´ on humana otro . label define vivienda_alquilada 0 "Otro" 1 "Alquilada" 2 "Propia" . label value tipo_viv p101 .add p101: 0 1 2 3 4 5 6 7 8 Otro casa independiente departamento en edificio vivienda en quinta vivienda en casa de vecindad (callej´ on. //De las ´ ultimas variables renombradas lo etiquetamos de la . Nombrando y Etiquetando Variables Si deseamos darle el significado a la variable.42 3. //De la variable categ´ orica que creamos "tipo_viv" podemos etiquetar sus valores de la siguiente forma: . label value viv_alq vivienda_alquilada .

3. . . 767 4 −2. . . 647 4 −1. str20 20 Hasta 20 car´acter Tabla 3.70141173319 ∗ 1038 8 −8. 740 2. STATA por default le asigna un formato float.. Descripci´ on Hasta 1 car´acter Hasta 2 car´acter ..12.70141173319 ∗ 1038 8. 483.1: Tipo de Variable Num´erico Tipo No Num´erico: Este tipo es reconocido como cadena de texto o string.12. Tipo y Formato de Variables 3. 483. Generalmente se encierran entre comillas y presenta la siguiente clasificaci´on: Tipo str1 str2 . 147.1. Tipo de Variables En STATA existen dos tipos de formatos: Tipo Num´erico: Se puede encontrar la siguiente clasificaci´on 6 : Tipo byte int long float double Byte M´ınimo 1 −127 2 −32. 147.9884656743 ∗ 10307 M´ aximo 10 32. Byte 1 2 .2: Tipo de Variable No Num´erico 6 Cuando se genera una variable con datos num´ericos.9884656743 ∗ 10307 Tabla 3.. 620 1. Gesti´on de Base de Datos 43 3.

# e f g c Descripci´ on indica el comienzo del formato si se quiere alinear el resultado a la izquierda si se quiere conservar los ceros principales cifra que indique el tama˜ no del resultado se coloca un punto n´ umero de d´ıgitos despu´es del punto decimal para notaci´on cient´ıfica.2. Formato de Variables La forma c´omo podemos especificar el formato de las variables es de la siguiente manera: Formato Num´erico: Esquema Primero luego (opcional) luego (opcional) luego luego luego luego (cualquiera) luego (opcional) S´ımbolo % 0 # . ex: 1972h2 para d´ıas.12.44 3.3: Formato de Variable Num´erico Formato de Series de Tiempo (Fechas) Esquema Primero luego (opcional) luego luego (ocualquiera) S´ımbolo % t h d w m q y Descripci´ on indica el comienzo del formato si se quiere alinear el resultado a la izquierda se coloca t para indicar formato fecha para horas.0 para formato general (STATA muestra acorde al n´ umero elegido) para el formato de coma (no se permite para notaci´on cient´ıfica) Tabla 3.12.4: Formato de Variable con Fechas . ex: 1972 Tabla 3. ex: 1972m7 para trimestres. ex: 1972w27 para meses. Tipo y Formato de Variables 3. ex: 1972q3 para a˜ nos. ex: 05jul1972 para semanas. ejm: 5000. ejm: 10e + 04 para formato fijo.

86.78 7. *Formatos Num´ ericos . 7. describe ln_alq variable name ln_alq storage type //nueve d´ ıgitos y dos decimales display format value label variable label float %5.78 7. 86. 30.4313 7.0g .78 6.78 6. 69.2f ln_alq . 80.74 7.78239 7. storage type //doce d´ ıgitos y un decimal alineado a la izquierda 7. 80.79 if ln_alq!=. 69. Gesti´on de Base de Datos 45 . list ln_alq if ln_alq!=.2f .78239 6.2f ln_alq . format %-5. in 1/100 //lista las primeras 20 observaciones ln_alq 26. 30. list ln_alq ln_alq 26.2f . describe ln_alq variable name ln_alq display format value label variable label float %-5.785305 .74 7. 69.43 7.73578 7. format %5. 80.3.79 . in 1/100 //lista las primeras 20 observaciones . in 1/100 //lista las primeras 20 observaciones ln_alq 26.43 7. 30. 86. 7. list ln_alq if ln_alq!=. describe ln_alq variable name storage type ln_alq display format value label variable label float %9.

.13. 3.2. . tostring result. br mes month 3. De una Variable Num´ erica a una Variable String A trav´es del comando tostring podemos convertir una variable num´erica a string. br a~ No year . gen year= real(a~ No) .46 3. Tambi´en es posible realizar la misma operaci´on con el comando destring donde la variable generada se coloca como opci´on en la misma l´ınea de comando.13. destring mes. Conversi´ on de Variables En STATA es posible generar una variable num´erica a partir de una variable string y viceversa. Conversi´on de Variables 3. *Conversi´ on de Variables . br result* . month generated as byte . //De una Variable String Num´ erica a una Variable Num´ erica . //De una Variable Num´ erica a una Variable String .13. decode result. gen(resultado1) . gen(month) mes has all characters numeric. De una Variable String Num´ erica a una Variable Num´ erica Para poder realizar esta conversi´on se recurre a la funci´on real() despu´es del comando generate.1. Aqu´ı tambi´en la variable generada se coloca en la misma l´ınea de comando como una opci´on.13. br result* . gen(resultado) resultado generated as str1 .

Aqu´ı tambi´en la variable generada se coloca en la misma l´ınea de comando como una opci´on. Selecci´ on de Muestra y Variables Existen ocasiones que no deseamos trabajar con todas las variables u observaciones de la base de datos. gen(encuesta1) label(encuesta) . label list encuesta encuesta: 1 aceptado 2 rechazado . 47 De una Variable String No-Num´ erica a una Variable Num´ erica Para poder realizar esta conversi´on se recurre al comando encode. br result encuesta* 3. br result encuesta .3.3. Gesti´on de Base de Datos 3. Este comando codifica una variable string a una num´erica. replace encuesta="rechazado" if result>=3 encuesta was str8 now str9 (5680 real changes made) .14.13. //De una Variable String No-Num´ erica a una Variable Num´ erica . . . El comando drop permite eliminar observaciones o variables de la memoria del STATA. gen encuesta="aceptado" if result==1 | (5680 missing values generated) result==2 . Despu´es de ejecutar esta operaci´on es recomendable utilizar el comando label list para observa las etiquetas que fueron asignadas a los valores de la nueva variable. STATA cuenta con los comandos drop y keep para la selecci´on particular de las mismas con la finalidad de obtener m´as memoria para trabajar. El comando keep permite mantener observaciones o variables en la memoria del STATA. por lo tanto. encode encuesta.

//Usando el comando "drop" para eliminar algunas variables . //Si de esta nueva muestra seleccionamos las primeras 1500 observaciones . count //contamos el nuevo n´ umero de observaciones 1500 .clear . count //contamos el n´ umero de observaciones 14830 .48 3. Dev. //Volvemos a cargar la base modificada. .14. //Usando el comando "keep" para guardar algunas variables . //Guardamos la base modifciada con el nombre "base_modif.dta.replace file base_modif. keep in 1/1500 (13330 observations deleted) . drop if agua!=1 (12346 observations deleted) . keep a~ No mes encuesta1 telefono movil cable internet luz agua . 0 Min Max 1 1 . sum agua Variable Obs Mean agua 14830 1 Std. browse agua . save base_modif. //Eliminamos las ´ ultimas 1500 observaciones 0 Min Max 1 1 . browse agua . //Usando el comando "keep" para seleccionar aquellas observaciones que tienen agua y luz . * Selecci´ on de Muestra y Variables . Dev. drop encuesta resultado1 . use base_modif. browse . keep if agua==1 (12346 observations deleted) . Selecci´on de Muestra y Variables .dta. //Eliminamos una muestra . //Elminaci´ on las variables .dta" . sum agua Variable Obs Mean agua 14830 1 Std. .dta saved . browse .

15. //Podemos ordenar de forma ascendente la variable mes . use base_modif. Ordenar Observaciones y Variables El comando sort ordenar observaciones de manera ascendente acorde a la(s) variable(s) se˜ nalada(s).3. *Ordenar observaciones . //Tambi´ en podemos ordenar de forma ascendente variables consecutivamente . //O en forma descendente . gsort -mes . Este puede ser u ´til. drop in -1500/l (1500 observations deleted) .clear . obteniendo una nueva base fusionada. br a~ No mes conglome vivienda hogar a~ No mes conglome vivienda hogar Tambi´en se puede ordenar las variables usando el comando order. si por ejemplo uno desea distribuir las variables de una base de datos a . br mes . 3. count //contamos el nuevo n´ umero de observaciones 13330 3. sort mes . Manipulaci´ on de Base de Datos La utilidad de manipular base de datos incluye reordenar las observaciones y/o variables. br mes . En cambio el comando gsort nos permite ordenarlo de manera ascendente como descendente.1.15. realizarle cambios temporales y guardarlos para luego acceder a otra base de datos y as´ı combinarlos.dta. count //contamos el n´ umero de observaciones 14830 . Gesti´on de Base de Datos 49 . sort . .

Min Max i105b -> tipo_viv = . .0779 294 3648 . sort tipo_viv . . -> tipo_viv = departamento en edificio Variable Obs Mean i105b 213 4623. Variable i105b 328 1190. Dev. //Tambi´ en podemos ordenar las variable de forma alfab´ etica .61 Std. //Calculamos un cuadro resumen estad´ ısitico del monto de alquiler anual por tipo de vivienda . alphabetic Estos comandos son importantes al usar el prefijo by(). Dev. //Podemos order en el siguiente orden las variables .033 -> tipo_viv = vivienda en quinta Variable Obs Mean i105b 58 2682. Min Max 723.066 603 21524 Std. Min Max 120 120 Std. Min Max 2031.50 3. .309 60 30460 Std. solar o corral´ on) Variable Obs Mean Std. *Usando el prefijo by() . by tipo_viv : sum i105b if p105a==1 -> tipo_viv = Otro Variable Obs Mean 1 120 i105b -> tipo_viv = casa independiente Variable Obs Mean i105b 1102 2301.15. *Ordenar variables . Manipulaci´on de Base de Datos otras bases. order a~ No mes conglome ubigeo vivienda hogar . Min Max 3517.028 761.9599 120 4595 Std. Dev. Dev. order _all.373 241 15004 . Min Max 2411.603 -> tipo_viv = vivienda en casa de vecindad (callej´ on. Dev. que nos permite realizar algunas operaciones por grupo de observaciones. Dev.805 Obs Mean 36 1358.

Min Max i105b -> tipo_viv = .9599 120 4595 Std. //Tambi´ en podemos escribir del siguiente modo: . Gesti´on de Base de Datos 51 . -> tipo_viv = departamento en edificio Variable Obs Mean i105b 213 4623. desarrollar algunos c´alculos y entonces retornar a la base original.033 -> tipo_viv = vivienda en quinta Variable Obs Mean i105b 58 2682. es necesario realizar cambios temporales a una base de datos.805 Obs Mean 36 1358.603 -> tipo_viv = vivienda en casa de vecindad (callej´ on. .0779 294 3648 Preservar y Restaurar Base de Datos En algunos casos. Min Max 723.028 761. Min Max 2411. El comando restore se usa inmediatamente despu´es del comando preserve.3. Min Max 2031.16. 328 1190. Dev. bysort tipo_viv : sum i105b if p105a==1 -> tipo_viv = Otro Variable i105b Obs Mean 1 120 -> tipo_viv = casa independiente Variable Obs Mean i105b 1102 2301.309 60 30460 Std. Min Max 3517. Dev. Dev. El comando preserve nos permite retener la base de datos y el comando restore nos permite regresar a la base de datos original.61 Std. Min Max 120 120 Std. Dev. Variable i105b 3. Dev.066 603 21524 Std.373 241 15004 . solar o corral´ on) Variable Obs Mean Std. Dev.

Min Max 5 6461. preserve . Dev.75 Std. replace i105b=i105b/12 i105b was long now double (1872 real changes made) . Min Max 3835.722 Std. //Si calculamos temporalmente el alquiler mensual . Tambi´en es u ´til para crear variables dummy con ayuda del comando generate y adem´as tabular por tipo de individuo con el prefijo by. Min Max 3835.3935 Variable Obs Mean i105b 1872 2752.5 60 77541 .52 3.722 319.1. Dev.17. Dev.625 . sum i105b Variable Obs Mean i105b 1872 229.5 60 77541 Std. sum i105b 3.17. entre estas tenemos: 3. Tablas y Tabulaciones En esta secci´on veremos diversas formas de presentar tablas de estad´ısticas descriptivas. Tablas y Tabulaciones . El comando tabulate puede mostrarnos tablas tanto de un solo sentido como de doble sentido .17. restore . Tabulate El comando tabulate muestra una tabla la cual se˜ nala una lista de los distintos valores que tiene una variable con su frecuencia absoluta. Es recomendable usar este comando para aquellas variables con pocos valores diversos. sum i105b Variable Obs Mean i105b 1872 2752. *Preservar y Restaurar base de datos . porcentual y acumulada.

Percent Cum. by tipo_viv: tab agua -> tipo_viv = Otro Freq.05 0.053 642 197 1.064 100. tabulate tipo_viv. Percent Cum.62 90.74 93. Otro casa independiente departamento en edificio vivienda en quinta vivienda en casa de vecindad (callej´ on.32 4.00 Total 20. 969 18. 77.61 90.99 Total 970 100.09 3.12 3.3.69 93.09 3.121 4.00 0 1 747 223 77. gen(dum_viv) .00 RECODE of p101 (tipo de vivienda) Freq. br tipo_viv dum_viv* .963 100.94 5. Otro casa independiente departamento en edificio vivienda en quinta vivienda en casa de vecindad (callej´ on.01 100.00 .69 93.80 94.68 100.61 86.94 5.00 Total 21.133 642 198 1. //generamos variablesdummy con tabulate .102 4.00 . 970 18.61 86. Gesti´on de Base de Datos 53 . //Tabulaci´ on de un solo sentido .01 22.68 100.06 0. // TABULATE . agua Percent Cum.74 100.05 0. //Tabulaci´ on por grupos .00 Total 21. *Tabulaciones y Tablas .62 86.94 5.00 RECODE of p101 (tipo de vivienda) Freq.74 94. tab tipo_viv if i105b>300 .121 4. tabulate tipo_viv RECODE of p101 (tipo de vivienda) Freq.064 100. 970 18.74 94.32 4. Otro casa independiente departamento en edificio vivienda en quinta vivienda en casa de vecindad (callej´ on. Percent Cum.133 642 198 1.26 4.61 90.

00 -> tipo_viv = departamento en edificio agua Freq. Percent Cum.94 94.00 Total 6.51 100.231 13. 0 1 67 1. 31.121 100.112 100.02 Total 1.00 Total 198 100.749 363 94.00 -> tipo_viv = .115 1.00 -> tipo_viv = vivienda en casa de vecindad (callej´ on.06 100.351 31. tab agua luz agua luz 0 1 Total 0 1 8.00 100. 0 1 1 197 0.176 . Tablas y Tabulaciones -> tipo_viv = casa independiente agua Freq.054 5. agua 5.133 100.450 17.89 100.17.06 5.00 Freq.54 3. //Tabulaci´ on de doble sentido . solar o corral´ on) agua Freq. 0 1 5.00 -> tipo_viv = vivienda en quinta agua Freq. Percent Cum.11 Total 18.98 100.00 Cum.726 27.782 12.335 4. 1 642 100.830 Total 9.89 68.346 14.00 .495 12.51 99. Percent 0 1 5.00 Total 642 100. Percent Cum. Percent Cum.49 0.98 94.

495 91.00 17.87 100.00 14.77 100.13 100.00 100.87 4.00 Table El comando table nos permite crear tablas de doble y triple sentido.77 100.00 45. tab agua luz.73 85.00 45.87 12. row col nofreq Key row percentage column percentage luz 3.335 9.115 65.13 91.17.27 23.57 Total 9.00 100.00 100.726 65. .73 85.450 34.346 100.00 65.43 1 1.13 13. tab agua luz. Gesti´on de Base de Datos 55 .830 100.176 100.2.13 14. //TABLE .00 . row col Key frequency row percentage column percentage luz agua 0 1 Total 0 8.00 14.43 1 9. mostrando las frecuencias absolutas o porcentuales visto de forma horizontal o vertical. agua 0 1 Total 0 65.3.00 54.23 100.27 23.00 27.23 100.00 76.00 54.00 76.87 34.231 34.57 Total 34.

495 12. table agua luz.726 27.335 1 4. table agua luz tipo_viv.115 1.830 Total 9.346 14.176 .179 642 1 1 196 vivienda e 0 1 9 8 58 1.115 1. row col luz agua 0 1 Total 0 1 8.989 11. Tablas y Tabulaciones .335 4. table agua luz.231 13.231 13.56 3. //Tabla de tres entrada .830 Total 9.046 .115 1.335 4.scol agua 0 1 Otro 0 622 153 1 125 70 RECODE of p101 (tipo de vivienda) and luz casa indep departamen vivienda e 0 1 0 1 0 1 1.231 13. //Tabla de doble entrada .726 27.450 17.495 .793 1.793 1.17.179 departamen 0 1 642 vivienda e 0 1 1 1 196 vivienda e 0 1 9 8 58 1.172 3.176 .346 14. row col scol luz agua 0 1 Total 0 1 8.046 . table agua luz luz 0 agua 0 1 8. table agua luz tipo_viv RECODE of p101 (tipo de vivienda) and luz agua 0 1 Otro 0 622 153 1 125 70 casa indep 0 1 1.172 3.450 17.989 11.495 12.

27e+07 .0103093 0 0 1 10 .173 13.994608 1.0010309 31.334 4.4009779 .831183 1.6811338 .01042 2659. Gesti´on de Base de Datos agua 0 1 3.0010309 0 0 1 1 .89e+08 1. cv. //TABSTAT .0321081 .177227 1.0102135 9.133 Tabstat El comando tabstat provee un resumen estad´ısticos que permite m´as flexibilidad que el summarize.648303 . min. stat(mean median min max sum sd va cv sk k) Summary statistics: mean.90848 .1648525 1.208184 0 0 1 3775 .6842266 .2681465 .424 1.101062 .0779794 0 0 1 1414 .001 . skewness. //Tabla con estad´ ısticos descriptivas . max.2010309 0 0 1 195 .491969 3. sd.400247 0 1 .066363 casa independien . p50. sum.231 .283863 2.09664 968. 57 RECODE of p101 (tipo de vivienda) and luz Total 0 1 2.3.695897 95.1607832 1.836486 1801 1 1 60 0 0 60527 1 1 3167590 12351 15168 3563.339759 .17.14482 31.605 .0719026 3. tabstat i105b agua luz internet telefono.by(tipo_viv) /// .7 2.5 12150.4660499 .147774 10. variance.438685 3.3698442 1.3.409775 -.225972 . kurtosis by categories of: tipo_viv (RECODE of p101 (tipo de vivienda)) tipo_viv i105b agua luz internet telefono Otro 12150.31116 . .4421404 6.5 120 24181 24301 17013.1367847 1.4060203 .69523 1.7773367 -1.437485 3.2298969 0 0 1 223 .604252 4.4209834 .950296 1.2172025 .819659 75.803013 9.

50e+07 .955407 -13.0202031 1.238483 .17.111444 7.056246 .934518 14.5012419 .066554 Total 1 1 1 1 642 0 0 0 .012713 .6752962 .2772252 .226 3.0768538 3.6413555 1.6868116 .4660048 7.8215913 1798 1 1 60 0 0 77541 1 1 5104207 14467 17306 3866.1819464 1.1241463 -3.484855 2780.4949495 0 0 1 98 .96442 -13.0051 .0149484 .2151116 .5436137 0 1 0 0 1 1 251 349 .950341 1.5146 196.2371624 .373 .8055866 -1. .1 .603 .0458917 4.9949495 2187 1 1 241 0 0 15004 1 1 155591 197 197 2031.625 .1364853 0 0 1 153 .437551 3.304737 3.1179623 2.249079 .01234 .2373737 0 0 1 47 .000408 vivienda en casa 1196.822259 .0481713 0 0 1 54 .0710669 .79491 63.4984826 .96442 24.50e+07 1. 1 1 1 1 642 0 0 0 .58 3. .742873 -.0050505 .2081751 0 0 1 4385 .199713 1.4060124 .1222636 . .2512434 1.7572393 .4883472 .4638013 .3828655 1.0838872 0 0 1 1767 .71415 -7.4265517 .164846 1.030668 .796963 1.0714277 3.1751223 1.220174 18.9949495 .9402319 .002056 10.0714277 .069 .95658 .2484849 1.2142236 .679958 113.2522382 .0710669 4126476 .3434564 .234514 2.809 3642 603 77541 1363151 5918.9169794 .3909657 .4468922 -.984835 1 1 0 0 1 1 1054 1104 .5848 1.524024 .80987 .57581 88.43645 vivienda en quin 2682.516435 2.370189 .117748 5. Tablas y Tabulaciones departamento en 5324.146586 1.64897 3.274 966 120 4595 393574 767.0051 196.0050505 .390838 .447123 4.579983 6.2367 588652.

Formas de Base de Datos 3. 3 2009 0 500 8. Formas Long y Wide El comando reshape nos permite transformar una base de datos de forma larga (long) a una de forma ancha (wide) y viceversa. input codigo a~ no genero ingreso codigo a~ no genero 1. 2 2009 1 600 5. //Reshape . . 2 2010 1 900 6. 1 2009 0 500 2. browse ingreso . clear all . Como se muestra a continuaci´on: Figura 3. end . 3 2011 0 400 10.3.18. 2 2011 1 450 7.18.1. 1 2010 0 300 3. esta distinci´on es importante para an´alisis de panel data.6: Fomas de Base de Datos Long y Wide En general para efectos de estimaci´on es necesario que la base de datos este en formato long. Gesti´on de Base de Datos 59 3. 1 2011 0 400 4. 3 2010 0 300 9. *Formas de Base de Datos .

save base_wide. Para hacer esta operaci´on recurrimos al comando collapse.dta saved . replace file base_wide. m´aximo. *long -> wide . reshape wide ingreso. *wide -> long . ya sea por el promedio. 3 Number of variables 5 j variable (3 values) xij variables: ingreso2009 ingreso2010 ingreso2011 -> -> -> a~ no -> ingreso Number of obs. *buscando cuanto gan´ o en total cada persona en el periodo . replace file base_long. Colapsar Base de Datos Hay ocasiones en que la base de datos con forma long puede requerirse para colapsarlo tal que cada grupo de individuos este representada por una observaci´on en particular.19. save base_long. etc. reshape long ingreso.i(codigo) j(a~ no) (note: j = 2009 2010 2011) Data 9 4 . browse . preserve . m´ınimo.19. Colapsar Base de Datos . browse 3. //Collapse . . Number of variables j variable (3 values) xij variables: > 011 .dta saved . la mediana..60 3. de alguna variable en particular.i(codigo) j(a~ no) (note: j = 2009 2010 2011) Data long -> wide 9 4 a~ no -> -> -> 3 5 (dropped) ingreso -> ingreso2009 ingreso2010 ingreso2 wide -> long Number of obs. desviaci´on est´andar. la suma.

save collapse_saltot. save collapse_otro. Fusi´ on de Base de Datos Es com´ un la combinaci´on de varias bases de datos. preserve .3. 2. preserve . collapse (mean) ingreso.dta saved . 3. . . 3. . save collapse_salprom. restore .replace file collapse_otro.dta saved . *buscando cuanto gan´ o en total y en promedio cada persona en el periodo a la vez . 2. *buscando cuanto gan´ o en promedio cada persona en el periodo .by(codigo) . 3.by(codigo) . Los comandos asociados a estas operaciones son merge. collapse (sum) sum_ingreso=ingreso (mean) mean_ingreso=ingreso. Gesti´on de Base de Datos 61 .replace file collapse_saltot.20. list codigo sum_in~o mean_i~o 1 2 3 1200 1950 1200 400 650 400 1. collapse (sum) ingreso. restore 3. append y joinby.by(codigo) . list codigo ingreso 1 2 3 1200 1950 1200 1. .dta saved . list codigo ingreso 1 2 3 400 650 400 1. Se va a mostrar dos operaciones b´asicas: a˜ nadir variables y a˜ nadir observaciones. restore .replace file collapse_salprom. 2.

Al realizar el merge se crea una variable merge de manera autom´atica que toma valores dependiendo si el registro de los datos est´a presente en una de las bases o en ambos. 2 2010 1 900 6. uno se va a denominar base master al cual se le van a˜ nadir las variables y una base using la cual contiene las variable que se van a a˜ nadir a la base master. sort codigo a~ no . 2 2011 12 7.dta saved . replace file base_using.20. es decir. 1 2010 0 300 3. 3 2009 5 8.5 9. 2 cuando aparece en la base using y 3 cuando aparece en ambos. 1 2010 19 3. save base_master. sort codigo a~ no . 2 2010 11 6.5 10. une dos bases de manera horizontal. *Fusi` on de Base de Datos . 2 2011 1 450 7. 3 2009 0 500 8. . *Base Using . *merge casado 0 1 1 0 0 1 1 1 . Este comando requiere de dos bases de datos. //MERGE . 3 2011 0 400 10. *Base Master . 1 2009 18 2. end ingreso . clear all . 3 2010 5. save base_using. 1 2011 19. 2 2009 1 600 5. replace file base_master. input codigo a~ no exper casado codigo a~ no exper 1. 1 2011 0 400 4. 2 2009 10 5. Fusi´on de Base de Datos El comando merge se utiliza para a˜ nadir variables.75 1 4. 1 2009 0 500 2.dta saved . Cuando el valor de la variable merge es 1 quiere decir que el dato solo aparece en la base master. 3 2011 6. Los ficheros de datos deben de tener una variable de identificaci´on y adem´as deben de estar ordenados por dicha variable.62 3. clear all . end . input codigo a~ no genero ingreso codigo a~ no genero 1. 3 2010 0 300 9.

00 . clear . replace file base_append.00 9 100. es decir. drop _merge Freq. 1 2 3 4 end codigo 2008 2008 2008 2008 a~ no 17.00 100. 5. une a dos bases de manera vertical. see [R] merge for new syntax) . browse . 4. tabulate _merge _merge 3 Total . una master y otra using. //APPEND .dta saved El comando append se utiliza para a˜ nadir observaciones. 9 100. save base_full. . save base_append. Gesti´on de Base de Datos 63 . La base master . input codigo a~ no experiencia casado genero ingreso 1.dta saved El comando joinby forma todo los pares de combinaciones dentro de cada grupo a partir de dos bases de datos. Percent Cum. sort codigo a~ no . Aqu´ı tambi´en ser´a necesario una base master y una base using. . save base_full. browse . . 3.5 3 experie~a 0 0 1 0 0 casado 400 1 0 1 genero ingreso 300 540 800 . replace file base_full. use base_master.3. . clear sort codigo a~ no browse append using base_append . *base using . adem´as la base originada tendr´a una forma long. browse . replace file base_full. clear .dta saved .8 9 4. 2. merge codigo a~ no using base_using (note: you are using old merge syntax. *base master use base_full. .

tabulate _merge _merge Freq.64 3.65 4. sort a~ no .21.unmatched(both) join on common variables: a~ no .21. only in master data both in master and using data 4 9 30. save base_full.00 . Percent Cum. joinby using base_joinby. clear . end tc . 2011 2. browse . sort codigo a~ no . Ejercicio Propuesto Se muestra la base de datos concerniente a la demanda de electricidad por departamentos para los periodos 2010-2011.77 69. //JOINBY . *base master . en el un archivo de Excel con el nombre de “demanda electricidad“.23 30. clear .dta saved 3. save base_joinby. drop _merge . replace file base_full.89 3. 2010 2. Las variables a considerar en esta base son los siguientes: . 2009 3.00 Total 13 100. browse .dta saved . replace file base_joinby.01 2.77 100. entonces. . input a~ no tc a~ no 1. Ejercicio Propuesto contiene variables para cada individuo clasificado por grupos y la base using contiene variables a nivel de grupos. el comando joinby colocar´a los valores de las variables seg´ un al grupo que pertenece cada individuo. *base using . use base_full.

7. 3. A continuaci´on elimine la variable “dep1“y renombre la variable “dep1“por dep. la cual se origine de la divisi´on entre la variable facturaci´on y ventas. ¿C´omo hubiese sido si codificase la variable “departamento“de manera directa creando una nueva variable llamada dep2 y una nueva etiqueta de valores llamada label dep2? . luego guarde el archivo “demanda electricidad“en dicha carpeta. desarrollar una etiqueta a los valores para esta variable con el nombre label dep1.dta“con el nombre “Dda Elect“. Adem´as. 5. . Se desea crear una nueva variable llamada precio. 4. Hacer una descripci´on general de la base de datos siguiendo los criterios que se desarrollaron en la clase (tratamiento de variables). Crear en el disco D: una carpeta de trabajo llamado Ejercicio1. 6. establezca una memoria de 50 megabytes. Es decir. En un archivo Do-File escriba una plantilla de inicio. Facturaci´ on: Es la venta de electricidad medido en Miles de d´olares Cliente: Son los clientes de energ´ıa el´ectrica beneficiados de este servicio. escriba como comentario sus datos zersonales (nombre y apellidos). Se pide codificar la variable “departamento“de manera manual creando una variable llamada dep1. 8. cambie la ruta de trabajo y cree una bit´acora con el nombre de Soluci´on1 y formato de texto. Se pide que a partir del STATA TRANSFER convierta el archivo del Excel al archivo en “. limpie la base de datos.Y establecer esta nueva variable en formato con solo dos decimales. 2. Importar la base de datos al STATA. Gesti´on de Base de Datos 65 Venta: Es la demanda de electricidad medida en Mega Watt -hora (MW-h). A partir de este archivo se le pide lo siguiente: 1. 9.3. respetando un orden alfab´etico de los nombres de los departamentos.

12. . Cree una nueva variable de facturaci´on en miles de soles. m´aximo. cliente y precio que se llamen ln vta. 13. 3. Y a continuaci´on etiqueta las variables con las siguientes descripciones: Logaritmo de Ventas. Sugerencia: Genere una columna de variable numerica para los a˜ nos y otra para los meses de forma independiente. asimetr´ıa) para las variables ln vta. ln fact. usando dos m´etodos diferentes. ln pbi. Para ello. Logaritmo del PBI. por US$) mensual.21. mediana. Genere nuevas variables que sean el logaritmo natural de la variable venta. Luego guarde la base de datos modificada con el nombre “Dda Elect modif. Ejercicio Propuesto 10. ln pbi.66 3. recurra a la p´agina del BCRP y descarge la serie del Tipo de Cambio (TC) Bancario Nuevo Sol/D´olar-Venta (S/. crear una variable identificadora con la variable a˜ no y trimestre.2 y 3 ser´ıan igual a 1 por ser el primer trimestre. curtosis. por ejemplo: el mes 1. desviaci´on est´andar. Ahora se pide un cuadro de estad´ısticos (como la media. 11. ln cte y ln precio. m´ınimo. para el mismo periodo de an´alisis (2010-2011). ln fact. Luego. Ahora se requiere convertir la unidade de la variable facturaci´on a miles de soles.5 y 6 ser´ıan 2 por ser el segundo trimestre y as´ı sucesivamente. Sugerencia: Genere una variable que permita identificar a que trimestre pertence cada mes. Luego realice los siguientes procedimientos: 1. 2. Fusione la base de datos de la demanda de electricidad y del tipo de cambio. pbi. ln cte y ln precio por departamento y en forma global. Realizar un an´alisis descriptivo de las variables ln vta. Logaritmo de Clientes y Logaritmo de Precio. Transforme la abse de datos del Tipo de Cambio de la manera adecuada para ser importada al STATA. ln cte y ln precio por a˜ no y departamento. ln pbi. los meses 4.dta“. Calcule el Tipo de Cambio Promedio trimestral usando el comando collapse. 4. ln fact. Logaritmo de Facturacion. varianza. facturaci´on.

graph matrix : Matrices de Scatterplots. y otros entre dos variables. graph box : Gr´aficas de caja y bigotes. Para cada uno de estos gr´aficos existen muchas opciones 1 . Comenzaremos demostrando siete tipos de gr´aficos: histogram : Histogramas graph twoway : Scatterplot. graph bar : Gr´aficas de barras graph dot : Gr´aficas de puntos.1. histogramas. l´ıneas. ´areas. Introducci´ on a STATA GRAPH STATA presenta una amplia variedad de gr´aficos. 1 Para observa otras tipos de gr´ aficos y comandos relacionados a estos. 67 . etc. graph pie : Gr´aficas de pastel o pie. la cual abarca figuras como: matrices de ploteos.Cap´ıtulo 4 Gr´ aficos en STATA 4. l´ıneas. caja y bigote. se recomienda tipear en la venta de comandos help graph other.

y el title() que aparece en la parte superior del gr´afico. la cual contiene informaci´on referente a la situaci´on de empleo que tiene un individuo en el mercado laboral. start=0. width=2) title("Histograma del Ln. utilizaremos la base de la Encuesta Permanente de Empleo (EPE) correspondiente al trimestre m´ovil Diciembre-Enero-febrero del a˜ no 2010. set mem 200m .1 muestra un histograma simple del ingreso total del individuo ingtot convertido en logaritmo.dta. *HISTOGRAMA .2. Tipos de Gr´ aficos Los comandos del STATA GRAPH empiezan con la palabra graph (aunque en algunos casos esto es opcional) seguido por la palabra que indica el tipo de gr´afico. histogram lningtot. *generamos el logaritmo del ingreso total gen lning=ln(ingtot) .clear . A continuaci´on describiremos los diferentes tipos de gr´aficos que se puede elaborar en el ambiente del STATA. Para ilustrar este comando. Este figura revela que mayor parte de la poblaci´on presenta un ingreso total expresado en logaritmo no mayor a 10. 4.1 presenta dos opciones: frequency (en vez de la funci´on de densidad que aparece por defecto) el cual se muestra en el eje vertical. Esto se genera de la siguiente forma: . donde dicha variable lo denominamos lningtot.2. del Ingreso Total") La figura 4. cd "D:\Econometria-Stata\graficos" . set more off .2. Tipos de Gr´aficos 4. clear all . Histograma La funci´on de densidad de una variable puede ser estimada usando un histograma a trav´es del comando histogram. use trim_dic08-ene-feb09.68 4. La figura 4. frequency (bin=49.1. *---------. .

La primera barra del histograma comienza en 0. histogram lningtot.25) (bin=49. 4. Los marcadores sobre el eje y desde 1 hasta 800. Gr´aficos en STATA 69 Figura 4.1: Histograma (1) La figura 4. .5 unidades. El eje y est´a etiquetada desde 0 hasta 800. 2.4. width=2) .25. con incrementos de 125 unidades. start=0. 3. del Ingreso Total") /// xlabel(0(2.5)10) ylabel(0(250)800) ytick(0(125)800) start(0) width(. con incrementos de 250 unidades. con incrementos de 2. El ancho de cada barra (o bin) es 0. 5.2 contiene una versi´on con mayores mejoras (basado en algunos experimentos para encontrar los valores correctos): 1. frequency title("Histograma del Ln. El eje x est´a etiquetada desde 0 hasta 10.

. Otra posibilidades son las opciones fraction que muestra la fracci´on de la data y frequency especificado en la Figura 4. Tipos de Gr´aficos Figura 4. requiriendo una barra para cada valor de la variable.70 4.2: Histograma (2) Otras u ´tiles opciones son los siguientes: bin : Muestra un histograma con # de bins (o barras). discrete : Especifica que la data es discreta.2. el n´ umero # se especifica entre 0 < # < 100.1. norm : Sobrepone una curva normal sobre el histograma. Podemos especificar bin(#)o start(#) con width(#). basado sobre la media muestral y desviaci´on est´andar. percent : Muestra los porcentajes en el eje vertical. el histograma por default muestra la densidad (density) lo que quiere decir que las barras est´an escaladas de tal forma que el a´rea bajo la gr´afica sume la unidad. addlabel : Etiqueta la parte superior de las barras del histograma con la frecuencia de datos. pero no ambos. gap(#) : Indica el espacio entre las barras.

. start=0. frequency title("Histograma del Ln.4. del Ingreso Total") /// xlabel(0(2. Note el cambio de construcci´on de gr´aficos desde la figura 4.3 ilustra un ejemplo con algunos otras opciones de comando del histogram. entonces experimentamos la suma de opciones para obtener una figura que se muestre claramente. 10lnN/ln10).5)10) ylabel(0(250)800) ytick(0(125)800) start(0) width(. Este es un patr´on normal para la construcci´on de gr´aficos en STATA: iniciamos por lo m´as simple.3. . Con los histogramas tambi´en podemos especificar nuestro propios t´ıtulos en el eje de las abscisas con xtitle() y en el eje de la ordenada con ytitle(). En la figura 4.3: Histograma (3) 2 Ver help kdensity para m´ as detalle. histogram lningtot. Gr´aficos en STATA 71 kdensity : Sobrepone un estimador de densidad de kernel sobre el histograma2 . width=2) Figura 4.25) /// norm gap(5) (bin=49. √ El n´ umero de intervalos por default es min( N .1 hasta m´as elaborada figura 4.

by(p107) percent bin(10) Figura 4. histogram lningtot.72 4. pero esta vez incluye un tercer elemento que se˜ nala la distribuci´on para todos los individuos en su totalidad.total) percent bin(10) . histogram lningtot. Tipos de Gr´aficos Supongamos que queremos saber como se distribuye el logaritmo del ingreso total seg´ un el sexo del individuo (representado por la variable p107).4: Histograma (4) La siguiente figura 4. by(p107.5 contiene un gr´afico similar por el grupo de g´enero.2.4 muestra un ejemplo en la cual expresamos en porcentajes sobre el eje de la ordenada y los datos agrupados en 8 bins. La figura 4. . .

haremos un ploteo entre el logaritmo del ingreso total y los a˜ nos de educaci´on del individuo representado por la variable p108. Para ilustrar este tipo de gr´afico.2. . Gr´aficos en STATA 73 Figura 4. Graph Toway Scatterplot Los diagramas de dispersi´on de puntos (scatterplot) se accede a trav´es del comando graph twoway scatter.2.5: Histograma (5) 4. cuya sint´axis general es: graph twoway scatter x y donde y es la variable que se muestra en el eje vertical y x en el eje horizontal.4.

respectivamente. El mismo efecto podr´ıamos obtener si incluimos la opci´on msymbol(circle) o escribimos esta opci´on de manera abreviada como msymbol(O). xtitle() para controlar las etiquetas de los ejes. graph twoway scatter lningtot p108 Figura 4. la cual son c´ırculos s´olidos. La figura 4. El scatterplot tambi´en permite controlar las formas.2. .6: Scatter Plot (1) De la misma manera que en el hsitograma. podemos usar xlabel().1 muestra las diversas formas de marcadores para la dispersi´on de puntos. Tipos de Gr´aficos . o t´ıtulos. La Tabla 4. colores. tama˜ nos y otros atributos.6 emplea marcadores por defecto. xtick().74 4. los marcadores de los ejes.

los ploteos se diferenciar´an visualmente por medio de un ponderador weight. msymbol(Oh) 3 . puede causar mucha confusi´on y desorden. as´ı que nos concentraremos solamente en aquellos individuos que no tienen un nivel educativo (representado por la variable p109a y cuyo valor es 1).7.1: Opciones de mysimbol() Un uso interesante de este tipo de gr´afico es hacer que el tama˜ no de los simbolos sean proporcionales a una tercera variable. como se muestra la figura 4. Dado que son muchas observaciones. Gr´aficos en STATA 75 msymbol() Abreviaci´ on circle O diamond D triangle T square S plus + x X smcircle o smdiamond d smsquare s smtriangle t smplus smplus smx x circle hollow Oh diamond Dh triangle hollow Th square hollow Sh smcircle hollow oh smdiamond hollow dh smsquare hollow sh smtriangle hollow th point p none i Descripci´ on circulo s´olido diamante s´olido triangulo s´olido cuadrado s´olido signo + letra ”x” peque˜ no c´ırculo s´olido peque˜ no diamante s´olido peque˜ no cuadrado s´olido peque˜ no diamante s´olido peque˜ no signo + peque˜ na peque˜ no circulo con vacio diamante con vacio triangulo con vacio cuadrado con vacio peque˜ no c´ırculo con vacio peque˜ no diamante con vacio peque˜ no cuadrado con vacio peque˜ no diamante con vacio punto peque˜ no invisible Tabla 4. Para esto usaremos el ponderador de frecuencia weight[ ] y la opci´on de c´ırculos vacios. porque los ponderadores weight vienen de diferentes formas y tienen diferentes significados para . haciendo que el tama˜ no de los s´ımbolos se pondere por un factor de expansi´on poblacional fa d8ef9. 3 El ponderador de frecuencia suele ser u ´til en otros gr´aficos. De este modo.4. Si modificamos el scatterplot entre la variable lningtot y p108. pero a la vez es un t´opico complejo.

graph twoway scatter lningtot p108 [weight= fa d8ef9] if p109a==1.8 incluye una regresi´on lineal simple derivado del comando twoway lfit que ha sido a˜ nadido al grafico 4. msymbol(S) mcolor(green) /// Figura 4. Para una informaci´on general de este tema en STATA.6 especificando el siguiente s´ımbolo ( || ). graph twoway scatter lningtot p108 if | | lfit lningtot p108) p109a==1.76 4. msymbol(Oh) Figura 4.8: Scatter Plot (3) diversos contextos. .7: Scatter Plot (2) El ejemplo de la figura 4.2. Tipos de Gr´aficos . tipear help weight .

La relaci´on entre estas dos grupos aparece una mayor pendientes en los hombres. . podemos desear observar el sexo de las personas en la figura 4.9.10 muestra un scatterplot entre lningtot y p108 para g´enero.format( %3. .4. haci´endo f´acil de leer para peque˜ nos sub-ploteos. by(p107) /// xlabel(. graph twoway scatter lningtot p108 if p109a==1. Gr´aficos en STATA 77 Los marcadores de un scatterplot pueden identificarse con etiquetas.0f)) ylabel(. graph twoway scatter lningtot p108.0f)) | | lfit lningtot p108 .9: Scatter Plot (4) La figura 4. mlabel(p107) /// msymbol(S) mcolor(purple) | | lfit lningtot p108 Figura 4.format( %3. La opci´on xlabel() e ylabel() en este ejemplo da las etiquetas para los ejes x e y de tres d´ıgitos como m´aximo sin decimales. Por ejemplo.

la edad (p108). outliers o cluester que puedan afectar al modelamiento estad´ıstico. los a˜ nos de estudios (p109b) y el total de horas trabajadas (p209t). Este tipo de gr´afico es u ´til si se quiere observar la influencia de una lista de variables explicativas a una variable dependiente. .78 4.11 hace que se muestre solo la parte triangular inferior de la matriz ya que la parte superior es sim´etrica y redundante.2.11 muestra una matriz de scatterplot que implica la relaci´on entre el logaritmo del ingreso total (lningtot). Este comando otorga una gr´afica compacta de la relaci´on entre un n´ umero de variables por pareja. permiti´endole al analista observar los signos de no linealidad. Tipos de Gr´aficos Figura 4. La figura 4. half msymbol(Oh) .10: Scatter Plot (5) Multiples Scatterplots El comando graph matrix nos muestra un u ´til an´alisis multivariado. La opci´on half especificado en la figura 3. graph matrix lningtot p108 p109b p209t .

4. Gr´aficos en STATA

79

Figura 4.11: Multiples Scatter Plot

Ploteo de Lineas (Line Plot)

Si usamos la base de datos data trim.dta, el cual contiene la serie de las variables
del Producto Bruto Interno (pbi), las Importaciones (m) y los componentes de
la demanda agredada (consumo privado (c), inversi´on (i), gasto p´
ublico (g) y
exportaciones (x)), todas medidad en millones de nuevos soles de 1994, desde el
primer trimestre del 2003 hasta el tercer trimestre del 2011 y teniendo como fuente
de informaci´on al BCRP.
Un simple ploteo para los componentes de la Oferta Agregada (Producto Bruto
Interno y las Importaciones) pueden ser construidos se˜
nalando una grafica lineal
de ambas variables a trav´es del tiempo (time).
La figura 4.12 muestra una caida en el a˜
no 2009 producto de la crisis internacional,sin embargo, se nota la pronta recuperaci´on para el siguiente a˜
no.

. graph twoway line

m

pbi

time

80

4.2. Tipos de Gr´aficos

Figura 4.12: Line Plot (1)
En la figura 4.12, STATA elige por defecto una l´ınea s´olida azul para la primera
variable pbi, y una l´ınea s´olida roja para la segunda variable m. Adem´as de una
legenda en la parte inferior que muestra el significado de las variables. Si se mejora
este gr´afico a trav´es de un arreglo en la legenda, suprimiendo el t´ıtulo redundante
en el eje x y colocando un t´ıtulo al gr´afico, como se ve en la figura 4.13.
. twoway line m pbi time, legend(label(1 "Importaciones") ///
label (2 "PBI") position(3) ring(0) rows(2)) xtitle("") ///
title("Evoluci´
on del PBI e Importaciones" "2003-I - 2011-III")

Figura 4.13: Line Plot (2)

4. Gr´aficos en STATA

81

Se tiene sub-opciones para la opci´on legend() la cual se colocan dentro de los
par´entesis y se se˜
nalan en la Tabla 4.2 como sigue:
legend()
label (1 ”Importaciones ”)
label (2 ”PBI”)
position(3)
ring(0)
rows(2)

Descripci´
on
La etiqueta para la primera variable del eje
y
La etiqueta para la segunda variable del eje
y
Establecer la legenda a las 3 de la hora del
reloj (superior derecha)
Establecer la legenda entre los espacio del
ploteo
Dice que la legenda tenga dos filas

Tabla 4.2: Opciones - legend()
La figura 4.12 y 4.13 conecta de una manera simple cada punto de la data
con un segmento de recta. Otras estilos de conexiones son posibles, usando la
opci´on connect(). Por ejemplo, connect(stairstep) o equivalentemente connect(J)
generar´ıa puntos para ser conectados en forma de escalera. La figura 4.14 ilustra
el ploteo en forma de escalera para la variable del consumo privado (c).
. graph twoway line c

time, connect(stairstep)

Figura 4.14: Line Plot (3)

82

4.2. Tipos de Gr´aficos

Otras formas de conexi´on se muestran en la Tabla 4.3. Por defecto, el segmento
de l´ınea recta corresponde a connect(direct) o connect(l) 4 .
connect() Abreviaci´
on
none
i
direct
l
ascending
L
stairstep
J
stepstairs

Descripci´
on
no conecta puntos
conecta con l´ıneas rectas
es similar a direct solo si x(i + 1) > x(i)
recta constante, luego vertical
vertical, luego se mantiene constante

Tabla 4.3: Opciones - connect()
La figura 4.15 repite este ploteo escalonado del consumo privado, pero con
algunas modificaciones de las etiquetas de los ejes y t´ıtulos. La opci´on xtitle(””)
no presenta ning´
un t´ıtulo en el eje x. la opci´on angle() permite definir en este caso
la alineaci´on de los valores en el eje y.
. graph twoway line c time, connect(stairstep) xtitle("") ///
ytitle("Millones de Nuevos Soles de 1994") ///
ylabel(, angle(horizontal)) clpattern(dash) ///
title("Evoluci´
on Consumo Privado" "2003-I - 2011-III")

Figura 4.15: Line Plot (4)
Otro modo de especificar el tipo de l´ınea que se desea usar es a trav´es de la
opci´on clpattern(), que nos permite elegir un patr´on de l´ınea y se muestra en la
Tabla 4.4:
4

Para m´
as detalle, ver help connectstyle

4. Gr´aficos en STATA

83

clpattern()
solid
dash
dot
dot dash
shortdash dot
longdash
longdash dot
blank
formula

Descripci´
on
l´ınea s´olida
guiones
puntos
puntos y guiones
guiones peque˜
nos con puntos
guiones grandes
guiones grandes con puntos
linea invisible
por ejemplo: clpattern(-.); clpattern(-..)

Tabla 4.4: Opciones - clpattern()

Para la siguiente figura 4.16 se grafica la evoluci´on trimestral del producto bruto
interno, el consumo privado y las importaciones. Note que las opciones connect(),
clpattern() y legend() son utilizados en este ejemplo.
. graph twoway line pbi c m time, connect(line line stairstep) ///
title("Evoluci´
on del PBI, Importaciones y Consumo Privado" "2003-I - 2011-III") ///
xtitle("") ytitle("illones de Nuevos Soles de 1994") ///
clpattern(solid longdash dash) ylabel(, angle(horizontal)) ///
legend( label (1 "PBI") label (2 "Consumo") label(3 "Importaciones") ///
position(10) ring(0) rows(3))

Figura 4.16: Line Plot (5)

84

4.2. Tipos de Gr´aficos

Ploteo de L´ıneas Conectadas (Connected-Line)
En el ploteo de l´ıneas de la subsecci´on anterior, los puntos de los datos son
invisibles y vemos solo la conexi´on de las l´ıneas. El comando graph twoway connected crea ploteo una conexi´on de puntos en la cual acomodamos la imagen
mostrando un control de los marcadores de s´ımbolos, patr´on de l´ıneas, ejes y legenda. La figura 4.17 nos muestra un ejemplo de un ploteo de l´ıneas conectadas a
trav´es del tiempo de las variables pbi y c.
. graph twoway connected pbi m time , msymbol(T oh) clpattern(dash solid)
ytitle("Miles de Tonelada") xtitle("") ///
title("Evoluci´
on del PBI y Consumo Privado" "2003-I - 2011-III") ///
ylabel(, angle(horizontal)) ///
legend(label(1 "PBI") label(2 "Consumo") ///
position(3) rows(2) ring(0))

///

Figura 4.17: Line Connected Plot

Otros Tipos de Scatter Plot
Adem´as de los ploteos con l´ıneas y scatterplot, el comando graph twoway
presenta una amplia variedad de otros tipos 5
5
Para ver toda la lista de posibles tipos de gr´aficos con el comando graph twoway tipear help
twoway.

4. Gr´aficos en STATA

85

Una observaci´on que se puede hacer es que existen comandos como graph
twoway bar y graph twoway dot que son muy distintos a los tipos de gr´aficos
de barras (bar) y puntos (dot) respectivamente. Las versiones del twoway provee
varios m´etodos para plotear una variables y contra otra variable x ; adem´as tienen
la ventaja de sobreponer otros gr´aficos del twoway para formar gr´aficos m´as complejos. Por otro lado, las versiones que no son del twoway proveen modos de ploteos
usando resumenes estad´ısticos (tal como media o mediana) de las variables y contra
las categor´ıas de otras variables x.
Mucho de estos tipos de ploteos son u
´tiles en la composici´on del gr´afico final,
que se construye por sobreposici´on de dos o m´as ploteos simples. El gr´afico 4.18
muestra un ploteo de a´reas de las variables pbi y c.
. graph twoway area pbi m time

Figura 4.18: Otros Plot (1)
El color de las a´reas pueden ser controlados por la opci´on bcolor 6 . Por ejemplo,
el gris oscuro (gs0) es actualmente el color negro. Por ejemplo, la escala en grises
se encuentra entre el valor 0 y 16. El color gris m´as ligero (gs16) es blanco. En la
figura 4.19 muestra un ligero gris para este gr´afico.
. graph twoway area pbi m time
6

Tipear help colorstyle para ver la lista de colores.

angle(horizontal)) Figura 4.2. sum c .66) yline(29607.66.86 4. /// base(29607. en la cual sobresalen l´ıneas hacia arriba y hacia abajo a partir de esta media referencial.19: Otros Plot (2) La figura 4.66 millones de soles de 1994) como la base de un ploteo de l´ıneas punteadas (spike). .66) traza una l´ınea horizontal en 29607. graph twoway spike c time.20: Otros Plot (3) . La opci´on yline(29607. Tipos de Gr´aficos Figura 4.66) ylabel(.20 usa esta media de consumo privado (29607.

Para obtener este gr´afico. o 20 % de la data. bwidth(.21: Otros Plot (4) 4. Gr´ afico de Caja y Bigote (Box Plot) La gr´afica de caja y bigote brinda informaci´on acerca del centro.2.66) ylabel(.2). por defecto tendr´ıa un suavizamiento m´as radical. angle(horizontal)) Figura 4. Una curva suavizada que sea m´as semejante a la data original. /// bwidth(. . simetr´ıa y outliers con solo un vistazo. especifica una curva basada en el suavizamiento de los datos que son derivamos de la regresi´on ponderador entre una banda que cubre el 40 % de la muestra. se debe tipear el comando de la siguiente forma: graph box x Si diversas variables tienen escalas similares.4).3. deber´ıa darnos un mayor ajuste. El ancho de la banda peque˜ no sea tal como bwidth(.8).4. La opci´on de ancho de banda. Gr´aficos en STATA 87 Una diferente vista de la misma data se muestra en la figura 4.21. graph twoway lowess c time. Altos anchos de bandas como bwidth(. donde se emplea la regresi´on m´ınima para suavizar la serie de tiempo con graph twoway lowess.4) yline(29607. amplitud. podemos comparar sus distribuci´on con la siguiente sintaxis: .

Los outliers. La caja y bogote en STATA define los cuartiles de la misma manera que el comando summarize.684612) Figura 4. La mediana por g´enero (la l´ınea entre las cajas) en la figura 4.clear . Por otro lado.dta de la Encuesta Permanente de Empleo (EPE). detail. .5 IQR del primer o tercer cuartil. Esta adem´as contiene aproximadamente la mitad.22 puede ser comparado con la mediana considerando todos las personas por la opci´on yline(6. *generamos el logaritmo del ingreso total gen lningtot=ln(ingtot) sum lningtot. definidos como observaciones mayores a 1. volveremos a utilizar la base trim dic08-ene-feb09.88 4. Las cajas en estos gr´aficos se extienden desde el primer hasta el tercer cuartil.22: Box Plot (1) El mediana del logaritmo del ingreso total de los hombres suele ser mayor que el de las muejeres. La figura 4. el ingreso de los hombres presenta mayor variabilidad.22 compara la distribuci´on del logatirmo del ingreso total de la persona por g´enero. el 50 %. . over(p107) yline(6.68)). una distancia denominada rango intercuartil (IQR).2. use trim dic08-ene-feb09. de la data.dta. detail //copiamos el valor de la mediana graph box lningtot. la cual se plotean separadamente de la caja. Tipos de Gr´aficos graph box x y z Para esta ocasi´on.

Gr´ afico de Pastel (Pie) Este estilo es muy popular en las presentaciones de graficas. 4. la cual se crea con la opci´on yline(). graph hbox lningtot. usando el logaritmo del ingreso total (lningtot).23: Box Plot (2) La gr´afica de caja y bigote para los a˜ nos de educaci´on en la figura 3. La opci´on over(p107. La figura 4.sort(1)) hacen que las cajas se ordenan de forma ascendente acorde a la primera variable (en este caso ordena seg´ un sus medianas y la u ´nica variable que existe). en vez de xline(). principalmente en el caso de los hombres. adem´as del arreglo horizontal de graph box.sort(1)) yline(6.23 no solo la diferencia entre las medianas.2. estableci´endole algo menos oscuro que el default (ver figura 4.23 demuestra alguna de estas opciones.22).4. La opci´on intensity(30) controla la intensidad de la sombra de las cajas. over(p107.684612) intensity(80) Figura 4. forma y detalles de las cajas en este diagrama 7 . siempre y cuando tengan pocos valores para trabajar. .4. Gr´aficos en STATA 89 Numerosas opciones controlan la apariencia. . sino tambi´en la presencia de outliers. La l´ınea vertical marca la mediana total (6. El comando b´asico del gr´afico de pie en el STATA tiene la forma: 7 Ver help graph box.684612).

explode) provoca el llamado de la tercera variable. La opci´on pie(3.24. pueden estar medidos en dinero. *colapsamos la base de datos collapse (sum) sinivel primaria secundaria snu su.). y.2. *Etiquetamos las variables colapsadas label label label label label variable variable variable variable variable sinivel "Sin Nivel" primaria "Primaria" secundaria "Secundaria" snu "SNU" su "SU" . gap(10)) /// legend( position(6) rows(2) ring(1)) 8 Tipear help colorstyle para observar la lista de colores. La mayor´ıa de la poblaci´on presenta un nivel educativo de Secundaria.90 4. es sombreado con un ligero color gris. z son variables que miden cantidades de algunas cosas en las mismas unidades (por ejemplo. y luego agruparemos los niveles educativos en 5 grupos: Sin Nivel. La cuarta variable. En la base de la EPE. *creamos variables para cada nivel educativo gen gen gen gen gen sinivel=p109a1+p109a2 primaria=p109a3+p109a4 secundaria=p109a5+p109a6 snu=p109a7+p109a8 su=p109a9+p109a10 . . para compararlos con los grupos de nivel educativo (es importante mencionar que existen otros colores que se pueden utilizar como color(blue) o color(chranberry) 8 . mostraremos la proporci´on de la poblaci´on seg´ un su nivel educativo.etc. pie(3. como se puede ver claramente en la Figura 4. *generamos variables ficticias por nivel educativo tab p109a. gen(p109a) . w. personas. Secundaria. Tipos de Gr´aficos graph pie x y w z donde x. . Superior No Universitario y Superior universitario.color(gs13)). Para esto crearemos variables ficticias para cada nivel educativo derivado de la variable p107. by(p107) . *graficamos el pie graph pie sinivel primaria secundaria snu su. SNU. Primaria. para ser puesta en ´enfasis al gr´afico. secundaria. pie(4. explode) /// pie(4. horas. color(gs13)) plabel(3 percent .

gap(20)) genera una etiqueta de porcentaje que se se˜ nala en el pedazo (slide) correspondiente a la tercera variable. color(gs13)) plabel(5 percent . pero si mostramos el pastel separado por g´enero con la opci´on by(p107). La figura muestra que la mayoria de las mujeres y hombres alcanzan un nivel de educaci´on secundaria. graph pie sinivel primaria secundaria snu su .24: Pie Graph (1) Las personas con nivel de edcaci´on secundaria son el grupo dominante en la figura 4. La opci´on angle0() especifica el a´ngulo del primer slide del pie. Figura 4. La opci´on legend() se˜ nala las cuatros variables localizado en la posici´on de las 6 en punto del reloj. . emerge similares detalles mostrados en la figura 4. secundaria.25. Podemos ver que cerca del 46.24. gap(10)) /// legend( position(11) rows(4) ring(1)) by(p107) angle0(0) . con una brecha (gap) de 10 unidades separados del centro.4. pie(5.22 % de la poblaci´on a alcanzado un nivel de educaci´on de secundaria. explode) /// pie(4. Estableciendo este primer slide un a´ngulo en cero (horizontal). Gr´aficos en STATA 91 La opci´on plabel(3 percent. orienta los slides de tal forma que las etiquetas son m´as f´aciles de leer.

2. Gr´ afico de Barras (Bar) El gr´afico de barras provee una simple y vers´atil exhibici´on conjunto de res´ umenes estad´ısticos como media. tipeamos: graph bar (mean) y. mediana. por cada una de las categor´ıas de x2 . Tipos de Gr´aficos Figura 4. over(x1 ) over(x2 ) Este tipo de gr´afico puede calcular los siguientes estad´ısticos: mean : Media.5. sd : Desviaci´on est´andar. Para obtener barras verticales mostrando la media de la variable y frente a las categor´ıas de x. suma o conteo.92 4.2. . se calcula por defecto si no se especifica el estad´ıstico. over(x) Para barras horizontales mostrando la media de y frente a las categor´ıas de x1 . tipeamos: graph hbar (mean) y.25: Pie Graph (2) 4.

Note que el eje vertical ha sido autom´aticamente etiquetado como “p50 of inactive”.bcolor(gs10)) especifica el color de las barras a un color gris ligero.26: Bar Graph (1) . Gr´aficos en STATA 93 sum : Suma.26 indica la mediana del ingreso total en logaritmos por g´enero. que significa el 50th percentil o mediana. min : M´ınimo. max : M´aximo. La figura 4. median : Mediana.4. bar(1. over(p107) blabel(bar) bar(1. graph bar (median) lningtot. p1 : Primer percentil. count : Cuenta el n´ umero de observaciones sin considerar los missing values. Vemos una diferencia a favor de los hombres de 0. . rawsum : Suma ignorando los ponderados especificados como opci´on.33. La opci´on blabel(bar) etiqueta la parte superior de la barra con el valor de las medianas. p2 : Segundo percentil (y as´ı hasta p99). iqr : Rangos intercuartiles.bcolor(gs10)) Figura 4.

684612) /// title("Ingreso Promedio (logaritmos)" "seg´ un g´ enero y a~ nos de educaci´ on") 9 Puedes ver una lista m´ as detallada con el comando help textsizestyle. Otras posibilidades para size() son las subopciones tiny. size(medium)) bar(1. medsmall.94 4. .27: Bar Graph (2) La figura 4.bcolor(gs7)) Figura 4.28 muestra las diferencias del ingreso con respecto a la edad donde el valor de la mediana del ingreso es mayor en el caso de los hombres y la edad en el caso de las mujeres. La etiqueta de la barra son size(medium).bcolor(gs10)) bar(2. y el color de la barra es gris oscuro.27 elabora la anterior idea a˜ nadiendo otra variable. haci´endoles m´as grande que el tama˜ no por defecto size(small). over(p109b) over(p107) yline(6. over(p107) /// blabel(bar.2. . la edad en a˜ nos p108. medlarge o large 9 . Tipos de Gr´aficos La figura 4. graph hbar (mean) lningtot. . graph bar (median) lningtot p108.

Este ploteo. *creamos variables para cada nivel educativo gen gen gen gen gen sinivel=p109a1+p109a2 primaria=p109a3+p109a4 secundaria=p109a5+p109a6 snu=p109a7+p109a8 su=p109a9+p109a10 graph bar (sum) sinivel primaria secundaria snu su.4. y ser´a mostrado de forma vertical. colocamos una l´ınea horizontal que indica el valor de la mediana total de 6.684612). gen(p109a) . Las barras tambi´en pueden estar montadas o apiladas entre s´ı. Gr´aficos en STATA 95 Figura 4.28: Bar Graph (3) El orden de dos opciones over() controlan el orden en la organizaci´on del gr´afico. *generamos variables ficticias por nivel educativo tab p109a. yline(6. se basa en la generaci´on de nuevas variables del nivel educativo. over(p107) stack .29. En este caso. Para este ejemplo utilizamos las barras horizontales (hbar).684612 . como se muestra en la figura 4. . donde las opciones ytitle() y yline() se refieren al eje horizontal. donde se emplea todas las opciones por defecto para graficar la composici´on de la poblaci´on con repecto a su nivel de educaci´on por g´enero.

2. incluyendo la . esta u ´ltima barra muestra sus tama˜ nos absolutos. 4. Gr´ afico de Puntos (Dot Plot) Los ploteos con puntos son igual de u ´tiles que las gr´aficas con barras: comparando visualmente resumenes estad´ısticos de una o m´as variables. graph bar (sum) sinivel primaria secundaria snu su. esta figura te dice algo m´as que el anterior: la mayor´ıa de la poblaci´on con un nivel superior universitario son hombres.2.29: Bar Graph (4) La figura 4. Tambi´en se mejora la etiqueta de las legendas con ytitle() y ylabel() como opciones del formato del eje vertical. Consecuentemente. La opci´on over() ahora incluye subopciones que reetiquetan los tipos de comunidad en el eje de la abscisa para dar mayor informaci´on.96 4. Las opciones que usa el STATA para ambos gr´aficos son ampliamente similares.30 se vuelve a graficar este u ´ltimo ploteo con una mejor leyenda y etiqueta los ejes. La opci´on legend() especifica tres filas en el mismo orden vertical. relabel(1 "Varones" 2 "Feminas" )) /// legend(rows(3) order(5 4 3 2 1) position(6) ring(1) /// label(1 "Sin Nivel") label(2 "Primaria") /// label(3 "Secundaria") label(4 "SNU") /// label(5 "SU")) stack /// ytitle("Personas") ylabel(0 (1000) 6000) Mientras el pie de la figura 4.29 muestra el tama˜ no relativo (porcentajes) de los grupos seg´ un nivel educativo por g´enero. /// over(p107.6. . Tipos de Gr´aficos Figura 4.

Para ver este diagrama comparando las medianas de las variables x. Tambi´en podemos especificar un triangulo s´olido como marcador de s´ımbolo para lningtot y c´ırculos con un centro vacio para p108.w y z. esto es desde el m´as bajo hasta el m´as alto ingreso total. over(x) La figura 4. la cual ordena la media del ingreso promedio para cada una de los niveles educativos.y. debemos tipear: graph dot (median) x y w z Y para ver la comparaci´on de promedios de la variable y seg´ un las categor´ıas de x. escribimos: graph dot (mean) y .30: Otros Plot elecci´on de los estad´ısticos.31 muestra un ploteo de puntos del ingreso total promedio en logaritmos y la edad promedio por nivel educativo creada (niveduc). . sort(lningtot).4. Gr´aficos en STATA 97 Figura 4. La opci´on over() incluye una subopci´on.*generamos una variable categorica de nivel educativo gen niveduc=1 if sinivel==1 replace niveduc=2 if primaria==1 replace niveduc=3 if secundaria==1 replace niveduc=4 if snu==1 replace niveduc=5 if su==1 .

31: Dot Plot Adem´as. 4. Los t´ıtulos y subt´ıtulos aparecen encimas del a´rea del ploteo.31 calcula solo 8 promedios. msymbol(Oh)) Figura 4. pero una ventaja de estos gr´aficos es la formar de compactar los datos. sort(lningtot)) /// marker(1. . las opciones note (la cual puede documentar la fuente de los datos) y caption aparecen en la parte inferior 10 .3. as´ı como tambi´en tienen una mayor edad en promedio. los nombres de gr´aficos y las notas pueden ser a˜ nadidos al gr´afico para que sea m´as explicativo. la figura 4. A˜ nadiendo Textos a los Gr´aficos label define educa 1 "Sin Nivel" 2 "Primaria" 3 "Secundaria" 4 "SNU" 5 "SU" label value niveduc educa tab niveduc graph dot (mean) lningtot p108. 10 Tipear help text para m´ as informaci´on acerca de la especificaci´on de los t´ıtulos en gr´ aficos. La gr´afica en barras podr´ıa darnos la misma informaci´on. over(niveduc. esto hace que sea f´acil las comparaciones. msymbol(T)) marker(2.3. Los ploteos de puntos (particularmente cuando se quiere ordenar por estad´ısticos de inter´es) es f´acil de entender incluso con varias filas. Vemos que el ingreso total en logaritmos es mayor para las personas que tienen un nivel de educaci´on superior universitario.98 4. A˜ nadiendo Textos a los Gr´ aficos Los t´ıtulos.

Los cuadros de texto son de instrumentos para identificar dichas observaciones en nuestro gr´afico.32: Texto en Gr´aficos (1) El t´ıtulo a˜ nade el texto fuera del espacio de ploteo. Gr´aficos en STATA 99 La figura 4. .4. axis(2)) /// xtitle("Porcentaje de adultos con Grado Superior") /// xtitle("Este es el Eje X 2". xaxis(1 2). Diversos outliers se observan en este ploteo en la parte inferior derecha. . axis(2)) Figura 4. Las cinco l´ıneas de textos justificados hacia la izquierda son colocados al lado 11 Ver help marginstyle. Tambi´en podemos a˜ nadir cajas de texto en coordinadas espec´ıficas en el espacio de ploteo.42 tambi´en incluye t´ıtulos para ambos lados (derecha e izquierda) del eje y. De una forma similar podemos establecer la palabra ”Aglomeraci´on”en x=10 e y=9 y ubicarlo en un cuadro peque˜ no (con peque˜ nos m´argenes11 ) alrededor del nombre del estado. como se se˜ nala en la figura 4.33. yaxis(1 2) xaxis(1 2) /// title("Es es un T´ ıtulo") subtitle("Este es un Subt´ ıtulo") /// caption("Este es un caption") note("Esta es una Nota") /// ytitle("Este es el Porcentaje de adultos fumadores") /// ytitle("Este es el Eje Y 2".yaxis(1 2) y la parte superior en inferior del eje x. La figura 4.32 muestra el uso de estas opciones en un scatterplot sobre el ingresot total en logaritmos y la edad de cada uno de los individuos. Luego las opciones xtitle() y ytitle() se refieren al segundo eje espec´ıficamente. graph twoway scatter lningtot p108 . al incluirse la subopci´on axis(2). La opci´on text(3 80 ”Outliers”) establece la palabra Outliers en la posici´on x=80 e y=3 del scatterplot.

5. 12 Ver help textbox option y help colorstyle.4. donde sus coordenadas son x=6. La familia twoway incluye diversos modelos de ploteos tales como lfit (recta de regresi´on lineal). .4. . graph twoway scatter lningtot p108. axis(2)) /// xtitle("Edades (a~ nos)") /// xtitle("Este es el Eje X 2". para luego definir el tipo de justificaci´on. axis(2)) /// text(3 80 "Outliers") /// text(9 10 "Aglomeraci´ on".5 6. Por ello.2 e y=3.2 "Relaci´ on" "Directa" "entre" "Ingreso" "y Edad". el cuadro de la relaci´on entre ambas variables se elegi´o un color de fondo blanco 12 .100 4. tales ploteos brindan informaci´on al m´ınimo. mientras que. box margin(small)) /// text(3. M´ ultiples Ploteos Dos o m´as graficos de la familia graph twoway pueden ser sobrepuestos en un u ´nico gr´afico. as´ı que podemos escribir una parte del t´ıtulo en l´ıneas diferentes escribi´endolo entre comillas diferentes. Algunos cuadros de texto o t´ıtulos pueden tener m´ ultiples l´ıneas.33: Texto en Gr´aficos (2) 4. M´ ultiples Ploteos inferior izquierdo (cada l´ınea se especifica separadamente entre comillas). yaxis(1 2) xaxis(1 2) /// title("Es es un T´ ıtulo") subtitle("Este es un Subt´ ıtulo") /// caption("Este es un caption") note("Esta es una Nota") /// ytitle("Logaritmo del Ingreso Total") /// ytitle("Este es el Eje Y 2". qfit (curva de regresi´on cuadr´atica) y m´as. /// justification(left) box margin(small) bfcolor(white)) Figura 4. El cuadro de Aglomeraci´on utiliza un formato de fondo por defecto.

de la regresi´on que surge entre lningtot sobre p109b. La figura 4.etc) usado por cada subploteo. estas opciones son establecidas despu´es del segundo separador ||. Gr´aficos en STATA 101 Por ejemplo. Este orden tiene consecuencia para el estilo de l´ınea usado por defecto (solid. tal que solo dos de ellos .35.4. mejorando la imagen usando las opciones de etiquetas de ejes y leyenda. . La opci´on order(2 1) en este caso hace una nueva funci´on: omite una de los tres item de la legenda. se puede ver en la figura 4. graph twoway lfitci lningtot p109b || scatter lningtot p109b El segundo ploteo (scatterplot) se coloca encima del primer ploteo en la figura 4. Los m´as importante es tratar que los ploteos sean los m´as visibles posibles.34: Ploteos M´ ultiples (1) Un gr´afico con mayor informaci´on cuando sobreponemos un scatterplot sobre la recta de regresi´on lineal.35.36 desarrolla la idea anterior. Para hacer esto. circle. . La mayor´ıa de estas opciones se asemeja a los ejemplos realizados anteriormente. Por que dichas opciones se aplican al gr´afico como un todo y no por separado. graph twoway lfitci lningtot p109b Figura 4. separado por ||. teniendo bandas al 95 % de nivel de confianza para la media condicional.34 describe la recta de regresi´on lineal. damos dos distintas indicaciones de comandos de gr´aficos. dashed. seguido por una coma.etc) y tambi´en para el marcado de s´ımbolos (square. la figura 4.

La figura 4. aun es necesario especificar tres filas en el formato de la legenda (rows(3)) como si cada uno de los items estan retenidos. El ploteo de la inversi´on privada usa el yaxis(2). angle(horizontal)) /// xtitle("A~ nos de Edcuaci´ on") /// ytitle("Ingreso Total (Logaritmos)") /// note("Encuesta Permanente de Empleo . El ploteo de line hace uso de la opci´on yaxis(1). lo cual por defecto es el lado izquierdo y ser´a usado para mostrar la variable consumo privado. M´ ultiples Ploteos Figura 4.EPE") /// legend(order(2 1) label(1 "95 % c.i") label(2 "Regresi´ on Lineal") /// rows(3) position(5) ring(0)) Ambos scatterplot (lfitci y scatter) en la figura 4. nosotros necesitar´ıamos escalas independientes. graph twoway lfitci lningtot p109b || scatter lningtot p109b. Aunque listemos solo dos items en la leyenda. ambos expresados en millones de soles de 1994.35: Ploteos M´ ultiples (2) (2 de la regresi´on lineal. . seguido por 1 del intervalo de confianza) aparecezcan en la figura.4. la cual por defecto es el lado derecho.dta.37 ilustra este caso juntando dos ploteos con l´ıneas basado sobre la data de las series del PBI y sus componentes.35 vemos la diferencia.102 4. data trim. pero cuando ambas variables de inter´es tienen distintas escalas. Comparando esta legenda con la figura 4. Las opciones .36 presentan la misma escala de los ejes x e y. Estas figuras combinan series de tiempo del gasto p´ ublico e inversi´on privada. /// ylabel(2 (1) 10.

Los rangos de escala en el eje y va desde 4000 a 12000. declarando cual de los ejes de la ordenada se refieren. necesitamos tres escalas verticales independientes.axis(2)) /// yline(10145. /// xtitle("") /// legend(position(11) ring(0) rows(2) order(2 1) /// label(1 "Gasto Gobierno") label(2 "Inversi´ on")) /// note("Fuente: Banco Central de Reservas del Per´ u .66.placement(nw) .axis(1)) /// || line i time.38 envuelve tres ploteos superpuestas. .36: Ploteos M´ ultiples (3) ytitle()y yline() se incluyen con la subopci´on axis(1) o axis(2). sin l´ıneas horizontales como malla. Gr´aficos en STATA 103 Figura 4.BCRP") Para localizar el gasto p´ ublico. plotea una l´ınea conectada en la variable de exportaciones a trav´es del tiempo. La figura 4. la cual todos est´an en el lado izquierdo del eje y por defecto.axis(1)) yline(29607. La forma b´asica de estos tres ploteos es como sigue: connected x time. Este t´ıtulo es localizado en la posici´on noroeste. Su titulo es Exportaciones. /// yaxis(2) ytitle("Inversi´ on Privada". la inversi´on privada y las exportaciones.6. axis(2) lpattern(dot)) /// || . usando yaxis(3) la cual deber´ıa estar ubicado en la parte superior izquierda del eje y. graph twoway line g time.4. /// yaxis(1) ytitle("Gasto P´ ublico ".

6000) axis(1)) /// ylabel(.4. /// legend(position(5) ring(0) rows(3) label(1 "Gasto del Gobierno") /// label(2 "Inversi´ on Privada") label(3 "Exportaciones")) /// xtitle("") .16000) axis(2)) /// ylabel(. plotea una l´ınea conectada en la variable del gasto del gobierno a trav´es del tiempo. yaxis(1) yscale(range(2000. yaxis(3) yscale(range(4000. con las etiquetas por defecto. graph twoway connected x time.104 4. usando yaxis(1).12000) axis(3)) /// ytitle("Exportaciones". el comando para elaborar la figura 3. M´ ultiples Ploteos Figura 4. nogrid axis(2)) /// ytitle("Inversi´ on Privada". Brindando estos tres componentes del ploteo de forma conjunta.axis(1) placement(sw)) /// || . plotea una l´ınea conectada en la variable de inversi´on privada a trav´es del tiempo. El titulo se localiza en la parte suroeste.38 aparece a continuaci´on: . nogrid axis(1)) /// ytitle("Gasto P´ ublico".axis(3) placement(nw)) /// clpattern(dash) /// || line i time. connected g time.axis(2)) /// clpattern(solid) /// || connected g time.37: Ploteos M´ ultiples (4) line i time. yaxis(2) yscale(range(6000. usando yaxis(2) y rangos de escala entre 6000 hasta 16000.

este puede ser guardado. *II Forma tw (sc g time.saving(g1.gph g2. *I Forma graph twoway scatter g time.gph. se puede volver a acceder a los gr´aficos para ser manipulados a gusto personal a trav´es del Editor de Gr´aficos. /// title("Dispersi´ on de Puntos" "y L´ ınea OLS Ajustada") graph save g2. . Gr´aficos en STATA 105 Figura 4.4. lwidth(medthick)). . El procedimiento puede realizarse usando la opci´on saving() en la misma l´ınea de comando del gr´afico o a trav´es del comando graph save despu´es que el gr´afico haya sido creado. Cuando guardamos en esta u ´ltima manera.gph y g2.gph. Guardar.gph .gph graph combine g1. *Combinemos el grafico g1.38: Ploteos M´ ultiples (5) 4. replace) .replace Dos o m´as gr´aficos pueden combinarse en uno solo utilizando el comando graph combine.5. msize(small)) (lfit g time. Combinar y Exportar Gr´ aficos Una vez que el gr´afico fue creado. Para esto STATA usa el comando save principalmente para guardar los gr´aficos en STATA con extensi´on *.

por eso es necesario una prueba de ensayo y error.png).106 4. replace replace replace replace //Window meta-file //PostScript //Encapsulated PostScript //Portable Network Graphics Ejercicio Propuesto A trav´es de la base EPE-abr-may-jun12. no es reconocido por otros programas. g12.eps).gph. *Exportar Gr´ aficos .dta proveniente de la Encuesta Permanente de Empleo (EPE) para el periodo trimestral Abril-Mayo-Junio 2012. Window Metafile (. .wmf). export export export export g12.39: Graficos Combinados graph save g12.replace Dado que la extensi´on del grafico por default del STATA es *.ps . Ejercicio Propuesto Figura 4. incluyendo PostScript (. //Guardamos el gr´ afico combinado como: graph graph graph graph 4. PDF (. g12. se deber´ıa usar el comando graph export.png.ps). Para guardar un gr´afico en otro formato. La mejor selecci´on del formato depende en parte de cual procesador de texto se usa.6.eps. tal como procesadores de texto.pdf) y Postable Network Graphics (. g12. Varios formatos est´an disponibles.6. in- . Encapsulated PostScript (.gph.wmf.

8 Lima Metropolitana: Poblaci´on ocupada por rango de horas trabajadas por semana: Se debe generar una variable auxiliar donde todos sus valores sea igual a la unidad y otra variable categ´orica que englobe todos los rangos de las horas trabajadas a la semana (no olvidar etiquetar los valores de esta variable categ´orica con el nombre de los rango descritos en el gr´afico a replicar). secundaria cuando tenga secundaria incompleta y completa. El Gr´afico Nro.: El Gr´afico Nro. Luego use el comando graph pie con la opci´on plabel( all percent) para obtener los valores en porcentajes. el cual se mencionar´a a continuaci´on. Nota: En cada enunciado no se olvide filtrar para las personas mayores o iguales a los 14 a˜ nos de edad (p108). usando la variable ocu200. primaria incompleta e completa. snu cuando tenga superior no universitario incompleto y completo. y por u ´ltimo su con un nivel superior universitario incompleto y completo. 15 Lima Metropolitana: Nivel de educaci´on de la PEA desempleada con experiencia laboral (cesantes): Es necesario calcular una variable ficticia para cada nivel educativo (representado en la variable p109a). Luego aplicar el comando graph bar con la preopci´on (sum) para obtener los valores totales de esta variable auxiliar. una para la poblaci´on que pertenece a la PEA (engloba a ocupado. como por ejemplo: primaria tendr´a el valor de 1 cuando el individuo no tenga nivel de educaci´on o alcanz´o el nivel inicial. Luego use el comando bar con las opciones stack y percentages para obtener el grafico en el periodo de an´alisis. El Gr´afico Nro. usar la variable del facun lo ense˜ nado en este tor de expansi´on (fa amj12) y personalizar los formatos seg´ cap´ıtulo. 1 Composici´on de la poblaci´on en edad de trabajar. calcule dos nuevas variables dic´otomicas. Finalmente se sugiere usar las opciones over() donde se agrupe seg´ un la variable categ´orica y blabel() para mostrar la etiqueta de los valores totales. Gr´aficos en STATA 107 tente replicar algunos gr´aficos del Informe T´ecnico: Situaci´on del Mercado Laboral en Lima Metropolitana.4. seg´ un condici´on de actividad : Para esto. desocupado abierto y oculto) y otra a la PEI (equivalente a no pea). . trimestre m´ovil: Abril-mayo-Junio 2012.

6. Ejercicio Propuesto .108 4.

ver a Cameron y Trivedi. Microeconometric usign STATA ( Cap´ıtulo 4) 109 . cuando estos n´ umeros seudo-aleatorios son generados.Cap´ıtulo 5 Programaci´ on en STATA 5. npormal. tal que al correr varias veces el programa o Do-file obtengamos los mismos valores seudo-aleatorios. Generando N´ umeros Seudo-Aleatorios STATA incluye un conjunto de funciones para generar n´ umeros seudo-aleatorios. previamente indicaremos al STATA que solo trabajaremos con 1000 observaciones. chi-cuadrado y t-student. debemos establecer un valor espec´ıfico como semilla con el comando set seed. En este caso. generamos una variable seudo-aleatoria con distribuci´on uniforme. A continuaci´on mostramos la descripci´on de algunas funciones para generar 1 Para una peque˜ na ilustraci´ on como STATA genera n´ umeros seudo-aleatorios.1. Para mostrar como se generan n´ umeros seudo-aleatorios. Estas funciones comienzan con la letra r (de random). el cual pueden seguir diversas funciones de distribuci´on . por lo cual usaremos el comando set obs.Luego. Los generadores de n´ umeros seudo-aleatorios usa determiandos mecanismos para producir largas cadenas de numeros que imitan las realizaciones de alguna funci´on de distribuci´on objetivo1 .

start=. clear all . replace) title("Distribuci´ on Normal(0. gen w=runiform() .saving(g1.03439541) (file g1.22864615) (file g2.s) invnormal() rt(gl ) rchi2(gl ) rpoisson(m) Tabla 5. gen y=rchi2(5) //gl=5 . start=-3. Generando N´ umeros Seudo-Aleatorios n´ umeros seudo-aleatorios:2 Funci´ on de Distribuci´ on Uniforme Normal media 0 y desviaci´on est´andar 1 media m y desv. cd "D:\Econometria-Stata\programacion" . normal saving(g2.normal saving(g3. *GENERANDO N´ UMEROS PSEUDO-ALEATORIOS .1. start=. width=. set more off . set seed 101010 . gen x=rnormal() . replace) title("Distribuci´ on Uniforme") (bin=29.gph saved) .gph saved) title("Distribuci´ on Chi-Cuadrado(5)") 2 Las funciones para generar n´ umeros seudo-aleatorios se pueden ver ejecutando el comando help function y elegir la opci´on Random-number functions random-number functions.110 5.8545389. est´andar 1 media m y desv.00182341. set obs 1000 obs was 0. *----------------------------------.1") (bin=29. histogram y. histogram x. replace) (bin=29.gph saved) .1: Funciones de Variables Aleatorias .141712. .67029993) (file g3. est´andar s Normal Inversa t-student Chi-Cuadrado Poisson function runiform() rnormal() rnormal(k ) rnormal(m. histogram w. width=. width=. now 1000 . set mem 200m .

gph Figura 5. El contenido de la primera se define con el comando local y el segundo con el comando global.5. Programaci´on en STATA . histogram z.gph g2. start=-4. Esta macro puede contener cualquier combinaci´on de caracteres alfanum´ericos y caracteres.gph saved) . replace) title("Distribuci´ on t-student(10)") (bin=29. Macros Local y Global Una macro en STATA es un string que tiene un valor y un nombre.gph g4. .gph g3. Existen dos tipos de macros en STATA conocidas como local y global.4616423.36922016) (file g4.Variables Aletarias 5.2.normal saving(g4. la cual sirve para reemplazar otros string. Una macro global es accesible en los Do-file o a lo largo de una sesi´on en STATA. width=.1: Gr´aficos . graph combine g1. Una macro local puede ser accedida solo entre una sesi´on interactiva o un Do-file dado. gen z=rt(10) 111 //gl=10 .

776199 19.2. . consideramos una regresi´on de la variable mpg sobre diferentes regresores.2. *------------. generar un codebook y resumir los estad´ısticos de una lista de variables sin la necesidad de escribirlos en todas las lineas de comandos. Para acceder a este tipo de macro. Std. sum $glist Variable Obs Mean x y z 1000 1000 1000 -.061062 -. .461642 2.854539 .128538 Min Max -3.58041 6.141712 -4. Macro Global Estos son los m´as simples macros y son adecuados para muchos prop´ositos. sum `llist´ Variable Obs Mean x y z 1000 1000 1000 -.2.0206937 Std.461642 2. encerramos al nombre de la macro entre estas comillas especiales ( ‘0 ) 3 .2.112 5.0206937 5.245742 3 Estos s´ımbolos donde se ubican en la parte superior de su derecha del teclado (el otro se ubica al costado del bot´ on de la letra “p”y el primero s´ımbolo se ubica en el bot´on del signo de interrogaci´ on “?”) . Macros Local y Global 5. 1.061062 -. Dev. Por ejemplo.048498 3. *-----. *------------. 1.191537 1.58041 6. Dev. ponemos el s´ımbolo $ inmediatamente antes del nombre de la macro. si queremos describir.854539 . global glist x y z . //Macro Global .048498 3.141712 -4. local llist x y z .776199 19. Consideremos una macro local llist. usaremos una macro global glist que reemplace esta lista de variables.0366944 5. //Macro Local . entonces. *MACROS .0366944 5. Como un ejemplo de macro local.245742 Macro Local Para acceder a esta macro.191537 1.1.128538 Min Max -3.

donde la lista puede ser nombre de variables (posiblemente dados en una macro) o una lista de n´ umeros. ahora crearemos otra que sea suma1=0. x3var y x4var. El comando foreach El comando foreach construye bucles para cada uno de los item de una lista. . Existe muchas variaciones en la forma como uno puede realizar estos bucles. lo usaremos para crear la suma de cuatro variables. Programaci´on en STATA 5. . En este caso la lista es x1var.3077757 3. tal que los valores de esta sean todos iguales a cero. . gen suma= x1var+ x2var+x3var+ x4var .789982 A partir de esto presentamos diferentes formas para usar los bucles para calcular una suma progresiva de estas variables. forvalues y while. . donde cada variable se crea de una distribuci´on uniforme. Usaremos esta misma idea para generar la suma de estas cuatro variable usando el comando foreach.1.026775 Std.5. Dev. gen gen gen gen x1var=runiform() x2var=runiform() x3var=runiform() x4var=runiform() . STATA tiene tres constructores de bucles: foreach. . x2var. Para la ilustraci´on de estos comandos. . *-----. *BUCLES .3. summarize suma Variable Obs Mean suma 1000 2.5819928 Min Max . 113 Comandos para Bucles Los bucles proveen una forma de repetir el mismo comando muchas veces. 5.3. Como vimos. Comencemos por usar una lista de nombre de variables. . *Nosostros deseamos la suma de las cuatro variables. la u ´ltima variable creada fue suma.

as´ı que es necesario el uso de las comillas . *I Forma . // foreach . foreach var of varlist x1var-x4var { . foreach var of varlist $xvar { . replace suma1=0 (1000 real changes made) . // (1000 (1000 (1000 (1000 real real real real changes changes changes changes made) made) made) made) . donde se coloca un corchete de apertura { al final de la primera l´ınea de comando y un corchete de cierre } al final del programa. //desde variables x1var hasta x4var . } . replace suma1=0 (1000 real changes made) . *III Forma . } (1000 (1000 (1000 (1000 real real real real changes changes changes changes made) made) made) made) . replace suma1=suma1 + `var´ . global xvar x1var x2var x3var x4var . } (1000 (1000 (1000 (1000 real real real real changes changes changes changes made) made) made) made) El resultado es el mismo obtenido manualmente. nos referimos a cada variable en la lista de variable llamada varlist a trav´es de la macro local llamada var. *--------. foreach var of varlist x1var x2var x3var x4var{ . replace suma1=suma1 + `var´ . replace suma1=suma1 + `var´ . La codificaci´on en este bucle es un ejemplo de una programaci´on. //Para esto se necesita que exista un orden entre .114 5. *II Forma . En este bucle.3. gen suma1=0 . Comandos para Bucles .

global o local 4 .2.789982 Como vemos produce el mismo resultado. summarize suma2 Variable Obs Mean suma2 1000 2. El nombre de la macro es opcional. podemos escribir forvalues i=1(2)11.la elecci´on del nombre i para la macro local fue arbitrario. *----------. Programaci´on en STATA 115 especiales para invocar a esta macro local. . gen suma2=0 . replace suma2= suma2 + x`i´var . En el siguiente c´odigo. Este comando es utilizado cuando los comandos 4 Para m´ as detalle se recomienda ver help foreach.3. nosotros usamos un ´ındice i para que se una macro local ‘i’. En este caso espec´ıfico donde el incremento es una unidad. .026775 Std. Otros posibles listas que se podr´ıan usar es numlist.5.3. 5. newlist. El comando forvalues El comando forvalues iter sobre valores consecutivos. Dev. 5.5819928 Min Max .3. . Por ejemplo. } (1000 real changes made) (1000 real changes made) (1000 real changes made) (1000 real changes made) .3077757 3. El comando while El comando while continua ejerciendo la operaci´on ordenada hasta que una condici´on ya no sea cumplida. // forvalues . forvalues i=1/4 { . entonces el ´ındice va de 1 hasta 11 en incrementos de 2 unidades. pero la palabra varlist si es necesaria para indicarle al STATA que est´a trabajando con una lista de variable. uno puede usar otros incrementos.

4. .789982 Escalares y Matrices Los escalares pueden almacenar n´ umeros o string.026775 5. summarize. 5.4. *-----. la macro local i se hace que inicie en el valor de 1 y luego aumenta hasta que i ≤ 4. while `i´ <=4 { . En el siguiente c´odigo. Escalares y Matrices foreach y forvalues no puedan ser utilizados. summ suma3 Variable Obs Mean suma3 1000 2. replace suma3= suma3 + x`i´var . Podemos ver los contenido de un escalar usando el comando display. local i 1 . //while . gen suma3=0 .116 5. * Escalares y Matrices .1. . } (1000 (1000 (1000 (1000 real real real real changes changes changes changes made) made) made) made) .5819928 Min Max . *-------- . etc) dan resultados como escalares num´ericos. Dev. Escalar Los comandos que nos permite analizar variable (describe.4. tambi´en podemos ver la lista de todos los escalares creados a trav´es del comando scalar list. .3077757 3. Std. local i= `i´ + 1 . y las matrices pueden almacenar diferentes n´ umeros o string como un vector. //Escalar . *--------------------.

matrix define A = (1. set matsize 1000 .2. scalar a = 2*3 .9) . . Es recomendable usar la opcion matrix() donde se coloca el nombre de la matriz que se va a generar. z en una matriz llamada X.4. pero previamente podemos establecer una memoria m´axima para crear uan matriz. display a 6 Tambi´en es posible convertir las variables de una base de datos a una amtriz agrupandolas. .3] c1 r1 1 r2 4 r2 7 c2 2 5 8 c3 3 6 9 . El siguiente c´odigo ilustra la definici´on de una matriz de tama˜ no 2 × 3 (con el comando matriz define). display "2 veces 3= " a 2 veces 3= 6 5. ambas almacenan tanto n´ umeros o string en vectores. Para una ilustraci´on.2.5.6\7. *--------. a trav´es del comando mkmat. scalar list a = 6 . matrix list A A[2. scalar a= A[2.3] . x. Programaci´on en STATA 117 .3\4. en nuestro caso estableceremos que la matriz puede ser de orden 1000 como m´aximo. El otro modo es usando el lenguaje de programaci´on que incluye el STATA en esta versi´on llamada MATA. Matrices STATA provee dos formas distintas para usar matrices.5. y. agruparemos las primeras 100 observaciones de lasvariable aleatorias w.8. la lista de la matriz (matfrix list) y la extracci´on como un escalar de un elemento espec´ıfico del elemento de una matriz. Una manera es a trav´es de los comandos de STATA que tiene el prefijo matrix. //Matrices .

matrix(X) . entre otros.801e+16 c3 -4. mkmat w x y z in 1/100.000M 7.3] r1 r2 c1 1 4 c2 2 5 c3 3 6 r3 7 8 9 . variables allowed max. matrix list X Lo interesante del entorno matricial del STATA.118 5.661e-16 .504e+15 c2 9. scalar trazaA=trace(A) //Traza de A .909M 200. Escalares y Matrices Current memory allocation current settable value set maxvar set memory set matsize description 5000 200M 1000 max. la Inversal.504e+15 .622M . A continuaci´on se muestra un ejemplo de estas funciones: . display "detA =" detA detA =6.3] r1 r2 c1 -4. //Operaciones con Matrices . es que tiene implementado diversas funciones que son de gran utilidad como la Transpuesta. matrix define At=A´ //Transpuesta de A . matrix list Ainv symmetric Ainv[3. matrix define Ainv=inv(A) //Inversa de A . scalar detA=det(A) //Determinante de A .007e+15 -1.504e+15 9. data space max. matrix define I5=I(5) //Identidad(5) . matrix list I5 . display "trazaA =" trazaA trazaA =15 . RHS vars in models memory usage (1M = 1024k) 1.713M 209. matrix list At At[3.007e+15 r3 -4.4. el Determinante. los Autovalores y Autovectores de una matriz.

5. matrix define B=J(2. matrix define D=diag(d) //Matriz columna cuya diagonal principal es el vector d . Todos los comandos r-class guardan su resultado en r().1.3.3] c1 c2 c3 c1 1 c2 0 5 c3 0 0 9 5.3] c1 r1 0 r2 0 c2 0 0 c2 5 //Matriz B de 2 filas y 3 columnas lleno de ceros c3 0 0 .0) . matrix list d d[1.5] c1 c2 c3 c4 r1 1 r2 0 1 r3 0 0 1 r4 0 0 0 1 r5 0 0 0 0 c5 1 .5. matrix list D symmetric D[3. matrix define d=vecdiag(A) .5. matrix list B B[2. Usando los Resultados de los Comandos de STATA Usando los Resultados con el Comando r-class Los comandos del STATA que analizan pero que no estiman par´ametros son comandos r-class. listamos los resultados almacenados despu´es de usar un summarize: . Los contenidos de r() var´ıan seg´ un el comando y se pueden observar tipeando return list.5.3] c1 r1 1 119 //Vector compuesto por los elementos de la diagonal de A c3 9 . Programaci´on en STATA symmetric I5[5. Como ejemplo.

scalar rango= r(max) .5. r(sum). return list scalars: r(N) r(sum_w) r(mean) r(Var) r(sd) r(min) r(max) r(sum) = = = = = = = = 1000 1000 2. scalar media=r(mean) .026775 Std.789982 . . Dev. *---------------. Otros resultados adicionales se mostrar´an si usamos la opci´on detail..3387156196380708 . display "Sample range =" rango Sample range =3.789982318878174 2026.789982 .4822066 . summ suma Variable Obs Mean suma 1000 2. //Comando r-class .120 5.r(min) .775246024132 Hay ocho resultados almacenados separadamente escalares en el STATA con los nombres r(n). Podemos tambi´en guardar el valor como un escalar.026775246024132 . .. r(sum w).5819928 Min Max . Dev. . El siguiente c´odigo calcula y muestra el rango de la data. .5819928 Min Max .4822066 a = 6 Los resultados en r() desaparecen cuando otro comando r-class o e-class es ejecutado..3077757060527802 3.026775 Std.0267752 rango = 3. summ suma Variable Obs Mean suma 1000 2.5819928003318176 .3077757 3. Usando los Resultados de los Comandos de STATA . .3077757 3. scalar list media = 2.

604 0.0962705 .58 -0. x z _cons -.2.0894426 .06 . 997) Prob > F R-squared Adj R-squared Root MSE P>|t| 0. *---------------. ereturn list scalars: e(N) e(df_m) e(df_r) e(F) e(r2) e(rmse) e(mss) e(rss) e(r2_a) e(ll) e(ll_0) e(rank) = = = = = = = = = = = = 1000 2 997 1.1291646 5.7801 2 997 13.856402 .2218702 4.000 = = = = = = 1000 1. Err.1783151 Total 10175. regress y x z Source SS df MS Model Residual 27. //Comando e-class .0371585 .0463528 5.372592716977994 . 121 Usando los Resultados con el Comando e-class Los comandos de estimaci´on se guardan como e-class (o clase de comando de estimaci´on).9706811 10.115 0. Interval] -. Los resultados son guardados en e().252666 .3406737 -.1009668 t -1. .190347171151676 27. los contenidos se pueden ver tipeando ereturn list. .0027458851254827 3. tal como regress.1859074 y Coef.940851643387 3 e(cmdline) e(title) e(marginsok) e(vce) e(depvar) e(cmd) e(properties) e(predict) e(model) e(estat_cmd) : : : : : : : : : : "regress y x z" "Linear regression" "XB default" "ols" "y" "regress" "b V" "regres_p" "ols" "regress_estat" macros: matrices: e(b) : e(V) : functions: e(sample) 1 x 3 3 x 3 Number of obs F( 2.9413623 10147.1517576 -.0027 0. Programaci´on en STATA 5.94136227917443 10147.52 50.566020651634 -2578.5.2539 0.37 0.78012725807 .054534 Std.5.1903 [95 % Conf.7215 999 10.0007 3.0007453753664566 -2577.

nosotros obtenemos el coeficiente MCO del precio desde la matriz e(b) de 1x3.5.00274589).1] . *Calculando el t-student para la variable price . .1] . Los resultados de los par´ametros y varianza est´an guardados como matrices. -1. podemos usar los resultados para calcular el valor de R2 . display " t-student para Ho: b_rpice=0 es " t_x t-student para Ho: b_rpice=0 es -1.5763665. Por ejemplo.5763665 El resultado es el mismo que arrojo la regresi´on original. Espec´ıficamente. . *Calculando el R-squared . scalar b_x=b_est[1. matrix b_est=e(b) . Aqu´ı presentamos m´etodos para extraer escalares desde matrices y manipularlos. el estimador de varianza desde la matriz e(V) de 3 × 3. Usando los Resultados de los Comandos de STATA Los resultados num´ericos en el an´alisis de regresi´on se han guardado como escalares. La suma de cuadrados del modelo est´a guardado en e(mss) y la suma de cuadrados de los residuos en e(rss). Los resultados en e() desaparecen cuando otro comando r-class o e-class es ejecutado. matrix V_est=e(V) . . scalar r2=e(mss)/(e(rss)+e(mss)) . display "r-squared = " r2 r-squared = . scalar t_x=b_x/sqrt(V_x) . y entonces formamos el estad´ıstico de t-student para probar la significancia individual del modelo para la variable price.00274589 El resultado es el mismo que arrojo la regresi´on original (0.122 5. scalar V_x=V_est[1.

Genere 3 variables aleatorias con cada una √ √distribuciones:  de las siguientes Uniforme. (1. Con todas las variables creadas generar una matriz. 0.5.22).5.5. Poison con media 0. Binomial Negativa con par´ametros √ (11. 2. Se define la Matriz de Varianzas y Covarianzas en su forma matricial como: V C = ( n1 )X 0 M0 X donde: M0 = I − ( n1 )ii0 siendo I la matriz identidad de orden 100 (por el n´ umero de observaciones o filas de la matriz X) y el vector i de orden 100 × 1 cuyos valores son todos iguales a la unidad.  (n. 123 Ejercicio Propuesto Resuelva los siguientes enunciados: 1. Programaci´on en STATA 5. 1). 0.45)}. 3). con nombre X. 3. b) = (1. 2). 5. p) = {(3. 0. (2. T-Student con 10. 4. Realice una gr´afico por tipo de distribuci´on comparando las tres de variables. 2).2). Chi con√3. Binomial con par´ametros (n.75). Guarde una lista de variables en una macro global para tipo de distribuci´on. 0. Cree una base de datos con 1000 observaciones y establezca la siguiente semilla 123456789 para generar n´ umeros aleatorios. ( 3. 3) . Normal con par´ametros (m. 0. 6 y 3 grados de libertad. (4. 7) .55). (1. (4. que englobe a todas estas. Nota: Se recomienda usar comando de bucles. Nota: Puede usar el comando mkmat con las macros creadas. p) = {(5.75 y 1. por ejemplo: global macro normal var1 var2 var3.5. 7) . pra luego usar comandos de bucles para hacer eficiente la programaci´on m´as adelante. 8). 1).75)}. 6 √  Cuadrado y 10 grados de libertad. .5. Gamma con par´ametros (a. ( 3. b) = (1. Luego guarde en una nueva macro llamado distribucion todas las macros creadas anteriormente. (2. 0. Beta con par´ametros (a.6. Nota: Se recomienda crear variables cuyos nombres presenten un componente en com´ un. 6. (1. 0. s) = (0.

Calcule los Autovalores y Autovectores de esta Matriz de Varianzas y Covarianzas. ¿Qu´e relaci´on guarda los autovalores con la traza y el determinante de la Matriz de Varianzas y Covarianzas? .6. Ejercicio Propuesto 7.124 5.

hay que tener en claro la diferencia entre ambos conceptos: Censo : Comprende un recuento completo de los elementos de la poblaci´on. las investigaciones que podemos realizar se basan en an´alisis de datos a nivel muestral. y es muy dif´ıcil realizar con datos a nivel de poblacional. Antes de mencionar las razones .Cap´ıtulo 6 Dise˜ no Muestral 6. La diferencia entre ambos conceptos se muestra en el siguiente cuadro: 125 . Muestra vs Censo En la pr´actica.1. Es imporatnte mencionar que las inferencias que unen las caracter´ısticas de la muestra con los par´ametros de la poblaci´on se llaman procedimientos de estimaci´on. Muestra : Comprende un subgrupo de elementos de la poblaci´on.

Dise˜ no Muestral El proceso de dise˜ no de la muestra incluye cinco pasos. Definici´ on de la poblaci´ on meta. Dise˜ no Muestral Presupuesto Tiempo Disponible Tama˜ no de la Poblaci´on Varianza en la Caracter´ıstica Costos de los Errores de Muestreo Costos de los Errores de falta de Muestreo Naturaleza de la Medici´on Atenci´on a Casos Individuales Muestra Reducido Breve Peque˜ na Baja Bajo Alto Destructiva Si Censo Reducido Prolongado Numerosa Alta Alto Bajo No Destructiva No Tabla 6. estos est´an estrechamente interrelacionados y son relevantes para todos los aspectos del proyecto de investigaci´on de mercados. Ejecutar el proceso de muestreo. desde la definici´on del problema hasta la presentaci´on de los resultados.1: Muestra vs. quien debe incluirse en la muestra y quien no. ya que una definici´on inexacta de la poblaci´on meta dar´a como resultado una investigaci´on ineficaz en el mejor de los casos y enga˜ nosa en el peor. Determinar el tama˜ no de la muestra. Determinar el marco de la muestra.2. . A continuaci´on se explicar´a brevementa cada punto: 1. Censo 6.126 6. Las poblaciones meta deben definirse con precisi´on. La poblaci´on meta es el conjunto de elementos u objetos que poseen la informaci´on que busca el investigador y sobre los que debe hacerse la inferencia. Definir la poblaci´on meta. Seleccionar las t´ecnicas de muestreo. es decir.2.

Una unidad de muestra es un elemento. o unidad que contiene el elemento. Consiste en una lista o grupo de indicaciones para identificar la poblaci´on meta. Con frecuencia a la hora de listar los elementos incluimos elementos que no pertenecen a la poblaci´on u omitimos uno que s´ı pertenece a la poblaci´on. corregir los errores en el proceso de entrevistas o ponderar los datos del marco d´andole mayor probabilidad a los que pertenecen a la muestra. una lista de correo comprada a una organizaci´on comercial. El marco muestral es una representaci´on de los elementos de la poblaci´on meta. debe especificarse. el directorio de una ciudad o mapa. realizar la muestra con o sin reemplazo y si emplea una muestra de probabilidad o no probabilidad. La selecci´on de una t´ecnica de muestreo comprende varias decisiones de naturaleza amplia. Este punto ser´a tratado con mas detalle en la siguiente secci´on. la extensi´on y el tiempo. Ejemplos: directorio telef´onico. El investigador debe decidir si utilizar una estrategia de muestra bayesiana o tradicional. por lo menos. Selecci´ on de una t´ ecnica de muestreo. 4. Dise˜ no Muestral 127 La poblaci´on meta debe definirse en t´erminos de los elementos. 3. que esta disponible para su selecci´on en alguna etapa del proceso de muestreo. por lo regular el elemento es el entrevistado. Determinaci´ on del marco de la muestra.6. algunas indicaciones para identificar la poblaci´on meta como los procedimientos de marcar d´ıgitos aleatorios en las encuestas por tel´efono. El tama˜ no de la muestra se refiere al n´ umero de elementos que se incluyen en el estudio. Si no se puede compilarse una lista. Un elemento es el objeto sobre el cual o del cual se desea informaci´on. En la investigaci´on con encuestas. La determinaci´on del tama˜ no de la muestra es compleja y comprende varias consideraciones: . 2. Pero otras veces es necesario solucionar este error y hay diversos caminos como redefinir la poblaci´on en funci´on del marco muestral. Determinaci´ on del tama˜ no de la muestra. el directorio de una asociaci´on que lista las empresas en una industria. En algunos casos este error es peque˜ no y se ignora. las unidades de muestra.

el marco de la muestra.3. La naturaleza del an´alisis. recibe el nombre de muestreo probabil´ıstico. T´ecnicas de Muestreo La importancia de la muestra (mientras m´as importante se necesitar´a mayor precisi´on y una muestra m´as grande). Ejecuci´ on del proceso de muestreo. Deben proporcionarse informaci´on detallada para todas las decisiones sobre el dise˜ no de la muestra. Se espera que las propiedad de dicha muestra sean extrapolables a la poblaci´on. 6. . es decir.128 6. 5.. La naturaleza de la investigaci´on. La ejecuci´on del proceso de muestreo requiere de una especificaci´on detallada de la forma en que se pone en practica las decisiones del dise˜ no de la muestra respecto a ala poblaci´on. Cuando se cumple con la condici´on de que todos los elementos de la poblaci´on tienen alguna oportunidad de ser escogidos en la muestra. Existen dos m´etodos para seleccionar muestras de poblaciones: El muestreo aleatorio: Incorpora el azar como recurso en el proceso de selecci´on. Las limitaciones de recursos. Este proceso permite ahorrar recursos. si la probabilidad correspondiente a cada sujeto de la poblaci´on es conocida de antemano. y a la vez obtener resultados parecidos a los que se alcanzar´ıan si se realizase un estudio de toda la poblaci´on. la unidad de muestra. El n´ umero de variables. Los tama˜ nos de la muestra utilizada en estudios anteriores.3. debe ser una muestra representativa de la poblaci´on objetivo. T´ ecnicas de Muestreo Estad´ısticamente se conoce como muestreo a la t´ecnica de seleccionar una muestra a partir de una poblaci´on. la t´ecnica de muestreo y el tama˜ no de la muestra.

6. A continuaci´on se explicar´a brevementa cada punto: 1. Resultados pueden proyectarse a la poblaci´on meta. La mayor´ıa de planteamientos de inferencia suponen que la muestra ha sido recopilada por este procedimiento. al no conocer las caracter´ısticas de la poblaci´on. Este conjunto de t´ecnicas de muestreo es el m´as aconsejable. Caracter´ısticas positivas: F´acil de comprender. Algunas veces una muestra de juicio se usa como gu´ıa o muestra tentativa para decidir c´omo tomar una muestra aleatoria m´as adelante. aunque en ocasiones no es posible optar por ´el. . Limitaciones Dif´ıcil construir un marco del cual se pueda extraer una muestra por muestreo aleatorio simple. Muestreo Probabil´ıstico Forman parte de este tipo de muestreo todos aquellos m´etodos para los que puede calcular la probabilidad de extracci´on de cualquiera de las muestras posibles. cada elemento de la poblaci´on tiene una probabilidad de selecci´on id´entica y conocida. Muestreo Aleatorio Simple (SRS) En esta t´ecnica. se elige independientemente de cualquier otro. pues no es en rigor correcto hablar de muestras representativas dado que. Lo mismo ocurre con cualquier muestra de tama˜ no n que se formule por medio de un proceso aleatorio. no es posible tener certeza de que tal caracter´ıstica se haya conseguido. Dise˜ no Muestral 129 El muestreo no aleatorio: Una muestra seleccionada por muestreo de juicio puede basarse en la experiencia de alguien con la poblaci´on. a. En este caso se habla de muestras probabil´ısticas.

Luego. no obstante. El intervalo i de la muestra se determina dividiendo el tama˜ no de la poblaci´on por el de la muestra que se desea. el procedimiento es sencillo. 233 (133+100). Baja precisi´on (con respecto a las dem´as t´ecnicas). se requiere que la poblaci´on sea bastante homog´enea. dentro de un estrato. Hay que notar que los estratos deben ser lo m´as excluyentes posibles entre ellos. . Muestreo Estratificado Una poblaci´on se divide en subgrupos(estratos) y se selecciona una muestra de cada estrato. un punto inicial. primero se elige aleatoriamente. T´ecnicas de Muestreo Pueden resultar muestras muy grandes. etc. Muestreo sistem´ atico En este caso. Una nota importante es que este tipo de muestreo es u ´til y representativo cuando los elementos presentan un orden que se relaciona con la caracter´ıstica de inter´es. deben estar bastante relacionadas con la caracter´ıstica de inter´es y normalmente se emplea solo una. Muestreo desproporcionado: el tama˜ no del estrato es proporcional al tama˜ no relativo del estrato y a la desviaci´on est´andar entre todos los elementos del mismo. Las variables que se utilizan para dividir a la poblaci´on se llaman variables de estratificaci´on. Dentro de este tipo de muestreo tenemos otras dos categor´ıas: Muestreo proporcionado: el tama˜ no de la muestra de cada estrato es proporcional al tama˜ no relativo de ese estrato en la poblaci´on. los elementos siguientes ser´an 133 (33+100). b.130 6. Para utilizarlo se requiere que se tenga alguna informaci´on sobre la distribuci´on de la caracter´ıstica de inter´es. en base a ese punto inicial se eligen en sucesi´on cada i-´esimo elemento. Cada elemento de la muestra tiene probabilidad id´entica y conocida pero s´olo las muestras de tama˜ no n tienen esa propiedad. si aleatoriamente se elige el n´ umero 33 y sabemos que la poblaci´on consta de 10000 individuos y se requiere una muestra de 100. resulta ser menos costoso pues la selecci´on aleatoria se realiza solo una vez (al principio).3. Muestras de un tama˜ no distinto tienen una probabilidad de cero de ser elegidas. Adem´as. Esta resulta una t´ecnica de empleo bastante usada pues la muestra resulta ser representativa y adem´as. Por ejemplo. Existe incertidumbre acerca de la representatividad de la muestra. c.

Se diferencia del muestreo estratificado en que una vez determinada la cuota. la l´ogica es la misma que el muestreo de grupos y tambi´en puede realizarse en dos o m´as etapas. Una forma particular del muestreo de grupos es el muestreo de ´areas. Dise˜ no Muestral 131 d. los grupos se refieren a ´areas geogr´aficas. Muestreo No Probabil´ıstico a. Muestreo por Conglomerados Para utilizar esta t´ecnica se siguen dos pasos. el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato. Posteriormente se calcula el peso proporcional de cada estrato. c. es decir. descart´andose los no elegidos. se considera que la informaci´on aportada por esas personas es vital para la toma de decisiones. Muestreo de Juicio Aqu´el para el que no puede calcularse la probabilidad de extracci´on de una determinada muestra. Finalmente se multiplica cada peso por el tama˜ no de n de la muestra para determinar la cuota precisa en cada estrato. b. la parte proporcional de poblaci´on que representan. por lo tanto. En primer lugar es necesario dividir la poblaci´on de referencia en varios estratos definidos por algunas variables de distribuci´on conocida (como el g´enero o la edad). En primer lugar. Muestreo de bola de nieve . En segundo lugar.6. se divide a la poblaci´on objetivo en subpoblaciones mutuamente excluyentes y colectivamente exhaustivas (de modo que los elementos de las subpoblaciones sean homog´eneos) que se denominar´an grupos. Una muestra de grupo tambi´en se puede realizar en m´as de dos etapas (muestra de etapas m´ ultiples). En esta t´ecnica. Muestreo por cuotas Es la t´ecnica m´as difundida sobre todo en estudios de mercado y sondeos de opini´on. La diferencia con el muestreo estratificado reside que en este caso se extrae una muestra de grupos para la selecci´on posterior y no se seleccionan todas las subpoblaciones. se escogen aleatoriamente algunos grupos de forma aleatoria y se concentran los esfuerzos en estos. 2. Se busca seleccionar a individuos que se juzga de antemano tienen un conocimiento profundo del tema bajo estudio.

efectuar el seguimiento de los indicadores sobre las condiciones de vida. La Encuesta Nacional de Hogares (ENAHO) Indicado para estudios de poblaciones clandestinas. Partiendo de una peque˜ na cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con caracter´ısticas an´alogas. as´ı como a investigadores. Servir de fuente de informaci´on a instituciones p´ ublicas y privadas. del bienestar y de las condiciones de vida de los hogares. Una variante de esta t´ecnica es el muestreo compensado o equilibrado. Efectuar diagn´osticos (mensuales) sobre las condiciones de vida y pobreza de la poblaci´on. Permitir la comparabilidad con investigaciones similares.132 6. La Encuesta Nacional de Hogares (ENAHO) La Encuesta Nacional de Hogares (ENAHO).4. es la investigaci´on que permite al Instituto Nacional de Estad´ıstica e Inform´atica (INEI) desde el a˜ no 1995. en relaci´on a las variables investigadas.4. en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la poblaci´on. Objetivos Generar indicadores mensuales. . d. que permitan conocer la evoluci´on de la pobreza. Consiste en identificar sujetos que se incluir´an en la muestra a partir de los propios entrevistados. a. Muestreo subjetivo por decisi´ on razonada En este caso las unidades de la muestra se eligen en funci´on de algunas de sus caracter´ısticas de manera racional y no casual. minoritarias o muy dispersas pero en contacto entre s´ı. 6. Medir el alcance de los programas sociales en la mejora de las condiciones de vida de la poblaci´on.

barcos. en el ´area urbana y rural. c´arceles. Dise˜ no y Marco Muestral Marco Muestral El marco muestral para la selecci´on de la muestra lo constituye la informaci´on estad´ıstica proveniente de los Censos de Poblaci´on y Vivienda y material cartogr´afico actualizado para tal fin. etc. en los 24 departamentos del pa´ıs y en la Provincia Constitucional del Callao. se excluye a los miembros de las fuerzas armadas que viven en cuarteles. c. ´ En el Area Rural La Unidad Primaria de Muestreo (UPM) es de 2 tipos: . Unidad de Muestreo ´ En el Area Urbana La Unidad Primaria de Muestreo (UPM) es el centro poblado urbano con 2 mil y m´as habitantes. campamentos. La Unidad Secundaria de Muestreo (USM) es el conglomerado que tiene en promedio 120 viviendas particulares.). asilos y claustros religiosos. d.6. Dise˜ no Muestral 133 b. Poblaci´ on en Estudio La poblaci´on de estudio est´a definida como el conjunto de todas las viviendas particulares y sus ocupantes residentes del a´rea urbana y rural del pa´ıs. y otros. Cobertura La encuesta se realiza en el ´ambito nacional. La Unidad Terciaria de Muestreo (UTM) es la vivienda particular. Tambi´en se excluye a las personas que residen en viviendas colectivas (hoteles. hospitales. Por no ser parte de la poblaci´on de estudio.

La Encuesta Nacional de Hogares (ENAHO) • El centro poblado urbano con 500 a menos de 2 mil habitantes. La Unidad Secundaria de Muestreo (USM) es de 2 tipos: • El conglomerado que tiene en promedio 120 viviendas particulares.134 6.5 viviendas. En la muestra no panel se visitan cada a˜ no los mismos conglomerados en el mismo mes de encuesta pero se seleccionan distintas viviendas. de ´areas. • La vivienda particular La Unidad Terciaria de Muestreo (UTM) es la vivienda particular. es del 95 Caracter´ısticas de la Encuesta M´ etodo de Entrevista: Directa. Supervisores y Encuestadoras. Tipo de Muestra La muestra es del tipo probabil´ıstica. se ha implementado desde la ENAHO 2008 una muestra de viviendas tipo panel. Personal de Campo: Coordinadores Departamentales. El nivel de confianza de los resultados mu´estrales. en la cual viviendas encuestadas son nuevamente investigadas cada a˜ no.4. estratificada. Factores de Expansi´ on . Carga de Trabajo por d´ıa: 1. multiet´apica e independiente en cada departamento de estudio. A fin de medir los cambios en el comportamiento de algunas caracter´ısticas de la poblaci´on. Tipo de Encuesta: Encuesta de Derecho. ´ • El Area de Empadronamiento Rural (AER) el cual tiene en promedio 100 viviendas particulares.

involucra hasta 3 etapas de muestreo donde las unidades son seleccionadas con probabilidades proporcionales al tama˜ no (ppt) excepto la u ´ltima etapa. el mismo que es el producto de las probabilidades de selecci´on en cada etapa. . Dise˜ no Muestral 135 En las encuestas por muestreo. Equivale al inverso de su probabilidad final de selecci´on. La metodolog´ıa de estimaci´on para procesar los datos de la ENAHO. las observaciones son seleccionadas mediante un proceso aleatorio. involucra el uso de un peso o factor de expansi´on para cada registro que ser´a multiplicado por todos los datos que conforman el registro correspondiente. Cabe mencionar que se podr´an obtener estimaciones para otros niveles de desagregaci´on y su precisi´on o confiabilidad estad´ıstica depender´a fundamentalmente del n´ umero de casos u observaciones contenidas en la base de datos. Por consiguiente.6. por ejemplo) es igual a la inversa de la probabilidad de pertenecer a la muestra. donde cada observaci´on puede tener una probabilidad de selecci´on diferente. En la u ´ltima etapa se selecciona un n´ umero de viviendas para cada conglomerado teniendo en cuenta un intervalo de selecci´on. El factor b´asico de expansi´on para cada hogar muestral es determinado por el dise˜ no de la muestra. los factores de expansi´on b´asicos para la ENAHO 2010 ser´an ajustados teniendo en cuenta las proyecciones de poblaci´on por grupos de edad y sexo para cada mes de encuesta y niveles de inferencia propuestos en el dise˜ no de la muestra. El dise˜ no de la muestra de la ENAHO. La ponderaci´on (o peso) de una observaci´on (hogar. El factor final para cada registro tiene dos componentes: El factor b´asico de expansi´on y Los factores de ajuste por la no entrevista.

por ejemplo.ENAHO 6. con Dise˜ no muestral complejo. Si no se toman en cuenta las ponderaciones. Aplicaci´on . Un peso wj de una observaci´on j significa que la observaci´on j representa a wj elementos de la poblaci´on. es decir las observaciones son muestreadas en grupos o “clusters”. Aplicaci´ on . por ejemplo.5. Al igual que el caso anterior. De esta manera el usuario est´a en la capacidad de interpretar y utilizar adecuadamente cada estimaci´on proveniente de la encuesta.136 6. Los principales elementos que se deben tener en cuenta en el trabajo con datos de encuestas por muestreo son: Ponderaci´ on: En las encuestas por muestreo. distritos dentro de provincias y finalmente viviendas dentro de los distritos seleccionados. que son el objetivo final del muestreo. los errores est´andar que se obtengan ser´an menores a los verdaderos. es que permite calcular los estimadores teniendo en cuenta el dise˜ no muestral de la misma (diferente al muestreo simple al azar). Adem´as. son muestreados en forma independiente. si no se toma en cuenta este hecho. al efecto de la “NoRespuesta”. si no se toma en cuenta este hecho. se obtendr´an sub estimaciones de los errores est´andar verdaderos. Conglomerados o cluster: Algunas veces se utiliza el muestreo por conglomerados.5. Stata proporciona estad´ısticos con los cuales se puede evaluar la confiabilidad del resultado en forma simult´anea a su estimaci´on. La ponderaci´on (o peso) de una observaci´on (hogar. las estimaciones que se obtengan estar´an sesgadas. las observaciones son seleccionadas mediante un proceso aleatorio. donde cada observaci´on puede tener una probabilidad de selecci´on diferente. Para ilustrar este caso. Todas las observaciones de un mismo cluster no son independientes entre si. provincias dentro de departamentos. Estratos: En algunos casos. trataremos de modelar dos ecuaciones importantes en el contexto del mercado laboral: La ecuaci´on de participaci´on laboral y la ecuaci´on de . Es usual que luego del trabajo de campo se realicen ajustes sobre esta ponderaci´on. por ejemplo) es igual a la inversa de la probabilidad de pertenecer a la muestra. debido. tambi´en se emplea el muestreo estratificado. donde diferentes grupos de observaciones o estratos.ENAHO Una de las ventajas que ofrece el Stata para el an´alisis de Encuestas como la ENAHO.

254M 303. utilizaremos la base de la ENAHO del a˜ no 2010 correspondiente a los modulos 100 (caracter´ısticas de la vivienda). conglomerado. mes. set mem 300m Current memory allocation current settable value set maxvar set memory set matsize 5000 300M 400 description max. ************************** .163M . Del modulo 100 consideraremos las variables que indicas los servicios b´asicos que cuenta la vivienda (como: telefono (p1141). el c´odigo de la persona estar´a determinado por las mismas variables del c´odigo de la vivienda m´as el c´odigo de la persona.909M 300. estrato (estrato) y c´odigo de la persona (codperso)).ENAHO 2010 * .6. dominio (dominio). hogar (hogar). Adem´as de las variables que nos permi˜ tan identificar a cada una de las observaciones (como: el a˜ no (aNo). mientras que.CARACTER´ ISTICAS DE LA VIVIENDA . modulo 300 (Educaci´on) y modulo 500 (Empleo). use enaho01-2010-100. cd "D:\Econometria-Stata\aplicacion-enaho" D:\Econometria-Stata\aplicacion-enaho . ubigeo. clear all . conglomerado (conglome). ********************************************* . celular (p1142) e internet (p1144)). En primer lugar. vivienda. set more off . dominio y estrato. El codigo de la vivienda (codviv) estar´a compuesto por la concatenaci´on de las variables a˜ no. RHS vars in models memory usage (1M = 1024k) 1. vivienda (vivienda). . * APLICACI´ ON . hogar. data space max. el cual nos van a servir como llaves para poder fusionar todas las bases de datos con que estamos trabajando. el mes (mes).dta. *creamos las variables respectivas . variables allowed max. rename p1142 celular . * MODULO 100 . ************************** .000M 1. keep a~ No mes conglome vivienda hogar ubigeo dominio estrato /// > p1141 p1142 p1144 . rename p1141 telefono . modulo 200 (miembros del hogar). *mantenemos las variables de nuestro interes . Para este fin. clear . Dise˜ no Muestral 137 salarios. cargaremos las bases de cada uno de los modulos y seleccionaremos las variables de nuestro inter´es. ubigeo (ubigeo).

*creamos el identificador de vivienda . mes conglomerado. *creamos las variables respctivas .CARACTER´ ISTICAS DE LOS MIEMBROS DEL HOGAR . ******************************************************** .ENAHO . *-generamos el c´ odigo del n´ ucleo familiar egen codnucfam=concat(a~ No mes conglome vivienda hogar p203a) . gen genero=1 if p207==1 (50333 missing values generated) . sort codviv .dta. vivienda. . keep a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso /// p203a p203b p207 p208a p209 . gen jhog=1 if p203b==1 (62720 missing values generated) . *mantenemos las variables de nuestro interes . use enaho01-2010-200. *guardamos la base modificada del modulo 100 . la edad en a˜ nos (p208a) y el estado civil y conyugal (p209).dta. egen codviv= concat(a~ No mes conglome vivienda hogar ubigeo dominio estrato) . //jefe del hogar .138 6. rename p1144 internet .dta saved Del modulo 200 consideraremos las variables que reflejan algunas caracter´ısticas de los individuos importantes. replace genero=0 if p207==2 (45965 real changes made) . conjuntamente con la variable p203b y p208a identificaremos a los miembros de la familia que son hijos en la familia y que presentan edades entre 0 a 5 a˜ nos y 6 a 12 a˜ nos. hogar y p203a. de la variable p207 una dummy donde 1 ser´a si el encuestado es hombre y 0 si es mujer. replace file modulo100. el parentesco con el jefe del hogar (p203b). clear .5. replace jhog=0 if p203b!=1 (62720 real changes made) . Aplicaci´on . el sexo (p207). De la variable p203a calcularemos el n´ umero de miembros de la familia. para este prop´osito se cre´o una variable que identifique los miembros del n´ ucleo familiar con la variable codnucfam que es la concatenaci´on de las avriables a˜ no. //genero . . //N´ umero de hijos . * MODULO 200 . de la variable p203b una dummy donde 1 si es jefe del hogar y 0 si no lo es. save modulo100. como: el n´ umero de miembros en el n´ ucleo familiar (p203a). De la variable p209 crearemos una dummy cuyo valor 1 ser´a si el individuo est´a casado o es conviviente y 0 en otro caso.

> iar" bysort codnucfam: egen numhij612_nf=total(aux6) la var numhij612_nf "Numero de Hijos entre 6-12 a~ nos por Nucleo Famil . (53714 real changes made) . > . keep a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso /// codviv codper jhog genero edad casado numhij_nf numhij05_nf numhij612_nf tamnf . (85044 .dta saved 139 . *guardamos la base modificada del modulo 200 . . bysort codnucfam : egen numhij_nf=total(aux4) la var numhij_nf "N´ umero Total de hijos por Nucleo Familiar" . *creamos el identificador de persona egen codper= concat(a~ No mes conglome vivienda hogar ubigeo dominio estrato co dperso) sort codper . . //Tama~ no del N´ ucleo Familiar gen aux7=1 bysort codnucfam: egen tamnf=total(aux7) la var tamnf "Tama~ no del N´ ucleo Famliar" . Dise˜ no Muestral . . gen aux4=1 if p203b==3 (53714 missing values generated) . .6. *creamos el identificador de vivienda . //estado civil (casado o soltero) . . *mantenemos las nuevas variables de nuestro interes . . //edad . gen casado=1 if (p209==1 | p209==2) (60473 missing values generated) . replace aux4=0 if aux4==. rename p208a edad . egen codviv= concat(a~ No mes conglome vivienda hogar ubigeo dominio estrato) . save modulo200. (82293 *-N´ umero de hijos de 0 a 5 a~ nos gen aux5=1 if p208a<=5 missing values generated) replace aux5=0 if aux5==. replace casado=0 if casado==. replace file modulo200. real changes made) . (82293 . . sort codviv .dta. . (85044 . real changes made) bysort codnucfam: egen numhij05_nf=total(aux5) la var numhij05_nf "Numero de Hijos entre 0-5 a~ nos por Nucleo Familiar" *-N´ umero de hijos de 6 a 12 a~ nos gen aux6=1 if p208a>=6 & p208a<=12 missing values generated) replace aux6=0 if aux6==. . (60473 real changes made) . *-N´ umero de hijos por n´ ucleo familiar . .

************************ .dta.140 6. replace yeareduca=p301b+0 if p301a==2 //educaci´ on incial (3732 real changes made) . replace yeareduca=p301b+11 (4542 real changes made) . replace yeareduca=p301b+11 (3393 real changes made) . replace yeareduca=p301b+11 (3109 real changes made) .5. De estas variables calcularemos una variable proxi de los a˜ nos de educaci´on donde el criterio de partida ser´a: Si no tiene nivel educativ o (0 a˜ nos de eduaci´on). ´N . keep a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso /// p301a p301b p301c . replace yeareduca=p301b+0 if p301a==3 //primaria incompleta (19752 real changes made) . * MODULO 300 . si tiene nivel secundaria completa o incompleta (se cuenta los a˜ nos que ha estudiado o aprobado m´as 6 a˜ nos del nivel de primaria). replace yeareduca=p301b+0 if p301a==4 //primaria completa (9927 real changes made) . como: el nivel educativo aprobado (p301a).ENAHO Del modulo 300 seleccionaremos variables relacionado a la educaci´on del encuestado. replace yeareduca=p301c+0 if p301a==4 & p301b==0 //primaria completa (5420 real changes made) . replace yeareduca=p301b+16 (606 real changes made) if p301a==7 //Superior No Universitaria Incompleta if p301a==8 //Superior No Universitaria Completa if p301a==9 //Superior Universitaria Incompleta //secundaria completa if p301a==10 //Superior Universitaria Completa if p301a==11 //Postgrado . replace yeareduca=p301b+6 if p301a==6 (13675 real changes made) //secundaria incompleta . replace yeareduca=p301b+11 (2536 real changes made) . use enaho01a-2010-300. si tiene nivel post-grado (se cuenta los a˜ nos estudiados o aprobados m´as 16 a˜ nos entre educaci´on primaria. *creamos las variables respctivas . secundaria y superior universitario). replace yeareduca=p301b+6 if p301a==5 (14428 real changes made) . clear . el u ´ltimo a˜ no de estudio que aprob´o (p301b) y u ´ltimo grado de estudios que aprob´o. si tiene educaci´on incial y nivel primaria (se cuenta los a˜ nos que ha estudiado o aprobado).EDUCACIO . gen yeareduca=0 if p301a==1 //sin nivel (75789 missing values generated) . si tiene nivel de educaci´on superior universitaria o no univeristaria (se cuenta los a˜ nos estudiados o aprobados m´as 11 a˜ nos entre educaci´on primaria y secundaria) y por u ´ltimo. //A~ nos de Escolaridad . Aplicaci´on . replace yeareduca=p301c+0 if p301a==3 & p301b==0 //primaria incompleta (13136 real changes made) . *mantenemos las variables de nuestro interes .

gen hrtrab=4*i513t (14218 missing values generated) . * MODULO 500 . condici´on laboral del encuestado (ocu500). use enaho01a-2010-500. sort codviv . el ingreso anual imputado obtenido en su ocupaci´on principal (i524a1) y secundaria (i538a1). clear . gen ocupado=1 if ocu500==1 (17826 missing values generated) . keep a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso /// codviv codper yeareduca . *creamos las variables respctivas . (61507 real changes made) . Crearemos una variable dummy a partir de ocu500 cuyo valor 1 ser´a si est´a laboran y 0 sino lo est´a. el factor de expansi´on para el modulo de empleo fac500a7. replace i524a1=0 if i524a1==. *mantenemos las variables de nuestro interes . calcularemos el ingreso laboral mensual que se deriva de la suma del ingreso principal y secundaria entre 12. *mantenemos las nuevas variables de nuestro interes . //ingreso laboral total mensual .dta.6. sort codper .dta saved Del modulo 500 seleccionaremos variables relacionado a la situaci´on laboral del encuestado. *creamos el identificador de vivienda . De la variable i513t calcularemos las horas trabajadas en el mes multiplicandola por 4. replace ocupado=0 if ocu500!=1 (17826 real changes made) . replace i538a1=0 if i538a1==. egen codviv= concat(a~ No mes conglome vivienda hogar ubigeo dominio estrato) . . Adem´as. replace file modulo300. //horas trabajadas mensuales . //condici´ on laboral . (46167 real changes made) .EMPLEO . save modulo300.dta. *guardamos la base modificada del modulo 300 . egen codper= concat(a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso) . keep a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso /// i513t ocu500 i524a1 i538a1 fac500a7 . ********************* . como: el n´ umero de horas trabajadas durante la semana de referencia de la encuesta (i513t). *creamos el identificador de persona . Dise˜ no Muestral 141 . por u ´ltimo.

46 76.5.dta. *creamos el identificador de vivienda . drop _merge . keep a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso /// codviv codper ocupado hrtrab inglab fac500a7 . ************************* . procedemos a fusionar toda la informaci´on en una u ´nica base de datos al cual denominaremos base2010. count 63810 . save modulo500.dta (note: you are using old merge syntax.dta.810 23.dta saved Una vez que seleccionamos las variable de nuestro inter´es en cada uno de los modulos. merge codper (note: you are (label estrato (label dominio . * FUSIO . 300 y 200 .dta saved .00 . 19. Percent Cum. *mantenemos las nuevas variables de nuestro interes . //fusi´ on base 500. replace inglab=ln(inglab) (63810 real changes made.dta using old merge syntax. egen codper= concat(a~ No mes conglome vivienda hogar ubigeo dominio estrato codperso) . *guardamos la base modificada del modulo 500 . save modulo2010. 44582 to missing) . merge codper using modulo200. see [R] merge for new syntax) already defined) already defined) Freq. egen codviv= concat(a~ No mes conglome vivienda hogar ubigeo dominio estrato) .142 6. count 63810 . sort codviv .373 . replace file modulo2010. ´N DE BASE DE DATOS . see [R] merge for new syntax) (label estrato already defined) . sort codper .563 63.46 100. tab _merge _merge 2 3 using modulo300.dta.54 23. *creamos el identificador de persona . replace file modulo500. gen inglab=(i524a1+i538a1)/12 .ENAHO . //fusi´ on base 500 y 300 .00 Total 83. sort codper 100. Aplicaci´on . keep if _merge==3 (19563 observations deleted) .

replace file modulo2010. calcularemos alguynas variables que podr´ıan ser de ayuda.490 100.17 91. sort codviv 32. como es la experiencia laboral potencial(exper) y su cuadrado (exper2). unmatched(both) . el a´rea de residencia (Urbano y Rural) y las regiones del pa´ıs (Costa.00 100.dta. de las variables geogr´aficas como el ambito gepogr´afico (Lima Metropolitano.810 Total 95. Percent _merge 2 3 31.83 Total .149 . replace file modulo2010.00 Cum. Resto Urbano y Rural). tab _merge Freq. save modulo2010. Percent _merge only in using data both in master and using data 5. keep if _merge==3 (5680 observations deleted) . keep if _merge==3 (31339 observations deleted) . *Aproximada por la Edad y Educaci´ on (Exp1) . //EXPERIENCIA POTENCIAL .94 67. el cual se define como el valor m´ınimo de la experiencia obtenida entre la diferencia de la edad actual y los a˜ nos de educaci´on menos 5 a˜ nos. Sierra y Selva) que se derivan de las variables estrato y dominio. . drop _merge .dta saved Luego. tab _merge Freq.dta saved .dta.00 . 200 y 100 . 8.00 .06 Cum. *Experiencia Laboral Potencial .dta. y la experiencia obtenida entre la diferencia entre la edad actual y 14 a˜ nos que es la edad que se considera a una persona apta para participar en el mercado laboral .94 100. joinby codviv using modulo100. Dise˜ no Muestral 143 (label dominio already defined) . save modulo2010. 300.6. //fusi´ on base 500. sort codviv 69.680 63.17 100. 32. count 63810 .Adem´as.339 63.810 8. drop _merge . *generamos m´ as variables de nuestro interes .

replace ambito_geografico=2 if (dominio>=1 & dominio<=7) & (estrato>=1 & estrato<=5) (31290 real changes made) . gen exper2=exper^2 . la var exper "Experiencia Potencial" .00 Total 63.=0 si es Urbano" . *c.exper_b) . gen(rural) (63810 differences between ambito_geografico and rural) .66 38. gen exper_a=edad-yeareduca-5 (64 missing values generated) .34 61. *Aproximada por la Edad a trabajar (Exp2) . replace region=2 if dominio==4 | dominio==5 | dominio==6 (25059 real changes made) . la de amb_geo 1 "Lima Metropolitana" 2 "Resto Urbano" 3 "Rural" . la val rural amb_res . drop exper_a exper_b . REGIONES: Costa. la var rural "=1 si es Rural. *b. VARIABLE A . *Experiencia Potencial= min(Exp1. //CREACI´ ON DE VARIABLES GEOGR´ AFICAS ´MBITO GEOGRA ´FICO . VARIABLE ´ AREA DE RESIDENCIA .66 100. gen exper = min(exper_a. la var ambito_geografico "Ambito Geografico" .=0 si es Urbano Freq. replace exper_a=0 if exper<0 (47 real changes made) . Percent Cum.810 100. la de amb_res 0 "Urbana" 1 "Rural" . gen region=1 if dominio==1 | dominio==2 | dominio==3 | dominio==8 (38952 missing values generated) . *a. gen ambito_geografico=1 if dominio==8 (55754 missing values generated) .00 . Urbana Rural 39. Aplicaci´on .5. la var exper2 "Experiencia Potencial al Cuadrado" .144 6. tab rural =1 si es Rural. replace region=3 if dominio==7 (13893 real changes made) .ENAHO . gen exper_b=edad-14 . la val ambito_geografico amb_geo .Exp2) . Sierra y Selva . recode ambito_geografico (1=0) (2=0) (3=1) . replace ambito_geografico=3 if (dominio>=1 & dominio<=7) & (estrato>=6 & estrato<=8) (24464 real changes made) .346 24.464 61.

tenemos que especificar al STATA para que incorpore el Dise˜ no Muestral (ponderaciones. Stata utiliza las f´ormulas de estimaci´on de estad´ısticos propias de cada tipo de muestreo.893 38.23 100. // Comando: svyset . la var region "Regi´ on: Costa.96 39. svydes Survey: Describing stage 1 sampling units pweight: fac500a7 VCE: linearized Single unit: missing Strata 1: estrato SU 1: conglome FPC 1: <zero> .27 21. Percent Cum.96 78.059 13. antes de obtener cualquier estimaci´on. *COMANDO SVY . los conglomerados (conglome) y los estratos (estrato). . strata(estrato) psu(conglome) pweight: VCE: Single unit: Strata 1: SU 1: FPC 1: fac500a7 linearized missing estrato conglome <zero> .6. ************ .00 Total 63.00 Despues de armar la base de datos. tab region Regi´ on: Costa. Costa Sierra Selva 24. Sierra y Selva Freq. // Comando: svydes . la val region region . Todos los comandos para el an´alisis de datos provenientes de encuestas comienzan con las letras svy. conglomerados y estratos) antes de ejecutar las estimaciones. Es decir.77 38. En el caso de la Enaho es necesario especificar las variables que contienen las ponderaciones (fac500a7). Sierra y Selva" .810 100. Dise˜ no Muestral 145 .858 25. la de region 1 "Costa" 2 "Sierra" 3 "Selva" . svyset [pweight= fac500a7].

Interval] 6.0194611 18577 7332557 3312 [95 % Conf. Err.354124 .3 16.7 16. el intervalo de 95 % de confianza y el efecto de dise˜ no de esta estimaci´on.212167 . .146 6. Se pueden utilizar las opciones if y over.135846 6.4 21.1 20.5.ENAHO #Obs per Unit Stratum #Units #Obs min mean max 1 2 3 4 5 6 7 8 633 706 284 316 366 181 691 229 10349 12197 4744 5322 5879 3698 15032 4884 2 3 2 5 6 9 3 9 16.0129515 inglab 6. Interval] 6. . svy: mean inglab if genero==0 (running mean on estimation sample) Survey: Mean estimation Number of strata = 8 Number of obs Number of PSUs = 2678 Population size Design df Mean = = = 6.8 16.174006 Linearized Std. Aplicaci´on .2 43 1705 = #Obs with missing values in the survey characteristcs 63810 Estimaci´ on de Promedios: SVYMEAN Se utiliza para calcular promedio de variables cuantitativas.404912 = = = 6732 2751055 2670 [95 % Conf. // Comando: svymean . . Por defecto presenta el promedio estimado.3 36 34 33 43 32 34 42 36 8 3406 62105 2 18.379518 Linearized Std. el error est´andar. Err. svy: mean inglab (running mean on estimation sample) Survey: Mean estimation Number of strata = 8 Number of obs Number of PSUs = 3320 Population size Design df Mean inglab 6.8 21.3 17.

15978 6.6. Dise˜ no Muestral 147 .190156 6. = = = 62105 21223493 3398 [95 % Conf.7161036 = = = 62105 21223493 3398 . svy: mean inglab .533369 6. over(casado) (running mean on estimation sample) Survey: Mean estimation Number of strata = 8 Number of obs Number of PSUs = 3320 Population size Design df 0: casado = 0 1: casado = 1 Over Mean 0 1 6. la proporci´on estimada y el error est´andar de esta estimaci´on de los casos de la muestra respecto a las categor´ıas de una variable dada.0154923 . Se pueden utilizar las opciones if y over. Err.220531 6.0026038 . svy: proportion ocupado (running proportion on estimation sample) Survey: Proportion estimation Number of strata = 8 Number of obs Number of PSUs = 3406 Population size Design df Proportion Linearized Std. over(genero) (running proportion on estimation sample) Survey: Proportion estimation Number of strata = 8 Number of obs Number of PSUs = 3406 Population size Design df .0170211 6. // Comando: svyprop . svy: proportion ocupado. = = = 18577 7332557 3312 [95 % Conf. Interval] inglab .7109985 .566742 Linearized Std.600115 Estimaci´ on de Proporciones: SVYPROP Presenta el n´ umero de observaciones.7058933 .2890015 .0026038 . Err.2941067 . .2838964 . Interval] ocupado 0 1 .

0032725 .6511789 .0037674 .0845736 .0789331 . [95 % Conf.090214 0 1 .909786 .6257537 .ENAHO _prop_1: _prop_2: 0: 1: ocupado = 0 ocupado = 1 genero = 0 genero = 1 Over Proportion 0 1 . 33228 10881895 3384 Over Proportion [95 % Conf.2031456 . En caso de que se desee estimar las proporciones respecto a filas o columnas.0037674 .148 6.6613342 .7968544 . basta con indicar row o column despu´es de la coma.6714895 .0028768 .0028768 . svy: proportion ocupado if casad==1.8032707 Linearized Std. Interval] 0 1 .9154264 . Aplicaci´on .3668598 . over(genero) (running proportion on estimation sample) Survey: Proportion estimation Number of strata = 8 Number of obs = Number of PSUs = 3392 Population size = Design df = _prop_1: ocupado = 0 _prop_2: ocupado = 1 0: genero = 0 1: genero = 1 Linearized Std.5. Para modificar el contenido de la tabla se deben especificar los estad´ısticos despu´es de una coma. respecto al total de la muestra. .9210669 _prop_1 _prop_2 Cruce de dos variables : SVYTAB Produce una tabla de dos entradas con la proporci´on de la muestra que pertenece a cada celda (cruce da variables). Se puede utilizar la opci´on if.0032725 .3816329 . Interval] _prop_1 _prop_2 .3285105 .3386658 . Err.790438 .209562 0 1 . Err.6183671 .0051795 .3488211 .0051795 .6331402 .1967293 .3742463 .

svy: logit ocupado genero edad yeareduca tamnf numhij* rural telefono celular internet (running logit on estimation sample) Survey: Logistic regression Number of strata = 8 Number of PSUs = 3406 Number of obs Population size Design df F( 11.0431 .66)= 104.0074 .1371 P = 0.1627 .1311 . // Comando: svytab .0000 .0286 .0328 .0254 .00 de 4.0000 Modelo de Regresi´ on // Comando: Modelos de regresi´ on svy .711 1 Key: cell proportions Pearson: Uncorrected chi2(7) = 1087.2567 . 3388) Prob > F = = = = = 62095 21217764 3398 246.00 de 10.04 0.0371 .289 .6.2036 Design-based F(6.1598 .014 .0775 .40.001 401 a 4.0317 .0428 .045 Total .1092 .0194 . Dise˜ no Muestral 149 .711 Total 1 Key: proportions = Number of obs Population size Design df = = = 62105 21223493 3398 Number of obs Population size Design df = = = 62105 21223493 3398 cell proportions .1113 .0291 . menos de ´ Area de ´ Area de .289 .0079 . 21745.3852 .1284 . *Ecuaci´ on de participaci´ on laboral . svy: tab ocupado (running tabulate on estimation sample) Number of strata = 8 Number of PSUs = 3406 ocupado proportions 0 1 . svy: tab estrato ocupado (running tabulate on estimation sample) Number of strata = 8 Number of PSUs = 3406 ocupado 1 Total estrato 0 mayor de de 20.0514 .0622 .

8958078 .85 -26.22816 .2753094 -.2657892 .38 -4.000 [95 % Conf.17 1.0173177 .0474246 . Err. genero exper exper2 hrtrab numhij_nf numhij05_nf numhij612_nf rural _cons .82 5.53 P>|t| 0.021297 .0586678 -.1091864 .11 149.0208958 .20 -13.0060642 -.0034138 -.0739866 -.0375555 .002 0.7831434 .75 -30.84 -3.199588 .4613688 .47 P>|t| 0.30 19.18 27.70 -12.760236 -.0012347 . Ejercicio Propuesto ocupado Coef.48 22.000 0.2883209 -1. .061984 Linearized Std.400693 .0835613 .0460804 -.0357812 Number of obs Population size Design df F( 8.0889146 -.000 0.418207 Ejercicio Propuesto Aplique los mismos procedimientos mostrados en este cap´ıtulo utilizando la base de datos de la ENAHO para el a˜ no 2011.0252697 -.0159811 .000 0.000 0.000 0.1352247 -.0000429 . svy: regress inglab genero exper exper2 hrtrab numhij* rural (running regress on estimation sample) Survey: Linear regression Number of strata = 8 Number of PSUs = 3320 inglab Coef.0282622 .0011507 .85 23.000 0.0021068 .000 0. .0010715 .8 = 3312 = 471.0031544 -. Linearized Std.2034448 -1.40 -3. genero edad yeareduca tamnf numhij_nf numhij05_nf numhij612_nf rural telefono celular internet _cons .50 21.000 0.10 -0.1108346 -.0001323 .02635 .000 0. Interval] .000 0.3958957 .0077672 .2017487 -. *Ecuaci´ on de Salarios .3075453 .007988 .8338696 -.0784575 -.0432895 .6.8493649 5.1028372 .9046796 5.093 0.150 6. Interval] .008863 .0627987 -.0038069 .018795 .70 12.8843576 .0229965 .000 0.0028949 -.1185687 -.002 0.028212 .000 = 18577 = 7332556.3667385 .332784 . Err. .5268419 .0393209 -.0258112 .1543872 .38 -4.0165132 .7940503 5.6.000 0.000 0.0318979 . 3305) Prob > F R-squared t 21.0000 = 0.704 0.0230538 .348051 6.2705 [95 % Conf.277896 .0010666 .000 0.0373981 -.0333934 .8337505 .024092 -.1281881 -.0814506 -.68 6.000 0.0375183 .224033 .0847552 t 32.9075032 -.054537 -.70 = 0.

Parte II Modelos de Regresi´ on Lineal 151 .

.

las variables xi son las variables explicativas o regresoras. y µi es la perturbaci´on aleatoria o com´ unmente llamado termino de error. yi = α + βxi + µi (7. Los ß son los par´ametros asociados a cada una de las variables explicativas. Especificaci´ on y Supuestos del Modelo General En los modelos de regresi´on lineal se requiere explicar el comportamiento de una variable (dependiente) a partir de otras (regresoras ´o explicativas).1) La variable yi es la variable dependiente. es decir buscamos conocer el valor esperado de Y . dado que X = x (la variable regresora toma un determinado valor x). 153 .1. Utilizamos el concepto de distribuci´on de probabilidad condicionada. tambi´en llamados coeficientes de regresi´on y miden el impacto de cada variable independiente en relaci´on al comportamiento de la variable end´ogena.Cap´ıtulo 7 Modelo de Regresi´ on Lineal General 7. pues se busca conocer los estimadores de los par´ametros de regresi´on con la finalidad de estimar finalmente el E(Y kX = x).

σµ2 I). se considera que se cumplen las siguientes hip´otesis cl´asicas b´asicas: Linealidad en los par´ametros.2. . normales con media cero y varianza σµ2 I. Formas Funcionales Los par´ametros α y β son no conocidos. Dado la expresi´on anterior. La esperanza del vector de la variable aleatoria es cero: E(µ) = 0. es decir. es decir es un vector normal esf´erico.2. Por tanto. los elementos del vector µ no est´an correlacionados (no autocorrelaci´on). las perturbaciones son variables aleatorias independientes e igualmente distribuidas. No existen relaciones lineales entre las variables explicativas o regresores y estos no son variables aleatorias (no multicolinealidad). Es decir.154 7. utilizando informaci´on muestral se pueden obtener estimadores de los par´ametros (o coeficientes). La matriz de varianzas y covarianzas del vector de variables aleatorias es: E(µµ0 ) = σµ2 I. todos los componentes del vector µ tienen varianza id´entica (homoscedasticidad). La distribuci´on de probabilidad del vector de perturbaciones aleatorias es: µ ∼ N (0. 7. y adem´as las covarianzas son 0. Sin embargo. Formas Funcionales Las principales formas funcionales a estimar se muestran a continuaci´on: La interpretaci´on de los par´ametros para cada forma funcional se explicar´a en los ejercicios aplicativos. la distribuci´on de probabilidad del vector Y se deriva a partir del vector de perturbaciones: Y ∼ N (Xβ. σµ2 I). Dado que X no es aleatoria.

155 Bondad de Ajuste La Bondad de Ajuste es entendida –en t´erminos sencillos. Coeficiente de Determinaci´ on Ajustado En general. El Coeficiente ¯ 2 ) es explicado mediante la siguiente f´ormula: de Determinaci´on Ajustado (R ¯ 2 = 1 − n − 1 SCR R n − k SCT . por lo que no siempre resultar´a adecuado incorporar nuevas variables al mismo). Si por ejemplo. R2 = 1 − SCR/SCT 7. se refiere a la proporci´on de la variaci´on en Y .3. la inclusi´on de nuevas variables explicativas reduce los grados de libertad del modelo. es decir. Modelo de Regresi´on Lineal General 7.3. el 10 % restante es explicado por el residuo. Entres los principales (de f´acil aplicaci´on). Coeficiente de Determinaci´ on El Coeficiente de Determinaci´on R2 es el que mide el nivel de ajuste del modelo que se ha estimado.90 significa que la variaci´on de la variable dependiente es explicada por la(s) variable(s) regresora(s) en un 90 %. Se define de tal modo que penaliza la inclusi´on de nuevas variables explicativas en el modelo (si bien al aumentar el n´ umero de regresores aumenta tambi´en la Suma de Cuadrados Explicados. que es explicada por la(s) variable(s) explicativa(s).lo bien que los datos se ajustan a la regresi´on. Par ello.7.2. el R2 depende de la Suma de cuadrados del Residuo (SCR) y la Suma de cuadrados Totales (SCT). se incluyen: 7.1. N´otese que en la formula mostrada a continuaci´on.3. eval´ ua si la(s) variable(s) regresora(s) explica adecuadamente la variable dependiente. se plantean distintos indicadores que permiten seleccionar las variables que deben ser explicativas en un modelo econom´etrico. el coeficiente de determinaci´on fuera 0.

Se rechaza Ho si: tcalculado > ttabla − (n − k)gl. 7. Criterios para elecci´ on de modelos Criterio de Informaci´ on de AKAIKE (AIC) Estad´ıstico que mide el buen ajuste de la data a la regresi´on estimada. se realiza la siguiente hip´otesis: Ho : β1 = 0 (hip´otesis nula) Ha : β1 6= 0 (hip´otesis alterna) Se acepta Ho si: tcalculado = ttabla − (n − k)gl.05. Prueba de Hip´otesis e Intervalo de Confianza 7.156 7. Por ejemplo. seleccionando como modelo m´as adecuado aquel que presenta un menor valor de dicho coeficiente. Supongamos que se estime el siguiente modelo: Y = a + β1 X.05.5. Su f´ormula de c´alculo responde a la siguiente expresi´on: AIC = ln(SCR/n) + 2k/n .1. Si pvalue = 0. si se desea evaluar si β1 es significativo. permitiendo la selecci´on entre dos modelos de ajuste alternativos.5. Tambi´en penaliza la inclusi´on de nuevos regresores en el modelo. 7. Si pvalue < 0. Prueba de Hip´ otesis e Intervalo de Confianza Luego de estimar los par´ametros del modelo de regresi´on lineal.4. es u ´til evaluarlos a trav´es de la contrastaci´on de hip´otesis en el contexto del an´alisis de regresi´on lineal. es decir si X ayuda a explicar la variable dependiente.4.

Al igual que en el caso anterior. Guarde dicha estimaci´on. 157 Criterio de Informaci´ on de SCHWARZ (BIC) Este criterio es una alternativa m´as restrictiva al criterio AIC.2. Pruebe si se cumple la condici´on de homogeneidad en la demanda de carne de ovino. respectivamente). Realice gr´aficos descriptivos de las variables explicativas y dependiente. Ejercicio Utilice los datos de archivo carnes. qovi y qres. eval´ ue bajo el Test de Ramsey si existe alguna se˜ nal de no linealidad u omisi´on de alguna variable relevante en el modelo. es requisito obligatorio que las estimaciones a comparar tengan la misma variable dependiente.xlsx donde encontrar´a informaci´on de consumo de carnes de pollo. ovino y res (qpol. tambi´en encontrar´a los precios de las carnes (ppol. Modelo de Regresi´on Lineal General 7. pruebe otra estimaci´on alternativa. Compare los resultados de b) y c). BIC = ln(n)k/n + ln(SCR/n) Nota: Para poder comparar modelos seg´ un los criterios AIC y BIC. Guarde dicha estimaci´on. se considera mejor modelo aquel que presente un menor valor del coeficiente. y el ingreso (ing). Estime como en b) pero usando una forma funcional LOG-LOG para la demanda de carne de ovino. ¿Cu´al es el mejor modelo? Dado el mejor modelo escogido. . Este criterio penaliza en un grado mayor la inclusi´on de nuevos regresores en el modelo.5. Estime por MCO EN LA FORMA LIN-LIN seg´ un lo mencionado arriba. povi y pres). ya que permite la selecci´on de variables que deben ser incluidas en el modelo.7. Si encuentra alguna variable no significativa.

*Limpiamos la memoria . browse .csv) de tal forma de poder importarlo sin problemas. NOTA: Acu´ erdese que cuando se tiene que trabajar con datos que se encuentran en archivo de excel y se desea importar dicha informaci´ on al Stata.140 (99. *Paso 1: Especificamos la ruta donde se encuentra el archivo usando el siguiente comando: . ************************************ . El formato .5. su error est´andar y su estad´ıstico t-student.csv (8 vars. *Paso 2: Importamos la base de datos a usar al Stata: . describe Contains data obs: vars: size: 30 8 1. cd "D:\Econometria-Stata\modelo-regresion-lineal" D:\Econometria-Stata\modelo-regresion-lineal Paso 2: Importamos la base de datos a usar al Stata: .xls o .158 7. clear . 30 obs) . insheet using carnes.xlsx) a un formato (. se requiere transformar el formato de excel (. Soluci´ on En el programa de Stata se realizar´a los siguientes pasos: Paso 1: Especificamos la ruta donde se encuentra el archivo usando el siguiente comando: ´N LINEAL GENERAL . * MODELO DE REGRESIO .5 % of memory free) . Criterios para elecci´on de modelos Estime por MCR suponiendo que en la funci´on de demanda de carne de ovino se cumple la condici´on de homogeneidad. Encuentre el estimador del par´ametro restringido. su varianza.csv significa delimitado por comas.

0g %9.841277 1960 184.5 8.6043204 3. 30 30 409.0g %9.3892 15.3932 760.62747 Std.3892 POVI Smallest 1.654 385.3892 Percentiles 1.369 Obs Sum of Wgt.533 15. summarize.5016 127. Mean Std.25129 1.2039 578.061 275.0g %9.0g %9. summarize Variable Obs Mean obs ing povi ppol pres 30 30 30 30 30 1974.5 1988 1989 Percentiles 184.903 13.996 3.3932 760.8151 192.9457 3.9555 2.69644 6. Modelo de Regresi´on Lineal General variable name obs ing povi ppol pres qovi qres qpol storage type int float float float float float float float Sorted by: Note: display format value label %8.79733 Obs Sum of Wgt. detail obs 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % 1% 5% Percentiles 1960 1961 1962.471 4.908 137.996 2.0g %9.214927 3.251 19.9457 Variance Skewness Kurtosis 16370.803408 77.1311 Largest 564.363833 10.016 1989 760.219 4.8151 192.89157 44. Mean Std.803408 127. Dev.369 Smallest 1960 1961 1962 1963 Largest 1986 1987 1988 1989 ING Smallest 184.405305 .2145 629.459 14. Variance Skewness Kurtosis 30 30 1974.5 1982 1986.0g %9.061 256.623 33.7. Min Max 8.11 .3559 7.671015 32.2252 629.0g 159 variable label ING POVI PPOL PRES QOVI QRES QPOL dataset has changed since last saved .5016 7.1244 312.0g %9.373533 qovi qres qpol 30 30 30 8.996 3.930467 8.36 2.9284 487.5 1967 1974.269 . Dev.1177 294.8151 1.6345 571. Dev.5 0 1.5 409.

459 PRES Smallest 4.535 Smallest 2.69644 Variance Skewness Kurtosis 22. Dev.01 15.231 Smallest 1.682 3.165 5.64598 . 30 30 Mean Std.963 15.908 QPOL Obs Sum of Wgt. Dev.8755 11.157 6.841277 Variance Skewness Kurtosis 8.982 9.141 19. 30 30 8.56 6.763 13.471 2.759 4.3559 3.373533 2.922 15.903 3.219 Obs Sum of Wgt.511 14.01 15.218 22.511 14.046 14.851 6.284577 Obs Sum of Wgt.366 14.145 12.36 2.942058 PPOL 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles 2.854005 .50245 1.219 Largest 13.142 4.315 14.041 3. Dev.623 Percentiles 2.181 3. 30 30 Mean Std.096 18.033 13.34 Largest 13.138 3.072857 .417 13.930467 3.4459752 1.24 33.33575 .594 18.5208476 2.160 7.505 10.459 Percentiles 4.214927 Variance Skewness Kurtosis 10.533 4. Mean Std.922 15.016 4.690953 QOVI 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles 1.903 3. 7.039 13.9585 75 % 90 % 95 % 99 % 9.181 2.813 14.623 QRES Smallest 2. Mean Std.605 4.24582 Obs Sum of Wgt.768 Largest 13.89157 6.8562475 3.034 50 % 6. 30 30 Mean Std.708 3.045 17.05655 .708 3.1195 17.6309666 2.695 7.5.188 Largest 11.115 14.194 17.471 2.605 4.426756 5.363833 4.36 2.016 4. Dev.774 14.7375 10.011 4. 30 30 7.533 Obs Sum of Wgt.7375 4.041 3.671015 Variance Skewness Kurtosis 44.24 33.707 3.943 7.9555 Variance Skewness Kurtosis 15. Dev. 8.045 13.908 Largest 17.842 22.318 14. 10. Criterios para elecci´on de modelos 10 % 25 % 4.141 19.

918 123. por lo tanto planteamos otra estimaci´on sin considerar dicha variable.819 107.5198569 -.26 -2.62747 32.4763 [95 % Conf.7. 25) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.001 0.017 123. . que la constante no es significativa (nocons).196 Smallest 13.838 105.146 1. reg qovi ppol pres povi ing Source SS df MS Model Residual 337.25129 Variance Skewness Kurtosis 1040.269 45.667 34.639943 29 22.0455698 -1.0050538 3.635324 4. h graphs Paso 4: Estimaci´on por MCO –Funci´on LIN-LIN.898 = = = = = = 30 6.526915 302. Modelo de Regresi´on Lineal General 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles 13.13 Number of obs F( 4.92 3.0565498 qovi Coef. *Paso 4: Estimaci´ on por MCO --Funci´ on LIN-LIN .994144 -.015782 .0286649 7.1757805 . el precio del pollo es no significativo ya que tiene una probabilidad mayor a 0.98 0.254 Largest 104.007 0.113028 4 25 84.4521 3.026 137.393531 . line ing year .730 0.033 0.764288 . 30 30 44. twoway (scatter ing year) (lfit ing year) .230288 .251 13.0845211 Total 639.0006 0. . Dev.393 17.914 18.0182565 .269 161 Obs Sum of Wgt. *Se puede etiquetar las variables con el comando: label var .5277 0.595589 t 0. *Se puede renombrar las variables con el comando: rename . scatter qres qpol .1633502 .05. ppol pres povi ing _cons .007848 -6.94088 .251 13. . Err.4643743 Std. rename obs year Paso 3: Gr´aficos descriptivos: .869629 Como observamos.393 15.279321 .5957813 .35 2. Tenga en cuenta tambi´en.026 137.61 0.2039296 .057105 . Mean Std.3817288 12.084 23. Interval] -. *Paso 3: Gr´ aficos descriptivos .

estimates store eq01 .0565498 qovi Coef.93 0. *Veamos una prueba de hip´ otesis . nocons Source SS df MS Model Residual 2433.92 3.8764 3.1757805 .2165392 .5198569 -. *Veamos una prueba de hip´ otesis .033 0.9136794 .230288 .057105 .003 0. Interval] .75506 304.5957813 .393531 .13 Number of obs F( 4.007 0.994144 -.5277 0. reg qovi ppol pres povi ing Source SS df MS Model Residual 337. 25) = Prob > F = 0.003 0.3817288 12.3582 [95 % Conf.0039329 . .595589 t 0.4643743 Std.61 0.0050538 3.0271312 .526915 302.0455698 -1.55915 -.0006 0.1698825 .251686 11.730 0.639943 29 22. .2776349 Total 2738.30 0.5.007848 -6.869629 .001 0. pres povi ing . * Guardando la ecuaci´ on anterior .162 7.000 = = = = = = 30 71. Interval] -. Criterios para elecci´on de modelos .496143 3 27 811. test pres povi ing ( 1) ( 2) ( 3) pres = 0 povi = 0 ing = 0 F( 3.7296 .0003 .30 -3. 25) = Prob > F = 9. 25) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.5651093 .4763 [95 % Conf. test ppol=0 ( 1) ppol = 0 F( 1.8888 0.4521 3. estimates store eq02 t 3.27504 qovi Coef.94088 .113028 4 25 84.12 0.898 = = = = = = 30 6.1633502 .33 4.0182565 .0286649 7.279321 .2114914 -.0000 0. 27) Prob > F R-squared Adj R-squared Root MSE P>|t| 0. ppol pres povi ing _cons .0190616 Std.2039296 .010992 .9068086 -. Err. Err. * Guardando la ecuaci´ on anterior . reg qovi pres povi ing. *Estimamos el modelo alternativo .1694383 .0845211 Total 639.98 0.85 Number of obs F( 3.35 2.2512 30 91.015782 .26 -2.

0049676 3.59578134** .28 Number of obs F( 3.856682 .295942 t 2.59 0. Por lo tanto el mejor modelo es el segundo.66014 164.01825648** .0002 0.43041 30 .5254 0.05.518302 -. primero se tiene que multiplicar por menos 1 y luego reci´en compararlo.4171 [95 % Conf.639943 29 22. *independiente relevante.4560 .5933208 .7.9182247 Std. . * Dado el mejor modelo (eq02) se procede a evaluar bajo el test de Ramsey si . si se tuvieran AIC y BIC negativos.9826291 164. *Nota: F´ ıjese que para aplicar dicho test.star stats(N r2 r2_a F aic bic) Variable eq01 eq02 ppol pres povi ing _cons .0080307 -5. 26) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.050059 303.05710497 .56510929** .29 -2. debe estimarse con intercepto siempre.693132 .934558 160.96 3.0284526 7. Modelo de Regresi´on Lineal General 163 . ** p<0. * existe se~ nal de no linealidad u omisi´ on de alguna variable relevante en el modelo: .0565498 qovi Coef.9835198 -. Interval] .86374 legend: * p<0. 23) = 0. .589884 3 26 112.001 0.01. . pres povi ing _cons . no existe se~ nal de no linealidad u omisi´ on de alguna variable .4706 3. reg qovi pres povi ing Source SS df MS Model Residual 336.676534 Total 639.030 0.42443 171.88879905 .005122 . * Comparaci´ on de modelos . Acu´erdese que para comparar modelos se debe tener la misma variable dependiente.67 0.46437427 .783 = = = = = = 30 9.1815198 .2003382 . ovtest Ramsey RESET test using powers of the fitted values of qovi Ho: model has no omitted variables F(3.90 Prob > F = 0. . Err.52768267 . estimates table eq01 eq02.87644339 71.006 0.2263251 . *** p<0.51985689* -.001 El mejor modelo es aquel que tiene menor AIC y BIC.55915001** -. *Por lo tanto.4521119 6.016686 11.0530842 -1.01906161*** N r2 r2_a F aic bic 30 . Por otro lado.0182417 .

xml dir : seeout Paso 5: Generamos las variables en logaritmos. esttab eq01 eq02.596** (-2.26) -0. generate logpovi=log(povi) . generate logqovi=log(qovi) .864 t statistics in parentheses * p<0.01.05. Criterios para elecci´on de modelos . generate logpres=log(pres) .660 164.000 0. . * Realizamos una tabla igual que la anterior solo que m´ as formal para usar . outreg2 [eq01 eq02] using tabla1.3f) star stats(N r2 r2_a F aic bic) /// mtitles("Eq01" "Eq02") title("Comparaciones de Modelos") Comparaciones de Modelos ppol pres povi ing _cons N r2 r2_a F aic bic (1) Eq01 (2) Eq02 0.935 160.018** (3.85) 30.057 (0.000 0. generate loging=log(ing) .35) 0.876 71. ** Usamos outreg para tener la estimaci´ on anterior en un Excel .33) 0.452 6.5.565** (-3. outreg2 using tabla1.430 30.001 .excel tabla1.61) 0.983 164.889 0.13) 0.019*** (4. replace see Hit Enter to continue.424 171. generate logppol=log(ppol) . *Paso 5: Generamos las variables en logaritmos: . b( %9.464 (0.30) -0.559** (3. *** p<0.164 7.92) 0. ** p<0. dir : seeout .520* (2.528 0.

7194248 -. *Definimos la restricci´ on: .6980869 Prueba de hip´otesis si cumple la condici´on de homogeneidad: .74 -3.021 = = = = = = 30 8. . 25) = Prob > F = 3.7.004 0.4923 . Interval] -. logppol logpres logpovi loging _cons . *c(5)=-c(2)-c(3)-c(4) Si quieres ver los coeficientes del MCR.30 -2.17 0.000 0.03 0.209216907 Total 11.0003 0.464 0.3374374 -1. *Paso 6: Estimamos por MCO -. 25) = Prob > F = 3.409 0. *Estimaci´ on por MCR con la condici´ on de homogeneidad donde: . agregue al comando test la opci´on coef): .4574 [95 % Conf.928548 .0870 Otra forma: Definimos la restricci´on: .1966014 -.84 0.23042267 4 25 1. Err.2282309 1. reg logqovi logppol logpres logpovi loging Source SS df MS Model Residual 6.17 0. test logppol + logpres+ logpovi+ loging=0 ( 1) logppol + logpres + logpovi + loging = 0 F( 1.5943833 -7.46 Number of obs F( 4. . *Prueba de hip´ otesis si cumple la condici´ on de homogeneidad .FUNCION LOGARITMICA (LOG-LOG) .67992759 .140894 -4.0870 Estimaci´on por MCR con la condici´on de homogeneidad donde: c(5)=-c(2)c(3)-c(4) (si quieres ver los coeficientes del MCR.036748 .2565774 .950133 29 .2653558 1. Modelo de Regresi´on Lineal General 165 Paso 6: Estimamos por MCO – FUNCION LOGARITMICA (LOG-LOG). test loging= -logppol -logpres. *agregue al comando test la opci´ on coef: .5623 0.135395 .logpovi. .1962859 .1909937 -.22 4.4673914 .755359 t 0. coef ( 1) logppol + logpres + logpovi + loging = 0 F( 1.71971035 5.687404 -.313317 Std.1611994 .412073552 logqovi Coef.6324893 1. 25) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.

4761 logppol + logpres + logpovi + loging = 0 logqovi Coef. MODELO LOG-LOG: β = La elasticidad de la producci´on respecto a la temperatura m´ınima es de 0.83 toneladas.0003 0.8120008 .90 0. Interval] -. Lo que sugiere que si la temperatura m´ınima se incrementa en 1 %.2757262 Interpretaci´ on de los coeficientes seg´ un los tipos de modelos a estimar: Sea por ejemplo. Err. constraint define 1 loging= -logppol -logpres. en promedio. . MODELO LIN .0332251 -.5.2891291 -.2058752 .LIN: β = Si la temperatura m´ınima se incrementara en 1 C o .5233771 -1.1001946 -.3555793 .000 0.82 -1.83x100 = 83 % dado el incremento en un grado cent´ıgrado de la temperatura m´ınima. LOG-LOG.172431 . logppol logpres logpovi loging _cons .834 0. cnsreg logqovi logppol logpres logpovi loging.3229879 -.83.156823 . la producci´on se incrementa en 0.9163453 t 0.4515708 1.83.75 P>|t| 0.1753465 . la producci´on se incrementa en 0.631 0.351635 .091 [95 % Conf.166 7.8789703 -1.63 3.83 %. Si el beta asociado a la variable regresora temperatura m´ınima es 0.21 -0. la variable dependiente producci´on (toneladas) y una de las variables explicativas es la temperatura m´ınima (C o ).607849 Std.491423 . LOG-LIN y LIN-LONG?. MODELO LOG-LING: β = La producci´on se incrementa a una tasa (anual) de 0. *Estimamos la regresi´ on por MCR: .2299482 .logpovi .4063051 -3. 26) Prob > F Root MSE = = = = 30 8.001 0. Criterios para elecci´on de modelos .49 -4. ¿C´omo se interpretar´ıa este beta en un modelo LIN-LIN. . constraint(1) Constrained linear regression ( 1) Number of obs F( 3.

label var pcgdp" PBI per c´ apita de los pa´ ıses" .6. label var country "pa´ ıses" . *Pruebas de Hipotesis y Estimacion MCO usando Variables Dummy . br . 7. centro. insheet using dummy_africa.83/100 toneladas. *Paso 1: Buscamos la ruta donde se encuentra el archivo . oeste" . *Paso 4: Generando variables dummy . Pruebas de Hipotesis y Estimacion MCO con Variables Dummy En el archivo dummy africa. . sur. cd "D:\Econometria-Stata\modelo-regresion-lineal" D:\Econometria-Stata\modelo-regresion-lineal . 27 obs) . *Paso 2: Importaci´ on de datos . g west=geo=="West" .). etc.clear (5 vars. . g g g g g france =colonial=="France" britain = colonial=="Britain" other= 1-france-britain central=geo=="Central" north=geo=="North" . britanico. ubicaci´on geogr´afica GEO (norte.7. . franc´es.csv . br . label var geo "ubicaci´ on geogr\U{e1}fica: norte. propicia un incremento en la producci´on de 0. . g south=geo=="South" .csv se encuentra informaci´on de 27 pa´ıses a´rabes sobre el PBI per c´apita PCGDP.frances." . etc. label var colonial "origen colonial. centro. sur y oeste) y porcentaje de tierras arables (P ARABLE). Modelo de Regresi´on Lineal General 167 MODELO LIN-LONG: β = Un incremento en la temperatura m´ınima de 1 % en promedio. . ************************************************************* . origen colonial COLONIAL (brit´anico. *Paso 3: Etiquetando las variables que e importado .

15 1832871.2156 32.06 Total 63149204 27 2338859.327 0.2 4 22 1489093.934 .03867 Std.6.843 0.934 48.2 5 22 4565208. * Guardando la ecuaci´ on anterior .69478 2057.566 = = = = = = 27 2.8 [95 % Conf.168 7.3979 890.278 671.0623 0. Err.227 934. central north south p_arable _cons 163.00 -0.00 Number of obs F( 4.232 0.36 -0.9427 515.356 0.26 pcgdp Coef. * Igual que la ecuaci´ on anterior.41 pcgdp Coef.0297 = 1353. *Usando todas las dummies geogr´ aficas y por tanto no incluyo la constante .082 1763. 885. xi: reg pcgdp central north south p_arable Source SS df MS Model Residual 5956375.77212 2671.13 2057.03867 671.3615 0.7104 723.03 1.40 1. xi: reg pcgdp central north south west p_arable.5744 -715.5307 = 0.608 -86.107 48. *Incorporo todas las dummies y excluyo la constante .8 [95 % Conf.0288 -19.684 2320.66036 668.1984 263. Interval] -1002.2867 723.7 26 1779982.7515 32.58 1.2163 1353. 22) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.49 0.23 0. Interval] -1531.94 3. 22) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.0288 Std.2436 668.6808 668.81 = 0.8 40323163. 817.006 0.66036 t 0.2492 -19.4267 1561.566 0.551 -610.20 1. * Guardando la ecuaci´ on anterior . estimates store eq01 .759 2630.7515 t 0.86 1832871.6852 -1236.8769 1858.7707 -451. xi: reg pcgdp france britain other central north south west p_arable. incorporando la constante o intercepto . Err. nocons note: other omitted because of collinearity . *Paso 5: Estimando regresiones OLS usando variables dummy y guard´ andolas . Pruebas de Hipotesis y Estimacion MCO con Variables Dummy .719 0.327 = 27 = 0.906 491.347 2391.06 Total 46279538.176 0.58 Number of obs F( 5.43 40323163.1287 = -0. estimates store eq02 . central north south west p_arable 834.8769 -86. Source SS df MS Model Residual 22826040. nocons.77212 -715.69478 .

4624 899. xi: reg pcgdp france britain other central north south p_arable.707 -512.6 7 20 3754256.272 -27.11 -0.77644 . 687.48 Total 63149204 27 2338859.159 3007. xi: reg pcgdp france other central north south west p_arable.0295 -914.5269 -357.1958 -97.41 pcgdp Coef.434 = = = = = = 27 2.71 0. nocons .35 0.2067 -1894.729 0.9995 746. * Guardando la ecuaci´ on anterior .18468 -27. france britain other central north south west p_arable -1053.67 -0. Interval] 772.48 Total 63149204 27 2338859.939 -917.44 44.2118 1357.204 0.188 0.6893 -1.77613 1.7. Err.2577 939.936 933.3071 1939.110 0.6572 644.098 -100.4306 34.408 3281.487 -2665.329 1559.76531 Std.911 0.6 7 20 3754256. france britain other central north south p_arable 505.4 36869409. 20) Prob > F R-squared Adj R-squared Root MSE P>|t| 0. Interval] -928.3437 -387.68 1.4 36869409.74 1.624 2205.3071 3220.2118 1357.728 44.533 558.77644 .44 1559.6463 947.04 0.4629 996.77613 t 0.35 1843470.598 1699.80 Number of obs F( 7.1005 0.109 0. estimates store eq03 .8657 723.4497 872. * Igual que la anterior.470 0.5282 861.11 1.9431 (omitted) 1243.110 0.4624 34. Modelo de Regresi´on Lineal General Source SS df 169 MS Model Residual 26279794. * Igual que la anterior.67 -0.876 -2022.565 1046.001 3506.15 1.229 3660.182 3506.4162 0.467 1462.origen colonial .76531 Std.31 3.1005 0.272 -315.7 [95 % Conf.434 -732.80 0.36 -0.005 0.087 1559. excluyendo una variable dummy geogr´ afica .4162 0. estimates store eq04 . * Guardando la ecuaci´ on anterior .35 1843470.7 [95 % Conf.614 2203.8967 -100. t Number of obs F( 7. nocons Source SS df MS Model Residual 26279794.41 pcgdp Coef.0647 933.400 0.86 -0.0082 -387.0002 748.279 0. Err. 20) Prob > F R-squared Adj R-squared Root MSE P>|t| = = = = = = 27 2.5785 698. excluyendo ahora una variable dummy .8967 -2190.04 0.

4907416 470.03 3407.21180791 2.4675** 1462.95006 27 .2717 -27.65721 644.1287043 -.41615401 .3437 -100.02878 -19.76531 -1053. *** p<0.71 0.47087 476.487 0.76531 505.42672 1561.12405 legend: * p<0.7 [95 % Conf.0365156 472.3286 1559.03867 163. ** p<0. b( %9.687 -26.7636 512.6713 1690.95006 27 .6 7 20 3754256.6.24925 1243.47087 476.2118 1357. france other central north south west p_arable -540.19576 -97.329 -27.04 0. Err.6752 -519.27803 671.4 36869409.434 = = = = = = 27 2.3286 -27.7636 512.12405 N r2 r2_a F aic bic -19.2717 eq05 730.936 34. Interval] -2194.05319 481.05. * Guardando la ecuaci´ on anterior .503 0.6632 -914. 20) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.6145 2203.3071 1113.12405 27 .053 0.724 2417.05 1.41615401 .9431 730.425 2022.184685 27 . t 793.1439 1046.02971311 . Pruebas de Hipotesis y Estimacion MCO con Variables Dummy Source SS df MS Model Residual 26279794.76531 Std.1005 0.41615401 .05319 481.001 44.087 1559.67135 1690.3f) star stats(N r2 r2_a F aic bic) /// mtitles("Eq01" "Eq02" " Eq03" "Eq04" "Eq05") title("Comparaciones de Modelos") .5243 949.21180791 2.02878 27 .2272** 934.524 949.77613 -0.94314 (omitted) -315.72 2. esttab eq01 eq02 eq03 eq04 eq05.7067 -512.0365156 472.01.170 7.56495 1046. *Paso 6: Comparaci´ on de modelos .41 pcgdp Coef.76531 -540.1984 263.35 1843470.21633979 2.68 0.03867 eq04 -27.533 2844.77644 .952 -996.36146205 .2165 704.193 0.48 Total 63149204 27 2338859.94314 671.0095 723.951 3007.81243787 470.6463 -1382.001 .80 Number of obs F( 7. estimates table eq01 eq02 eq03 eq04 eq05 . *Realizamos una tabla igual que la anterior solo que m´ as formal para usar .0365156 472.479 0.star stats(N r2 r2_a F aic bic) Variable eq01 eq02 eq03 central north south west p_arable france britain other _cons 834. estimates store eq05 .133 823.14387 1046.11 -0.35 1.21180791 2.6893 1013.39793 890.05319 481.279 0.4162 0.1384 939.

565 (0.94) 1561.36) -19.196 (0.144 (1.67) 671.329 (1.491 470.471 476.000 0.15) 1462.71) 0.36) -27.74) -27.029 (1.329 (1.950 27.471 476.212 2.812 470.416 0. **Usamos outreg para tener la estimaci´ on anterior en un Excel . Modelo de Regresi´on Lineal General 171 Comparaciones de Modelos (1) Eq01 central north south west p_arable (2) Eq02 834.67) 512.053 481.excel tabla1.000 0. dir : seeout .80) -540.212 2.467** (3.029 (1.037 472.xml dir : seeout 7. Para comprender este problema se ha obtenido .03) 934.72) 1690.039 (-0.416 0.185 (-0.272 (1.037 472.68) 1559.05.31) 2203.80) -1053.030 0.943 (-0.765 (-0.05) 949.01.707 (-1. *** p<0.000 0. Ejercicio Propuesto Se cree que el precio que un pa´ıs paga por los medicamentos depende de su capacidad de pago y de las restricciones legales que el pa´ıs ha impuesto para controlar el precio de los medicamentos.671 (0.11) -27.416 0.71) 27.249 (0.11) 1559.278 (1.053 481.001 .00) 27.129 -0.other _cons N r2 r2_a F aic bic (3) Eq03 (4) Eq04 (5) Eq05 -315.272 (1.20) 890. ** p<0.11) 730.227** (3.124 27.039 (-0.80) 505.764 (-0.657 (-0.943 (0.198 (1.037 472.23) 263.86) -97.765 (-0. outreg2 [eq01 eq02 eq03 eq04 eq05] using tabla1.) 1046.361 0.398 (0.35) 1046.000 0.58) -19.124 27.212 2.427 (0.58) france britain o.950 t statistics in parentheses * p<0.614 (1.216 2.7.765 (-0.087 (1.40) 671.053 481.68) -512.7. replace see Hit Enter to continue.124 1243.000 (.00) 163.524 (2.000 0. outreg2 using tabla1.35) 644.

Cu´al es el significado econ´omico de esta hip´otesis nula.dta para las siguientes ocho variables: P =precios del medicamentos (´ındice) GDP N =Ingreso per c´apita (´ındice) CV =Volumen de consumo (´ındice) N =Poblaci´on (´ındice) CV N =Volumen de consumo per c´apita (´ındice) P P =Existencia de protecci´on de patentes (dummy) IP C =Existencia de controles indirectos de precios (dummy) DP C =Existencia de controles directos de precios (dummy).7. Si se supone que los costos marginales son constantes en cada pa´ıs y que la demanda individual es lineal. Se espera que GDP afecte positivamente los precios.172 7. Las variables dummy PP. IPC y DPC. estime por MCO la siguiente funci´on de demanda: Pi = β1 + β2 GDP Ni + β3 CV Ni + ui Pruebe la hip´otesis nula que β3 = 0 al 10 % de nivel de significaci´on. IPC y DPC incluidas en el set de datos tienen valores 1 si la pol´ıtica p´ ublica est´a presente y 0 en caso contrario. Diga cu´al es el significado de la hip´otesis alternativa. Ejercicio Propuesto informaci´on de 32 pa´ıses pharma. P P = 1 implica que el pa´ıs ha suscrito acuerdos internacionales que lo obligan a respetar las patentes. Se . Por ahora se ignorar´a las variables de pol´ıtica p´ ublica PP. porque la demanda sea m´as inel´astica y que el consumo per c´apita de medicamentos afecte negativamente los precios como reflejo de la Ley de la Demanda.

Interprete los resultados. Construya un intervalo de confianza del 90 % para el coeficiente asociado a DPC (control directo de precios). Modelo de Regresi´on Lineal General 173 espera que estos pa´ıses tengan precios m´as altos y la demanda menor. si DP C = 1 el gobierno establece controles de precios a los medicamentos para abaratar los precios y aumentar la demanda. Es decir: Ho : β1 = β2 = β3 = β4 = β5 = β6 = 0. ¿Los signos de las variables de pol´ıtica tienen los signos esperados?. Estime la siguiente funci´on de demanda: Pi = β1 + β2 GDP Ni + β3 CV Ni + β4 P Pi + β5 IP Ci + β6 DP Ci + vi Pruebe la significancia conjunta de las variables del modelo al 10 Pruebe la hip´otesis nula para los coeficientes asociadas a las variables dummy al 10 % de nivel de significaci´on. Finalmente. por lo que.7. Si IP C = 1 si el gobierno es el principal comprador de medicamentos para todos los otros consumidores. la demanda se desplaza hacia abajo. por lo que se espera que su efecto sea tener precios m´as bajos que el caso de un monopolio puro. ceteris paribus. gener´andose un monopolio bilateral. .

7.174 7. Ejercicio Propuesto .

primero es primordial ver las cuatro condiciones de Gauss-Markov para el planteamiento del modelo lineal general. Cov(xi uj ) = 0 la cual implica que las variables explicativas son no estoc´asticas.1. 4. Problema de Heteroscedasticidad Antes de empezar con los problemas de las perturbaciones no esf´ericas. 2. E(ui ) = 0 para todo i. Cov(ui uj ) = 0 para todo i 6= j.Cap´ıtulo 8 Heteroscedasticidad 8. 3. El segundo y tercer supuesto se pueden resumir en t´erminos matriciales (para el modelo lineal general) a trav´es de la siguiente expresi´on: 175 . V ar(ui ) = σ 2 (constante) para todo i. Suponiendo una ecuaci´on de regresi´on de la forma: yi = α + βxi + ui Estas condiciones (que son parte de los supuestos del modelo lineal general) asumen que el t´ermino de error o perturbaci´on puede resumirse en: 1.

el cual se tratar´a en el siguiente capitulo. lo que es lo mismo. Problema de Heteroscedasticidad E(uu0 ) = σu2 In Cuando se cumplen estas dos condiciones se dice que los errores son esf´ericos.Markov implica que la varianza de la perturbaci´on debe ser constante para cada observaci´on. significa que el error muestra diferentes dispersiones para cada observaci´on o. Este es un ejemplo de heterocedasticidad la cual. si los elementos fuera de la diagonal de la matriz de varianzas y covarianzas de los errores son distintos de cero. sea el modelo lineal general en t´erminos matriciales: . el hecho de que la varianza de la perturbaci´on muestre un comportamiento creciente para cada observaci´on no significa que el error deba necesariamente registrar un valor muy alto en las u ´ltimas observaciones pero s´ı implica que la probabilidad de tener un valor err´atico sea mayor. A manera de resumen. se viola el tercer supuesto y como resultado tendremos el problema de autocorrelaci´ on. insesgados (por que el valor esperado de βˆ es igual al verdadero β) y consistentes (porque se aproxima al verdadero valor β conforme el tama˜ no de muestra se hace m´as grande). el tama˜ no del error para un periodo determinado afecta el valor del periodo u observaci´on siguiente. En este sentido.1. pero no ser´an los mejores estimadores linealmente insesgados (MELI) pues no es eficiente (no poseen la m´ınima varianza). Este problema significa que los t´erminos de error no son independientes. es decir. La violaci´on del segundo supuesto da origen al problema de heteroscedasticidad e implica que la varianza del t´ermino de error no es constante para cada observaci´on. el supuesto de homocedasticidad implica que la distribuci´on relevante para cada observaci´on es la misma. puede ser m´as razonable pensar que la distribuci´on del t´ermino de error es diferente para cada observaci´on en cuyo caso su varianza tambi´en diferir´ıa. Por otro lado. La segunda condici´on de Gauss . En algunos casos. sin embargo. ante problemas de heteroscedasticidad o autocorrelaci´on los estimadores ser´an lineales (porque es una funci´on lineal de los valores de x ). Por ejemplo. en t´erminos generales.176 8. Si este supuesto se verifica para toda la muestra se puede concluir que los errores son homoced´asticos. que la probabilidad de que el t´ermino de error tome un determinado valor es diferente para cada observaci´on. En general.

8. Heteroscedasticidad

177

Yi = α + βXi + ui

La matriz de varianzas y covarianzas en presencia de heteroscedasticidad est´a dado por:

E(uu0 ) = σu2 Σ, donde Σ 6= In

El problema de la heteroscedasticidad se da frecuentemente por los siguientes
casos:

Relaci´on entre las variables explicativas y la varianza del error.
Datos agregados.
Errores de especificaci´on.

Ejercicio.

Se tiene informaci´on del modulo 500 (Empleo e Ingreso) de la ENAHO para
el a˜
no 2009, la cual se trabajar´a sobre las siguientes variables: GASTO (fraccion
gasta en alimentos) y LINGPC (logaritmo del ingreso per capita en la familia),
dichos datos se obtuvieron de las caracteristicas del jefe de hogar. Usando los datos
del archivo engel.dta se le pide estimar por MCO la ”Curva de Engel ”:

GAST Oi = α + βLIN GGP Ci + ui

Dado el modelo a estimar, a continuaci´on se proceder´a a evaluar la existencia
de heteroscedasticidad y su posible correcci´on a dicho problema:

178

8.2. Test de Heteroscedasticidad

. *Heteroscedasticidad
. ********************
. *Limpiamos la memoria
. clear
. *Seleccionamos la ruta donde se encuentra el archivo
. cd "D:\Econometria-Stata\heteroscedasticidad"
D:\Econometria-Stata\heteroscedasticidad
. *Abrimos un archivo en Stata (.dta)
. use engel.dta
. *En primer lugar estimamos el modelo de regresion planteado arriba:
. quietly reg gasto lingpc
. estimates store engel
. *mostramos los resultados en una tabla
. estimates table engel, b( %7.2f) se( %7.2f) p( %7.2f) stats(N r2_a aic bic)
Variable
lingpc

_cons

N
r2_a
aic
bic

engel
1568.72
123.17
0.00
-3159.17
500.11
0.00
1247
0.11
21839.67
21849.92

legend: b/se/p
. *Comando para .tex del output
. outreg2 using myfile, tex
myfile.tex
dir : seeout

8.2.

Test de Heteroscedasticidad

Para evaluar la existencia de heteroscedasticidad (varianza no constante en toda
la muestra) se realizan dos pruebas:

1. Prueba informal y que consta en analizar gr´aficamente el residuo con la(s)
variables regresora(s) y la dependiente.

8. Heteroscedasticidad

179

2. La prueba formal, la cual consiste en realizar pruebas estad´ısticas y que
su eficiencia o uso son muchas veces diferenciadas por su car´acter de tipo
muestral (algunas tienen mayor eficiencia si el tama˜
no de muestra es bajo u
alto), esto ser´a explicado brevemente.

8.2.1.


etodo Informal (M´
etodo Gr´
afico)

. *M´
etodo Gr´
afico
. ***************
. *Encontrando el residuo de la regresion anterior y se le llama "residuo"
. predict residuo, residual
. *residuo vs la v.regresora
. twoway (scatter residuo lingpc)
. *Se puede graficar lo mismo usando el siguiente comando
. rvpplot lingpc

Figura 8.1: M´etodo Gr´afico (1) - Heteroscedasticidad
En el gr´afico anterior se muestra la relaci´on del residuo y la variable independiente o regresora. Es importante siempre hacer gr´afico con una o mas regresoras
que fueron estimadas previamente en el modelo de regresi´on e intentar, de manera
visual, tener una idea de la variable que estar´ıa generando la presencia de heteroscedasticidad. Como se observa en el gr´afico anterior, posiblemente exista de
heteroscedasticidad aunque simplemente proporcionan una sospecha inicial. Una
vez realizado esto, se procede a realizar el gr´afico de los errores en funci´on de la

180

8.2. Test de Heteroscedasticidad

variable dependiente. Este se obtiene as´ı:
. *residuo vs. la v. dependiente
. twoway (scatter residuo gasto)

Figura 8.2: M´etodo Gr´afico (2) - Heteroscedasticidad
Lo que se observa en el gr´afico anterior es que existe una relaci´on positiva muy
marcada entre la variable dependiente. Si no existir´ıa heteroscedasticidad, se esperar´ıa que el gr´afico anterior sean constantes los residuos para cualquier observaci´on
o dato de la variable dependiente. En conclusi´on, los gr´aficos anteriores nos dan
indicios de la existencia de heteroscedasticidad. Sin embargo, las pruebas gr´aficas
ser´an insuficientes en la medida en que muestren la presencia de heteroscedasticidad en una variable en particular, ya que no detectan si esta se origina por la
combinaci´on lineal de todas o de algunas de las variables incluidas en el modelo
(en este caso solo existe una regresora). Del mismo modo anterior, ustedes pueden
analizar usando los siguientes comandos los patrones de la heteroscedasticidad si
se gr´afica los residuos estimados al cuadrado con la variable regresora y la variable
dependiente, as´ı:
. *Se genera el residuo al cuadrado
. g sqresiduo=residuo*residuo
. *residuo al cuadrado vs. la v.regresora
. twoway (scatter sqresiduo lingpc)
. *residuo al cuadrado vs. la v.dependiente
. twoway (scatter sqresiduo gasto)

8. Heteroscedasticidad

181

. *Tambien se puede plotiar los residuos vs. los valores predecidos
. *de la regresi´
on e incluyendo un linea en los valores 0:
. rvfplot, yline(0)

8.2.2.


etodo Formal

A continuaci´on se realizan las principales pruebas formales, de las cuales es
relevante mencionar que las pruebas de Breusch-Pagan-Godfrey (BPG) y White se
suele utilizar cuando la muestra es grande (30 observaciones o m´as).

Prueba de Glejser
Para realizar esta prueba, es necesario instalar previamente el comando lmhgl.
Dicho comando realiza en primer lugar la estimacion por MCO y luego procede a
realizar el test del multiplicador Langragiano de Glejser. A continuaci´on se muestran los comandos y los resultados obtenidos:
. *GLESJER TEST
. *************
. *Buscando el comando lmhgl, que sirve para realizar la prueba de Glesjer
. findit lmhgl
. *Realizando la prueba de Glesjer
. lmhgl gasto lingpc
. *Realizando la prueba de Glesjer
. lmhgl gasto lingpc
Source

SS

df

MS

Model
Residual

382840746
2.9385e+09

1
1245

382840746
2360270.42

Total

3.3214e+09

1246

2665631.95

gasto

Coef.

lingpc
_cons

1568.721
-3159.17

Std. Err.
123.1736
500.1065

t
12.74
-6.32

Number of obs
F( 1, 1245)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000

=
=
=
=
=
=

1247
162.20
0.0000
0.1153
0.1146
1536.3

[95 % Conf. Interval]
1327.07
-4140.314

1810.372
-2178.025

182

8.2. Test de Heteroscedasticidad

==============================================================================
* OLS Glejser Lagrange Multiplier Heteroscedasticity Test
==============================================================================
Ho: No Heteroscedasticity - Ha: Heteroscedasticity
Glejser LM Test
=
78.32800
Degrees of Freedom
=
1.0
P-Value > Chi2(1)
=
0.00000

En este caso se rechaza la hipotesis nula de homoscedasticidad ya que la probabilidad es menor a 0.05 y por lo tanto concluimos que existe Heteroscedasticidad.

Prueba de Breusch-Pagan-Godfrey
La hip´otesis nula se refiere a homoscedasticidad en los datos mientras que la
alternativa se refiere a que los datos son heterosced´asticos. Te´oricamente, la prueba
de Breusch-Pagan-Godfrey se desarrolla de la siguiente manera:

Θ = (1/2)(SCE) ∼ X(m−1) , (m-1) grados de libertad

Aqui es importante aclarar que la SC E fue obtenido de la regresi´on la varianza del residuo (ajustado por la suma de residuos al cuadrado y el tama˜
no de la
muestra) y la variable independiente. El residuo fue obtenido previamente de la
regresi´on original. Acontinuaci´on se programa la ecuaci´on (5) y posteriormente se
obtendr´a el mismo resultado de una manera m´as f´acil:
. *BPG - PROGRAMACION 1
. *********************
. *Estimo la ecuaci´
on original
. reg gasto lingpc
Source

SS

df

MS

Model
Residual

382840746
2.9385e+09

1
1245

382840746
2360270.42

Total

3.3214e+09

1246

2665631.95

gasto

Coef.

lingpc
_cons

1568.721
-3159.17

Std. Err.
123.1736
500.1065

t
12.74
-6.32

. *Genero los residuos de la ecuaci´
on anterior
. predict e , resid

Number of obs
F( 1, 1245)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000

=
=
=
=
=
=

1247
162.20
0.0000
0.1153
0.1146
1536.3

[95 % Conf. Interval]
1327.07
-4140.314

1810.372
-2178.025

8. Heteroscedasticidad

183

. *Genero la varianza del residuo ajustado por la suma
. *del residuo al cuadrado y el tama~
no de la muestra
. g e2=e^2/(e(rss)/e(N))
. *Regresionar la varianza del residuo vs la variable independiente
. reg e2 lingpc
SS

Source

df

MS

Model
Residual

394.671988
20490.3016

1
1245

394.671988
16.4580736

Total

20884.9736

1246

16.7616161

e2

Coef.

lingpc
_cons

1.592776
-5.442438

Std. Err.
.3252566
1.3206

t
4.90
-4.12

Number of obs
F( 1, 1245)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|

=
=
=
=
=
=

1247
23.98
0.0000
0.0189
0.0181
4.0569

[95 % Conf. Interval]

0.000
0.000

.9546647
-8.033284

2.230888
-2.851591

. *Se computa el estad´
ıstico Chi2 a trav´
es de la suma de cuadrados
. *explicados de la regresi´
on anterior
. display "Chi square(1)=" e(mss)/2
Chi square(1)=197.33599
. *Obtengo la probabilidad del estad´
ıstico Chi2
. display "prob<chi2=" chi2tail(1,e(mss)/2)
prob<chi2=7.965e-45
. *Lo anterior se puedo obtener usando la

prueba de BPG/COOK-WEISBERG

. reg gasto lingpc
Source

SS

df

MS

Model
Residual

382840746
2.9385e+09

1
1245

382840746
2360270.42

Total

3.3214e+09

1246

2665631.95

gasto

Coef.

lingpc
_cons

1568.721
-3159.17

Std. Err.
123.1736
500.1065

t
12.74
-6.32

Number of obs
F( 1, 1245)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000

=
=
=
=
=
=

1247
162.20
0.0000
0.1153
0.1146
1536.3

[95 % Conf. Interval]
1327.07
-4140.314

. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of gasto
chi2(1)
=
197.34
Prob > chi2 =
0.0000

1810.372
-2178.025

reg gasto lingpc .3 3111973 t 4.explicativa .28e+07 Std.1916e+15 1. Interval] 2249653 -1.3078e+13 sqresiduo Coef.Nr2) . *construyo el pvalue que se distribuye con una Chi2 . reg sqresiduo lingpc Source SS df MS Model Residual 2. *con un grado de libertad (no se considera el intercepto) y el valor Nr2 .0181 9.89e+07 5257054 -6719732 .05 y existe heteroscedasticidad .90 -4.000 = = = = = = 1247 23. lingpc _cons 3753353 -1.0189 0. scalar Nr2=e(N)*e(r2) .1916e+15 9.0000 0. *Estimo por MCO el error al cuadrado y la v.1597e+17 1246 9.184 8. scalar list Nr2 pvalue Nr2 = 23.6e+06 [95 % Conf. Err.2. Test de Heteroscedasticidad . *genero un scalar que es la multiplicacion de las observaciones . 1245) Prob > F R-squared Adj R-squared Root MSE P>|t| 0. ********************* . estat hettest lingpc Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: lingpc chi2(1) = 197. *La probabilidad es menor a 0.0000 Muchas veces. asi tenemos: .565075 pvalue = 1.000 0. *BPG . 766462. *Aqui se muestra el Nr2 y su probabilidad .1378e+17 1 1245 2.1392e+13 Total 1. *por el r2 de la regresion anterior . la ecuaci´on anterior se puede plantiar apartir del n´ umero de 2 observaciones y el R de la regresi´on entre el residuo al cuadrado y la variable regresora.34 Prob > chi2 = 0.12 Number of obs F( 1. *Al igual que lo anterior .208e-06 . scalar pvalue=chi2tail(1.98 0. * O de otra manera .PROGRAMACION 2 .

1146 1536. estat hettest.314 .32 Number of obs F( 1.98 Prob > F = 0.3214e+09 1246 2665631.9385e+09 1 1245 382840746 2360270.1153 0.fstat Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of gasto F(1 .57 Prob > chi2 = 0.372 -2178. estat hettest.3 [95 % Conf.372 -2178.42 Total 3. Heteroscedasticidad Source 185 SS df MS Model Residual 382840746 2.000 0.32 Number of obs F( 1.0000 0.07 -4140.721 -3159.0000 1810. se puede plantiar la prueba de BPG usando el test F: .1146 1536.1065 t 12. *Utilizando la prueba F . reg gasto lingpc SS Source df MS Model Residual 382840746 2. Se concluye en todos los casos que existe heteroscedasticidad pues la probabilidad es menor a 0.3 [95 % Conf.3214e+09 1246 2665631.000 = = = = = = 1247 162.0000 En este u ´ltimo caso.17 Std.42 Total 3. Interval] 1327.8. 1245) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.74 -6. 123.000 0. 123.721 -3159.07 -4140. la opci´on iid sirve para estimar la ecuaci´on (6) al igual que lo desarrollado en la programaci´on anterior.1065 t 12.314 1810.95 gasto Coef.025 .1736 500.0000 0.1736 500. iid Breusch-Pagan / Cook-Weisberg test for heteroskedasticity Ho: Constant variance Variables: fitted values of gasto chi2(1) = 23.05 (se rechaza la hipotesis nula).9385e+09 1 1245 382840746 2360270. Err.95 gasto Coef. Err.74 -6. 1245) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.1153 0. lingpc _cons 1568. 1245) = 23.17 Std. Opcionalmente. Interval] 1327.20 0.20 0.000 = = = = = = 1247 162. lingpc _cons 1568.025 .

se deben ordenar las observaciones de tal manera que se pueda a continuaci´on eliminar las c observaciones centrales de modo que representen 1/3 del total. Esta prueba permite determinar claramente si el problema existe o no en los datos con los que se est´a trabajando. ************************ . *Dado el orden anterior. *cual es igual enumera de 1 a 1 todas las observaciones . *Regresiono las primeras 416 observaciones . y SCE2 la suma de cuadrados del error de la segunda regresi´on realizada con los valores altos. Las hip´otesis con las que trabaja esta prueba son: Ho : σi2 = σ 2 . Ha : σi2 6= σ 2 Una vez que se detecta la variable que causa heteroscedasticidad. reg gasto lingpc if index < 417 . Test de Heteroscedasticidad Prueba de Goldfeld-Quandt Este test es una prueba eficaz cuando se sospecha la presencia de heteroscedasticidad en una variable espec´ıfica. **PRUEBA GOLDFELD-QUANDT . considerando un estad´ıstico F tal que: F = SCE2 SCE1 Donde SCE1 representa la suma de cuadrados del error de la primera regresi´on que se realiz´o con las observaciones de valores bajos. sort lingpc . Se realizan entonces dos regresiones con las observaciones de los extremos. se plantea la soluci´on en STATA: . gen index=_n . Dicho lo anterior. Este estad´ıstico tiene (n − c − 2k)/2 grados de libertad.2.186 8. se genera una variable llamada index la . *Ordenamos la variable que esta generando heteroscedasticidad .

reg gasto lingpc if index > 830 SS Source df MS Model Residual 197054192 1. *Se cacula el F critico . 414) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.000 0. .6 495563884 1 414 28822268.5232 .21 Total 1.1403 -2942. Heteroscedasticidad Source 187 SS df MS Model Residual 28822268. lingpc _cons 3939.0527 1094.6143 2416.0000 0. Err.0805 816.601 t 7.059 -18300.91 Std.5 [95 % Conf.0745 t 4.643 Std.05) .8. Interval] 2859.0000 0. scalar r=rss2/rss1 . scalar list sce1 sce1 = 1094.809 -8799.000 0.08 0.7888e+09 416 4300074.17 -5.6 1197014. *Se calcula el F calculado . lingpc _cons 1094. Interval] 656. *Regresion las ultimas 831 observaciones . 415) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.652 -1338.416.1 [95 % Conf.1080 1958.61 Number of obs F( 1.164 265.0550 0.21 Total 524386153 415 1263581. Err.64 Number of obs F( 1. 549.601 .37 0. 223.5918e+09 1 415 197054192 3835607. scalar list sce2 sce2 = 1958.91 -1.4706 .21 .96 gasto Coef.1102 0. *Dado que r>f se rechaza la hipotesis nula de homoscedasticidad 5019.09 gasto Coef. *Calculo de la suma de cuadrados del error de la segunda regresion . *Calculo de la suma de cuadrados del error de la primer regresion . scalar f=invfprob(416.1752439 . scalar list f f = 1.0814 . scalar sce2=e(rmse) .809 1533. scalar sce1=e(rmse) .102 = = = = = = 416 24.434 -13549.000 = = = = = = 417 51.

1.11e+07 -1. En efecto.003 = = = = = = [95 % Conf.22e+07 Std.0000 Cameron & Trivedi´s decomposition of IM-test 1247 18. quietly reg gasto lingpc .5e+06 . ************** .32 Prob > chi2 = 0.53e+07 2215254 2. *Regresiono el residuo al cuadrado y la variable regresora y el cuadratico de la misma . se procede a programarlo en STATA y algunas formas opcionales para el c´alculo: .66 0.0512e+13 Total 1. *Aqui se estima un modelo de regresion con terminos cruzados . scalar list white pvalue white = 36.0291 0. 1244) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.62 2.white) .6889e+15 9.3078e+13 sqresiduo Coef. white White´s test for Ho: homoskedasticity against Ha: unrestricted heteroskedasticity chi2(2) = 36.3778e+15 1. Esta prueba es parecida a la de Breush –Pagan y su ecuaci´on (6). lingpc lingpc2 _cons -3. Interval] -5. estat imtest. gen lingpc2=lingpc^2 . *Genero la probabilidad del estadistico de White .000 0.1260e+17 2 1244 1. *genero el cuadrado de la variable regresora .45e+07 4836129 6.001 0.97 Number of obs F( 2. *TEST DE WHITE . *Genero el estadistico de White . Test de Heteroscedasticidad Prueba de White La prueba White es la prueba m´as general comparada con las anteriores. Err.0000 0.06e+07 1335905 2. reg sqresiduo lingpc lingpc2 SS Source df MS Model Residual 3.09e+07 t -3. *Otra forma usando el test de Cameron & Trivedi .26 3. scalar white=e(N)*e(r2) . scalar pvalue =chi2tail(2. *Se rechaza la hipotesis nula y por tanto existe heteroscedasticidad .37e+07 7457004 1.1597e+17 1246 9.188 8.319299 pvalue = 1.0276 9.298e-08 .03e+08 .2.

74 -6.0000 0.32 13.0579 Total 53.9385e+09 1 1245 382840746 2360270.vce(robust) .82 3.3. Interval] 1327.60 2 1 1 0. *Stata estima por MCO y corrige la heteroscedasticidad .31932 Chi-sq( 2) P-value = 1. 123. whitetst White´s general test statistic : 36.8.3e-08 .0002 0. 1245) Prob > F R-squared Adj R-squared Root MSE P>|t| 0. reg gasto lingpc .372 -2178. Err.1736 500. ********************** .42 Total 3. Medidas Correctivas Dado que en las pruebas formales e informales se demuestra la existencia de heteroscedasticidad.3214e+09 1246 2665631. ** MEDIDAS CORRECTIVAS . buscalo con el comando findit e instalalo 8.17 Std.1153 0. se procede ahora a utilizar diferentes m´etodos para la correcci´on de la misma.0000 .0000 0.721 -3159. reg gasto lingpc Source SS df MS Model Residual 382840746 2.025 . *Otra forma es usar el comando Whitetst . lingpc _cons 1568. Heteroscedasticidad 189 Source chi2 df p Heteroskedasticity Skewness Kurtosis 36. *Nota: Si no tienes instalado algun comando. . *usando el estimador robusto de varianzas y covarianzas .20 0.3 [95 % Conf.000 = = = = = = 1247 162.1146 1536.74 4 0.07 -4140.32 Number of obs F( 1.314 1810.000 0. En Stata se har´a ´enfasis en lo que realiza cada uno de los procedimientos y posteriormente se comparar´a las ecuaciones para su an´alisis: .95 gasto Coef.1065 t 12.

......17 Robust Std..844 -1923....64 1719. Medidas Correctivas Linear regression Number of obs F( 1.....000 1284..83 -5.0000 0.0000 0.817 1852...82 -2026.486 .1146 = 1536..17 146..048 -2845 Std........000 0. *Guardo la ecuaci´ on anterior en el sistema de Stata ...1153 1536. lingpc _cons 1491. lingpc _cons 1568....1161 0. Linear regression 50 100 Number of obs Replications Wald chi2(1) Prob > chi2 R-squared Adj R-squared Root MSE gasto Observed Coef.000 = 1247 = 100 = 114.9106 z 10...7994e+09 1 1245 367558061 2248520. lingpc _cons 1568.... . Interval] 0.... 144. reg gasto lingpc [aweight=1/lingpc] (sum of wgt is 3...71 -5. *using a nonparametric bootstrap....3 [95 % Conf.... Err. Interval] 1281. *Realizamos una regresion por MCP utilizando como variable ponderadora a 1/lingpc ...... 1245) Prob > F R-squared Adj R-squared Root MSE = = = = = = 1247 163.000 0..... estimates store eq02 ..6211 469.1084e+02) Source SS df MS Model Residual 367558061 2.07 Total 3.. Bootstrap Std. *Guardo la ecuaci´ on anterior en el sistema de Stata ..1670e+09 1246 2541705..0000 = 0.1164 t 10.. Interval] 0. . 116.190 8....58 P>|t| = = = = = 1247 117....79 -6..782 -2048.3172 Normal-based [95 % Conf..622 -4291.....38 0.000 0. rep(100)) (running regress on estimation sample) Bootstrap replications (100) 1 2 3 4 5 ..482 577.522 ...7762 t 12.721 -3159.66 -4269....3.69 = 0.47 0.000 1262.. estimates store eq01 .. Err...9 gasto Coef.7908 566..854 1855..5 P>|t| [95 % Conf.... vce(bootstrap.1154 1499.. 1245) Prob > F R-squared Root MSE gasto Coef.359 .253 -3766. *Alternativamente se puede estimar heteroscedasticity robust covariance ......47 P>|z| 0. Err...06 Number of obs F( 1. reg gasto lingpc..721 -3159..1153 = 0.

95 gasto Coef. *Estimamos el siguiente modelo . fitted values) .9385e+09 1 1245 382840746 2360270.000 0. residual . .0314 0. reg gasto lingpc Source SS df MS Model Residual 382840746 2.000 1327. g logresid2=log(resid^2) .80 Number of obs F( 1.479851 9.1736 500.8. *otra opcion es estimar la varianza del error y reestimar el modelo por .7838e-03) 1247 40.7813588 7. reg gasto lingpc [aweight=1/w] (sum of wgt is 2.3214e+09 1246 2665631.0306 2.721 -3159. predict zd (option xb assumed.35 11.860412 6137. *Como esta en logaritmos la linealizamos y se genera w .525507 Std.372 -2178.17 Std. lingpc _cons 1.73168 1246 5.07 -4140.943507 .1780167 . *captura el residuo .34 0. Err. 1245) Prob > F R-squared Adj R-squared Root MSE P>|t| = = = = = = 1247 162.08565945 logresid2 Coef.32 Number of obs F( 1. 123.1153 0. predict resid.860412 4. *Utilizando la variable 1/w como ponderadora .0000 0.314 1810.87126 1 1245 198.000 . estimates store eq03 .1065 t 12.107506 .93001708 Total 6336. *genero el logaritmo del residuo al cuadrado . reg logresid2 lingpc Source SS df MS Model Residual 198.000 0.1146 1536. *M´ ınimos Cuadrados Generalizados .130605 8. Heteroscedasticidad 191 .025 .3 [95 % Conf.2204 P>|t| . Err. Interval] 0.42 Total 3.74 -6. g w=exp(zd) = = = = = = 1. lingpc _cons 1568. Interval] 0.0000 0.7227796 t 6.20 0. *Predecimos la varianza del error llamada zd . 1245) Prob > F R-squared Adj R-squared Root MSE [95 % Conf. *Guardo la ecuaci´ on anterior en el sistema de Stata .

2f) stats(N r2_a aic bic) Variable lingpc _cons N r2_a aic bic origi~l 1568.721 -3159.00 0.92 1247 0.17 0. Medidas Correctivas Source SS df MS Model Residual 329137090 2.3482e+09 1 1245 329137090 1886110. *Guardo la ecuaci´ on anterior en el sistema de Stata .0000 0.4 [95 % Conf.29 gasto Coef.35 Number of obs F( 1.42 Total 3.21 -5.17 -3159.01 21570.67 21849.91 469.3.07 -4140.12 21779.92 eq01 eq02 eq03 eq04 1568.025 . 123.996 .1229 0.00 -3159.0000 0. *Guardo la ecuaci´ on anterior en el sistema de Stata .000 0.00 1247 0.17 Std.1153 0. Err. *Resumen .67 21849.000 1095.00 0.27 legend: b/se/p . estimates store original .92 1247 0.192 8. *Regresionando el modelo original con heteroscedasticidad . lingpc _cons 1286.292 -2782.37492 380.11 21839.00 1247 0.51 0.38 0.33 144.26 566.05 1286. 1245) Prob > F R-squared Adj R-squared Root MSE P>|t| = = = = = = 1247 162. Err.3214e+09 1246 2665631.2f) se( %7.62 97.3819 13.1222 1373.17 -2845.05 Total 2.78 380.366 -1289.32 Number of obs F( 1.00 0.256 Std.3 [95 % Conf.329 -2036.20 0.17 500. t 97.1065 t 12.11 21839. Interval] 0.18 21789. lingpc _cons 1568.95 gasto Coef.72 123.11 21839.79 146.48 116.11 0.372 -2178. b( %7.00 -3159.72 1491.37 0.12 21560.1736 500.00 0.00 0.314 1810.1146 1536.00 0. 1245) Prob > F R-squared Adj R-squared Root MSE P>|t| = = = = = = 1247 174.000 0. estimates store eq04 Luego comparamos las ecuaciones anteriores y procedemos al an´alisis: .67 21849.44 1247 0.6773e+09 1246 2148751.000 1327.00 -2036. reg gasto lingpc Source SS df MS Model Residual 382840746 2.517 1477.2f) p( %7.9385e+09 1 1245 382840746 2360270.12 577. Interval] 0. estimates table original eq01 eq02 eq03 eq04.72 1568.74 -6.

Ejercicio Propuesto En el archivo emisiones. 8. el modelo lineal a estimar es: CO2t = α + β1 GDPt + β2 P OPt + ut Dado el modelo a estimar. la cual pretende evaluar la implicancia del nivel de desarrollo sobre las emisiones de CO2. .4. N´otese ahora que las ecuaciones eq03 y eq04 tienen diferentes coeficientes en comparaci´on con las primeras tres ecuaciones. si no se desea alterar los coeficientes de la ecuaci´on original la mejor opci´on es la ecuaci´on eq02. Heteroscedasticidad 193 Aqu´ı claramente se observa que la ecuaci´on eq04 tiene menor error est´andar y posee los criterios Akaike (aic) y Schwarz (bic) m´as bajos en comparaci´on con el resto de estimaciones. esto ocurre pues en eq03 y eq04 se construyen nuevas estimaciones pues se utilizaron diferentes ponderadores que alteran el modelo original. a continuaci´on se proceder´a a evaluar la existencia de heteroscedasticidad y su posible correcci´on a dicho problema. Dicha variable es explicada por la presi´on de la econom´ıa a trav´es del producto bruto interno (GDP ) en miles de millones de d´olares constantes de 2005 y la poblaci´on total (POP ) en millones de habitantes. Caso contrario. Por lo tanto.8. Comparando los modelos. Aqui se tiene data sobre el di´oxido de carbono (CO2 ) en miles de toneladas m´etricas (TM ) y representa el nivel de generaci´on de contaminantes.csv se tiene datos para diferentes pa´ıses en el a˜ no 2007. lo cual en ambos casos se mantienen los coeficientes del modelo original (acuerdense que el problema de heteroscedasticidad es un problema de inferencia. los estimadores del modelo original siguen siendo MELI). se puede concluir que la ecuaci´on eq04 es la mejor ecuaci´on por poseer menores errores est´andar aunque se alteran los coeficientes del modelo original. Por otro lado. ocurre cuando se estima eq01 o eq02 quienes corrigen heteroscedasticidad utilizando los errores est´andar robustos de White y los errores est´andar robustos mediante el procesor iterativo bootstrap respectivamente.

4. Ejercicio Propuesto .194 8.

Los problemas asociados a la presencia de autocorrelaci´on son similares a los que enfrentamos cuando los errores son heterosced´asticos.Los estimadores MCO se mantienen insesgados pero dejan de ser eficientes. Problema de Autocorrelaci´ on Tal como se comento en el capitulo anterior. Por tanto. 195 . lo que ocurre es que calculan la varianza siguiendo la f´ormula tradicional de MCO la cual nos da desviaciones est´andar menores. Dado que los programas econom´etricos utilizan el estimador MCO. Sin embargo. en t´erminos de la estimaci´on en la pr´actica ocurre lo contrario. la independencia de las perturbaciones implica que su covarianza es cero Cov(ui uj ) = 0 para todo i 6= j. Esto implica que la varianza aumenta por lo que la volatilidad de los estimadores aumenta.1. Espec´ıficamente. la tercera condici´on de GaussMarkov implica que el t´ermino de error para cada observaci´on se determina independientemente de los valores que pueda arrojar en el resto de observaciones de la muestra.Cap´ıtulo 9 Autocorrelaci´ on 9. Cuando esta condici´on no se cumple se dice que el error presenta autocorrelaci´on. ´estas son usualmente subestimadas lo que conduce a una sobreestimaci´on de los estad´ısticos-t y a problemas de inferencia dado que nuestras conclusiones ser´ıan err´oneas.

as´ı: logm1t = β1 + β2 log(gdpt ) + β3 lrt + β4 ∆log(prt ) + et Antes de proceder a estimar la ecuaci´on (9). ***************** .dta se tiene informaci´on trimestral desde 1990 hasta el tercer trimestre del 2009 de las siguientes variables para la economia peruana: m1 (saldos monetarios nominales). se muestran los pasos en STATA previos a la estimaci´on: . * AUTOCORRELACI´ ON . basta encontrar otro procedimiento para la estimaci´on de los par´ametros que arroje estimadores de menor varianza para descartar la eficiencia de los estimadores MCO. Las variables m1 y gdp est´an en millones de d´olares. *Limpiamos la memoria .196 9. y como alternativa a la estimaci´on MCO. El modelo que vamos a estimar es la curva LM donde incluiremos el rezago del indice de precios (para darle din´amica al modelo). clear . pr (indice de precios. lr (tasa de inter´es por prestamos).1. Problema de Autocorrelaci´on Con referencia al problema asociado a la eficiencia de los estimadores MCO. En este sentido. Presencia de relacion no lineales. la estimaci´on por m´ınimos cuadrados generalizados arroja estimadores m´as eficientes en el sentido de presentar una menor varianza. Ejercicio En el archivo curva lm. El problema de autocorrelaci´on se da frecuentemente por los siguientes casos: Presencia de ciclos econ´omicos. y al igual que para el caso de heterocedasticidad. Mala especificaci´on. 2005=100) y gdp (producto bruto interno).

1. Autocorrelaci´on 197 .411112 -. Interval] 1.503526 -. *Identificamos la ruta donde se encuentra el archivo .86 Number of obs F( 3.42 -1.091 0.308753 -6. g dlogpr=d. reg logm1 loggdp lr dlogpr Source 9. cd "D:\Econometria-Stata\autocorrelaci´ on" D:\Econometria-Stata\autocorrelaci´ on .52 -12. 74) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.2. .450103 Test de Autocorrelaci´ on M´ etodo Informal (M´ etodo Gr´ afico) En este caso.dta . use curva_lm.35 0.2. SS df MS Model Residual 97.59594 . 1 to 79 delta: 1 unit Luego de generar las variables relevantes para estimar la ecuaci´on (9).5015436 t 32. Err.0001572 1. se mostrar´a diferentes comandos para analizar gr´aficamente la presencia de autocorrelaci´on: . 9.2745007 -7.0000255 2. loggdp lr dlogpr _cons 1.0003399 . .000 0. tsset year time variable: year.5414105 .0000917 . *Abrimos el archivo de STATA (.5190613 . .0000 0.0463801 .9721 0.9710 . *Generamos variables g logm1=log(m1) g loggdp=log(gdp) g logpr=log(pr) .014 0.71 2.449451 Std.logpr (1 missing value generated) .80219288 3 74 32. .9.1946 [95 % Conf. procedemos a estimar la curva LM para la econom´ıa peruana: .6242315 2.037867471 Total 100.426424 77 1. *Estimacion de la Curva LM . *Declaramos al STATA que los datos son series de tiempo .dta) .30423928 logm1 Coef.343005 -5.448798 1.000 = = = = = = 78 859.

predict res.Autocorrelaci´on .198 9. *Alternativamente se muestra el grafico de tipo scatter . *Grafico lineal del residuo "res" . Test de Autocorrelaci´on . *Genero el rezago del residuo "res" .r (1 missing value generated) . *Aqui se gr´ afica los residuos con los valores predichos. line res year . rvfplot Figura 9. list res lres . *Test de Autocorrelaci´ on . *Capturo el residuo de la regresion anterior y la llamo "res" . g lres=res[_n-1] (2 missing values generated) . ********************************* . *Ploteo el residuo "res" vs su rezago . *Alternativamente se muestra el grafico de tipo scatter .1: M´etodo Gr´afico (1) .2. ************************ . scatter res lres . scatter res year . *M´ etodo Informal (M´ etodo Gr´ afico) . .

*Se analiza el correlograma de los residuos .Autocorrelaci´on El gr´afico anterior nos indica la posible presencia de autocorrelaci´on positiva de grado uno. Se puede medir dicha relaci´on utilizando el grado de correlaci´on entre el residuo y su rezago. corrgram res .0000 0. la cual se muestra a continuaci´on: .8106 1.0000 Tambi´en se puede mostrar el correlograma de los residuos: .9. Autocorrelaci´on 199 Figura 9.2: M´etodo Gr´afico (2) . *Calculo el grado de relacion del residuo "res" y su rezago . corr res lres (obs=77) res lres res lres 1.

1884 0.0000 0.4007 -0.1493 -0.14 239.0000 0.0572 PAC 0.0887 0.0000 0.1349 -0.49 270.5601 0.0000 0.17 102.5589 -0.0000 0.91 191.1901 0. Ese valor es que se registra en la columna de autocorrelaci´on parcial.51 623.0000 0.0177 0.32 218. Empecemos por la segunda.5804 -0.33 357.0930 -0.22 621. No se incluye un intercepto porque la media de los errores MCO por construcci´on es cero.0696 -0.0230 -0.2392 -0.0000 0.1427 -0.0000 0. .200 9.2 587.0000 0.0000 0. cada par´ametro que se calcula es el coeficiente de correlaci´on del error contempor´aneo con el rezago respectivo.7578 0.4586 -0.24 615.0485 0.0663 0.0000 0.0931 -0.47 309.4193 -0.0000 0.Como vemos en cada regresi´on se va incluyendo un rezago m´as (y por tanto un par´ametro m´as por estimar).1274 0.2179 0.8100 0. Tal como se aprecia debajo de dicha columna unas lineas nos indican la magnitud del coeficiente de autocorrelaci´on correspondiente al m´aximo rezago incluido en la ecuaci´on estimada para cada fila del cuadro de la derecha.0132 0.39 274.0000 0.0426 -0.2222 -0.0000 0.2190 -0.0605 -0.0000 0.53 254.2801 -0.4633 -0.7716 0.0000 0.29 278.0305 -0.0000 0.68 619.0710 -0.0000 0.16 475.0000 0.4967 0.96 442.0044 0.7007 0.06 142.0230 -0.1878 -0.89 286.01 385.0500 0.34 549.0000 0.0000 0.3738 -0.5507 -0.0000 0.2740 -0.37 331.0000 0.0000 0.0000 0.0000 0.4172 -0.0000 0.2081 -0.1650 -0.67 608.0000 -1 0 1 -1 0 1 [Autocorrelation] [Partial Autocor] En el correlograma tenemos dos columnas una referida a la autocorrelaci´on y la otra referida a la autocorrelaci´on parcial.0000 0.1475 0.1737 Q Prob>Q 53.1713 -0.18 273.56 407.57 620.0930 0.3322 0.0000 0.2842 -0.0073 0.0395 0.5128 -0.3 596.8108 0. Bajo esta perspectiva.4197 0.1122 0.28 621.5196 -0.4126 0.3799 -0.2.0000 0.3014 -0.El u ´ltimo par´ametro de cada ecuaci´on nos mide la correlaci´on del respectivo rezago con el valor contempor´aneo del error.5 621.3581 -0.0508 -0.0875 -0.51 622.0000 0.1 570.4969 -0.0231 -0.0693 -0.79 524.0000 0.24 274.4563 -0.0632 -0.01 0.0000 0.0000 0. Test de Autocorrelaci´on LAG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 AC 0.3136 -0.0265 0.95 505.0823 0.0000 0.0000 0.19 274.77 299.

Revisando nuestras pruebas. Como nos debemos haber percatado. mientras que los dem´as no lo hacen. Si vemos los valores de la probabilidad para cada fila. vemos que los estad´ısticos de Ljung-Box s´olo pueden detectar la autocorrelaci´on pero no indican el orden de ´esta. aparentemente la primera es distinta de cero. se puede testear la existencia de autocorrelaci´ on solo de primer orden. Si bien se requir´ıa la tabla estad´ıstica de Savin-White para determinar el l´ımite inferior (dL ) y superior (dU ) y analizar la existencia de autocorrelaci´on de primer orden. En nuestro caso. 9. Esto nos llevar´ıa a pensar que incluso tenemos una autocorrelaci´on autorregresiva de orden 37. Por ello se habla de autocorrelaci´on y no de autocorrelaci´on parcial.2. En la columna de autocorrelaci´on se registran los estad´ısticos tanto de Ljung-Box y su probabilidad. existe un regla pr´actica. veremos que en cada una de ellas se rechaza la hip´otesis nula. vemos que la hip´otesis nula es que no existe autocorrelaci´on de ning´ un orden. Como se observa en el gr´afico. La interpretaci´on es entonces que s´olo podr´ıa haber autocorrelaci´on de primer orden. Por tanto su interpretaci´on debe ser comparada con los gr´aficos del correlograma para detectar posibles patrones de autocorrelaci´on. M´ etodo Formal Prueba de Durbin Watson Posterior a la estimaci´on de la ecuaci´on (9) y segun el criterio de decisi´on mostrado a continuaci´on. Se utiliza para calcular el estad´ıstico todas las correlaciones parciales. Si el estad´ıstico Durbin-Watson . Si observamos la u ´ltima columna de la tabla se presentan las probabilidades del estad´ıstico consignado. al parecer el primer rezago sale fuera de la banda de confianza. Por lo tanto. Autocorrelaci´on 201 La interpretaci´on del gr´afico es entonces que cuando las lineas caen dentro del intervalo se puede esperar que los coeficientes de correlaci´on parcial sean estad´ısticamente iguales a cero. Demos una mirada con detenimiento. la hip´otesis nula de la prueba es que no existe autocorrelaci´on. el estad´ıstico ser´a grande a pesar de que las dem´as sean cercanas a cero. En todo caso no son definitivos sino s´olo referenciales. Ello explica las bajas probabilidades observadas.2. Si dichas lineas salen fuera de la banda se espera que sean diferentes de cero.9. Este estad´ıstico toma en cuenta los coeficientes de correlaci´on. Esa es una conclusi´on err´onea.

*La ventaja del "estat durbinalt" es que pueden evaluar para diferentes rezagos .028e-13. A continuaci´on se analiza dicho test y uno alternativo a trav´es de STATA: .640 1 0.2. significa que la regresi´on estimada carace de problemas de autocorrelaci´on. *aymptotic test: . escribir: estat durbinalt. *DW indicates the presence of positive autocorrelation de grado uno . *Conclusi´ on: Se rechaza la H0 y por ende existe autocorrelaci´ on positiva de orden 1 . * 4. *Por ejemplo. estat durbinalt Durbin´s alternative test for autocorrelation lags(p) chi2 df Prob > chi2 1 140. Test de Autocorrelaci´on se aproxima a 0 entonces existe autocorrelaci´on positiva de orden 1 y si por el contrario dicho estad´ıstico tiende a 4 existe autocorrelaci´on negativa de orden 1. Clearly this test indicates autocorrelation.5*0. lags(2) . *Estimaci´ on de la Curva LM . Por u ´ltimo.378536)) 4. dwstat Durbin-Watson d-statistic( 4. di 1-normprob(78^.202 9. *Alternativa del test de durbin watson .378536 . . 78) = .5*(1-. si el estad´ıstico Durbin-Watson se aproxima o es igual a 2. *Prueba de Durbin Watson .0000 H0: no serial correlation .028e-13 . reg logm1 loggdp lr dlogpr . reg logm1 loggdp lr dlogpr .

bgodfrey. reg logm1 loggdp lr dlogpr .348 54. reg e e1 e2 loggdp lr dlogpr . esta prueba sirve tanto para modelos de regresi´on est´aticos y din´amicos a diferencia del test de Durbin-Watson que solo sirve para modelos est´aticos y de orden uno. lags(1 2) Breusch-Godfrey LM test for autocorrelation lags(p) chi2 df Prob > chi2 1 2 51.0000 H0: no serial correlation . reg logm1 loggdp lr dlogpr .9. Asimismo. la prueba Breusch Godfrey permite evaluar si existe autocorrelaci´on de orden uno o mas. manera . *Lo anterior se puede reafirmar de la sgte. Los comandos en STATA son: .0000 0. predict e. g e1=e[_n-1] (2 missing values generated) . *Test Breusch Godfrey: Prueba de Autocorrelaci´ on de orden 1 y 2 . resid (1 missing value generated) . *Estimando el residuo vs los rezagos y las v.367 1 2 0. *Estimaci´ on de la Curva LM . g e2=e1[_n-1] (3 missing values generated) . Autocorrelaci´on 203 Prueba Breusch Godlfrey A diferencia del test de Durbin-Watson.explicativas .

0558 0.86 3.067 0.62366 .3928109 t 4. 102.14 0.55 0.290726 -.0000 0.8358578 .706573 .10146 [95 % Conf. test e1 e2 ( 1) ( 2) e1 = 0 e2 = 0 F( 2. Medidas Correctivas Source SS df MS Model Residual 2.0047063 . .1066552 .7414 0.63 3.413222486 . Interval] .3350593 -. Err.1043956 .78665597 75 .26 -3.0000 .720543543 5 70 .1382105 .1268488 -.0011508 -.3.002 0.06611243 .000 0.14 1.037155413 e Coef.0007142 -2.2811387 .0002776 -4. 70) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.88 Number of obs F( 5.010293479 Total 2.0000 .0667521 .0000 Medidas Correctivas Dado que las pruebas formales e informales indican la existencia de autocorrelaci´on.9565947 1.0129 0.0446259 . 70) = Prob > F = 79. *Alternativamente se crea el Test Portmanteau .7388106 Std.522247 . wntestq e Portmanteau test for white noise Portmanteau (Q) statistic = Prob > chi2(37) = 623. *Probando si son significativos .002 0. usando STATA se plantean las posibles solucionan y posteriormente se compara los modelos estimados: .0358289 .064 = = = = = = 76 40.7230 .4938558 . wntestq e.0002189 . e1 e2 loggdp lr dlogpr _cons .002 0. lags(2) Portmanteau test for white noise Portmanteau (Q) statistic = Prob > chi2(2) = 9.204 9.5432697 .3.21 -1.

Autocorrelaci´on 9.378536 Durbin-Watson statistic (transformed) 1.9885 rho = 0.9285 rho = 0.9895 rho = 0. Interval] .9285 rho = 0.26304037 77 .6463 0.0000 rho = 0.9795 rho = 0.9895021 Std. prais logm1 loggdp lr dlogpr.9867 rho = 0.9895 rho = 0.816242285 .157 0.717 0.43 3. Err.3557288 -.9895 Number of obs F( 3. .9895 rho = 0.0000 rho = 0.8108 rho = 0.9867 rho = 0.iterated estimates Source SS df MS Model Residual .9894 rho = 0.07 Durbin-Watson statistic (original) 0.7524676 .446655 rho .3.9885 rho = 0.748292 . *Agregandole los errores est´ andar robustos .003 = = = = = = 78 45.1460782 5.0995559 .36 -1.272080762 .0000841 .016403122 logm1 Coef.212278 .88553 1.9895 rho = 0. loggdp lr dlogpr _cons .0000357 .0777 [95 % Conf.9895 rho = 0.3697259 3.9895 Prais-Winsten AR(1) regression -.681032 .9891 rho = 0. 205 M´ etodo de Estimaci´ on Prais-Winsten . r rho = 0. *M´ etodo de Estimaci´ on Prais-Winsten AR(1) . 74) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.121369 t 5. prais logm1 Iteration 0: Iteration 1: Iteration 2: Iteration 3: Iteration 4: Iteration 5: Iteration 6: Iteration 7: Iteration 8: Iteration 9: loggdp lr dlogpr.9894 rho = 0.57 0.9895 rho = 0.6319 .1.446798088 3 74 .5540982 .0000 0.0000581 -.2588672 1.000 0.06 0. prais logm1 loggdp lr dlogpr Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: rho = 0. vce(robust) .9891 rho = 0.9.8108 rho = 0.000013 -.006037812 Total 1.9795 rho = 0.

9895 Iteration 12: rho = 0.446655 rho .9632 .9631 rho = 0.0000729 -.9629 rho = 0.30 -1.0000988 .iterated estimates Linear regression Number of obs = F( 4.9605 rho = 0.8108 rho = 0.08 P>|t| 0.17 0.1423445 .9630 rho = 0.764 0.9575 rho = 0.9631 rho = 0.0777 [95 % Conf.9593 rho = 0.750965 Durbin-Watson statistic (original) 0.9895 Prais-Winsten AR(1) regression -.5540982 .9618 rho = 0.9388 rho = 0.3. *M´ etodo de Estimaci´ on Cochrane-Orcutt .20 2.0000 rho = 0.9627 rho = 0. Interval] . 74) = Prob > F = R-squared = Root MSE = logm1 Coef. corc Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22: 23: 24: rho = 0.9632 rho = 0.748292 9.9632 rho = 0.0000431 .9895021 Semirobust Std.3697259 3.041 78 162.9622 rho = 0.9630 rho = 0.9625 rho = 0.9632 rho = 0.1076855 .9631 rho = 0.15 0.7686661 .3395302 -.0000 0. prais logm1 loggdp lr dlogpr.9497 rho = 0.232 0.3069739 1.9895 Iteration 11: rho = 0.9895 Iteration 13: rho = 0.241933 6.9628 rho = 0.6463 . Err.000013 -.378536 Durbin-Watson statistic (transformed) 1.9547 rho = 0. . M´ etodo de Estimaci´ on Cochrane-Orcutt .2.206 9.9612 rho = 0.3.9631 rho = 0.000 0.9813847 . loggdp lr dlogpr _cons .658338 t 5. Medidas Correctivas Iteration 10: rho = 0.

9631 rho = 0.9632 rho = 0. Autocorrelaci´on Iteration Iteration Iteration Iteration Iteration Iteration 25: 26: 27: 28: 29: 30: 207 rho rho rho rho rho rho = = = = = = 0.99 Durbin-Watson statistic (original) 0.9630 rho = 0.976452 . 73) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.9632 rho = 0.0000 rho = 0.83 -0.9632 rho = 0.363 0.264970218 3 73 .9632 rho = 0.157 0.9593 rho = 0.0000798 -.2946 rho .9632 rho = 0.9632 0.3364368 .9630 rho = 0.0000328 .9628 rho = 0.61275 .9605 rho = 0.003629729 Total .8108 rho = 0.408 0.218509 11.163146 t 1.9632 0.008070475 logm1 Coef.348385887 .9547 rho = 0.9631 rho = 0.9.9632 0.0554538 -.9497 rho = 0.9631 rho = 0.9632 0.9632 rho = 0.5502 .2026405 1.9631 rho = 0.5892151 6.9575 rho = 0.0000 0.5680 0.613356105 76 .96319 Std.9622 rho = 0.9612 rho = 0.378536 Durbin-Watson statistic (transformed) 2. prais logm1 loggdp lr dlogpr.iterated estimates Source SS df MS Model Residual .91 7.43 -0.9632 Number of obs F( 3.9625 rho = 0.1853531 9.9632 rho = 0. Interval] -. Err.0983169 .068840 .1404915 -.9632 Cochrane-Orcutt AR(1) regression -.9388 rho = 0.0000283 . corc r Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22: 23: 24: 25: 26: 27: 28: rho = 0.116128629 . *Agregandole los errores est´ andar robustos . loggdp lr dlogpr _cons .06025 [95 % Conf.9618 rho = 0.000 = = = = = = 77 31.0000235 -. .9632 0.9629 rho = 0.99 0.9627 rho = 0.

0000235 -.552649 7.9632 Cochrane-Orcutt AR(1) regression -.208 9.1404915 -.1842933 1.318 0. Lo anterior puede ser indicios de que quiz´as se este omitiendo alguna variable relevante en el modelo.0428505 -. 9.66 Prob > F = 0. las probabilidades individuales indican que las variables no son significativas con un R2 relativamente alto.3238334 .0000278 .1819429 11.logm1 (1 missing value generated) .185858 .3.1853531 9. g llogm1=l.01 8.40334 Durbin-Watson statistic (original) 0.0000 R-squared = 0. Estimaci´ on de Modelos Din´ amicos .78 P>|t| 0.131 0.0000258 . 73) = 2177.365 0.91 -1.378536 Durbin-Watson statistic (transformed) 2.3.iterated estimates Linear regression Number of obs = 77 F( 4.0000748 -. .96319 Semirobust Std.000 [95 % Conf.068840 N´otese que usando la estimaci´on por Prais-Winsten o Cochrane-Orcutt e incluso agregandole a dichas estimaciones los errores est´andar robustos. Err.9632 rho = 0. *Estimaci´ on de un modelo din´ amico en la Curva LM . loggdp lr dlogpr _cons . Probemos ahora incluyendo el rezago de la variable dependiente como regresora. *Genero el rezago de la variable dependiente . Medidas Correctivas Iteration 29: Iteration 30: rho = 0. reg logm1 loggdp lr dlogpr llogm1 .5680 Root MSE = .53 -0.058076 t 1. Interval] -.2946 rho .0919931 .3.06025 logm1 Coef.

estimates store eq03 . Autocorrelaci´on Source 209 SS df MS Model Residual 100.9967 = 0.0001396 . prais logm1 loggdp lr dlogpr llogm1. estimates store eq02 .1792462 .9416783 -.9965 = .9704093 Std. *Resumen .2116228 -.8677781 -.0574787 .550782 .096858 . Interval] .2912059 t Number of obs F( 4.95 = 0.097068 -. b(%7.1179 H0: no serial correlation Al incluir el rezago de la variable dependiente como regresora se corrige el problema de la autocorrelaci´on.000 0.426424 77 1.2f) p(%7.000 0.0000761 1.93 23.2f) stats(N r2_a aic bic) . Err. prais logm1 loggdp lr dlogpr llogm1. vce(robust) .39 6. *Guarda la ecuaci´ on anterior .06719 [95 % Conf. /// .0000 = 0. corc vce(robust) .276 1 2 0.625 4.599383 .242146 .8849088 . loggdp lr dlogpr llogm1 _cons .33 0.000 0.0000318 .9. estimates store eq04 .001 = 78 = 5542.0569 0. bgodfrey. Procedemos a evaluar diferentes estimaciones incluyendo el rezago de la variable dependiente: .004514602 Total 100.30423928 logm1 Coef. *Guarda la ecuaci´ on anterior . corc .40 -3. *Evaluo si se corrigio el problema de autocorrelaci´ on .0370799 . prais logm1 loggdp lr dlogpr llogm1 . estimates table eq01 eq02 eq03 eq04.7938779 -1.3900367 . *Guarda la ecuaci´ on anterior .0242146 .019 0. estimates store eq01 .329565937 4 73 25.2f) se(%7. prais logm1 loggdp lr dlogpr llogm1.0000127 1. . *Guarda la ecuaci´ on anterior .68 -2. 73) Prob > F R-squared Adj R-squared Root MSE P>|t| 3. lags(1 2) Breusch-Godfrey LM test for autocorrelation lags(p) chi2 df Prob > chi2 1 2 3.3261776 -.

89 0. *Newey-HAC para m´ aximo 2 rezagos .12 0.67 0. newey logm1 loggdp lr dlogpr.53 -2.03 0.00 0.5200937 Number of obs F( 3.00 0.00 -0.15 0.05 0.00 2.28 0. .007 0.00 -0.52 0.00 0.52 0. Medidas Correctivas Variable loggdp lr dlogpr llogm1 _cons N r2_a aic bic eq01 eq02 eq03 eq04 0.17 0.73 77 1.74 0.15 0.24 0.38e-07 2.000 0. estimates table eq01 eq02 eq03 eq04 eq05.04 0.00 -0.17 0.89 0.48576 1.049 0.26 0.210 9. 74) Prob > F t 32.28 -195. lag(2) Regression with Newey-West standard errors maximum lag: 2 logm1 Coef.31 0.411426 -.00 0. Interval] 0. Posteriormente se comparar´a con el resto de modelos: .3749061 -7.01 0.79 -12.03 0.0001572 1.00 0.05 0.18 0.0000 P>|t| [95 % Conf.00 -0.52 -187.02 0.0462225 .00 78 1.595626 -4.04 0.29 0.12 0. Err.4.21 0.4686707 .308753 -6.12 1. /// = = = 78 2397.56 77 1.000314 .000 1. loggdp lr dlogpr _cons 1.89 0.40 .00 0.03 0.449451 Newey-West Std.00 -207.2426 -5.01 0.52 -187.73 78 1.74 0.56 legend: b/se/p 9.69 0. Estimaci´ on de Modelos Din´ amicos El problema de la autocorrelaci´on tambi´en se puede corregir utilizando los errores estandar robustos de Newey-West (HAC).00 -0.00 0.00 0.00 0.00 -0.413141 .28 -195.00 0.00 -199.0000787 .02 0.00 -207.12 0.00 -199.3.00 0.3.89 0.34 1. *Resumen .00 0.00 0.503526 -.00 0.17 0.12 0.46 0.

1548 0. .05 0.00 -0.00 0.00 -0.03 0.00 77 77 0.0000 0.29 0.24 0.8853 0.34 1.1225 0. El modelo a estimar es el siguiente: pbit = β1 + β2 const + β3 invt + et Posterior a la estimaci´on.03 0.18 0.2f) p(%7.8950 0.05 0.1194 0.00 0.9982 -2. Autocorrelaci´on 211 .01 0. Todas las variables est´an en millones de soles 1994. cons (consumo privado) y inv (inversi´on bruta fija).0e+02 -1.00 -0.5035 0. legend: b/se/p 9.26 0.69 0. b(%7.00 0.2f) stats(N r2_a aic bic) Variable loggdp lr dlogpr llogm1 _cons N r2_a aic bic eq01 eq02 eq03 eq04 eq05 0.00 0.1548 0.00 0.12 1. Ejercicio Propuesto En el archivo pbi.05 1.00 -0.1194 0.05 0.1658 0.00 1.4495 0.8950 0.9.0000 0.04 0.9e+02 -6.00 0.67 0.47 0.00 -0.8853 0.1225 0.5206 0.0e+02 -2.0e+02 78 .00 0.00 -0.17 0.csv se tiene informaci´on anual de 1950-2011 de las siguientes variables para la economia peruana: pbi (producto bruto interno). .02 0.03 0.5206 0.01 78 0.7406 0.1658 0.00 0.00 0.31 0.1e+02 -2.7406 0.28 0.4f) se(%7.02 0.0002 0.3088 0.04 0.52 0.9984 0.21 0.00 -0.0e+02 -1.00 0.9e+02 78 0.0002 0. se le pide evaluar la presencia de autocorrelaci´on y si este existe corregirlo de la mejor manera.9982 -2.00 0.9984 -2.4.0002 0.01 0.1e+02 -2.

4. Ejercicio Propuesto .212 9.

si Xi = Xi2 . A este respecto. las posibles situaciones son tres: Multicolinealidad Perfecta: se da cuando existe una relaci´on lineal exacta 213 . la multicolinealidad es un problema de grado y no te´orico como la heterocedasticidad o autocorrelaci´on. Dentro de las violaciones de los supuestos del modelo lineal general. Es importante anotar que la multicolinealidad se refiere s´olo a relaciones lineales entre las variables independientes y no a cualquier otro tipo de relaci´on. m´as a´ un. as´ı pues. los estimadores obtenidos bajo multicolinealidad. la multicolinealidad se refiere a la existencia de m´as de una relaci´on lineal. Una cuesti´on importante que debe analizarse al estudiar los resultados de un modelo de regresi´on es el grado de relaci´on lineal existente entre las observaciones de las variables explicativas.1. conservan las propiedades que los definen como MELI. El problema de la multicolinealidad est´a definido por el alto grado de intercorrelaci´on entre variables explicativas. entonces existir´a multicolinealidad en el modelo.Cap´ıtulo 10 Multicolinealidad 10. por lo tanto. Problema de Multicolinealidad La colinealidad est´a referida a la existencia de una sola relaci´on lineal entre las variables explicativas y.

. Un modelo sobredeterminado (es cuando un modelo tiene mas variables explicativas que observaciones). Restricciones sobre el modelo o en la poblaci´on que es objeto de muestreo.214 10. Especificaci´on del modelo. Multicolinealidad Imperfecta: consiste en la existencia de una relaci´on lineal fuerte entre los regresores del modelo. Sensibilidad de los estimadores y sus errores est´andar ante peque˜ nos cambios en la muestra. Las posibles fuentes de multicolinealidad son cuatro principalmente: El m´etodo de recolecci´on de informaci´on empleado. Ortogonalidad: Supone la ausencia de relaci´on lineal entre algunos o todos los regresores incluidos en el modelo (raramente ocurre esto). Estad´ısticos t poco significativos y un R2 alto. Transformaci´on de variables del modelo. Intervalos de confianza m´as amplios. Las posibles correcciones son: Suprimir variables. Las consecuencias del problema de multicolinealidad son las siguientes: Varianzas y covarianzas grandes. Problema de Multicolinealidad entre algunos o todos los regresores incluidos en el modelo.1. Empleo de informaci´on adicional.

Empleo de cocientes o ratios entre las variables. clear . reg pbi_mineria pbi_mundial cobre plomo zinc oro plata hierro estanho . Multicolinealidad 215 M´etodo de primeras diferencias. No hacer nada. se procede a realizar en STATA diferentes pruebas para detectar la multicolinealidad: . use demanda_mineria. plata (Miles Oz). oro (Miles Oz). plomo (Miles TMF).10. cd "D:\Econometria-Stata\multicolinealidad" D:\Econometria-Stata\multicolinealidad . Aumentar el tama˜ no de muestra. Ejercicio En el archivo demanda mineria.dta se tiene informaci´on estad´ıstica de 19802010 para las siguiente variables: pbimineria y pbimundial en US$ 94. Teniendo estas variables se pide estimar la demanda de miner´ıa seg´ un la siguiente ecuaci´on: pbimineriat = β1 + β2 pbimundialt + β1 cobre3 + β4 plomot + β5 zinct + β6 orot + β7 platat + β8 hierrot + β9 estanhot + et 10. cobre (Miles TMF).dta . ******************* .2. hierro (Miles TMF) y estanho (Miles TMF). * MULTICOLINEALIDAD . Detecci´ on de Multicolinealidad Luego de la estimaci´on (10). zinc (Miles TMF).

26 -4397213 -2.409 = 31 = 9247.08 2.0476e+14 Total 3.88 10727. pbi_mundial cobre plomo zinc oro plata hierro estanho _cons 2.66e-06 1157185 1630135 549120 228338.0000 = 0.076462 0.7353e+19 30 1.09e-06 770839. 22) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.42 13.025482 0. 2.08 3.001 0.030290 0.86 309207.41 .06e+07 t 1.78e-06 964011. *# Interpretation: If a VIF is in excess of 20.18 10.024840 0.000 0.93 33. graph matrix pbi_mineria pbi_mundial cobre plomo zinc oro plata hierro estanho .275 29015. .78e+07 Std.13 976.8 4957.33 19. *3.000 0.89 0.2.88 -1265900 -6.9997 = 0. .1105e+16 8 22 4.004 0.5 6982.84 -0. . *half maxis(ylabel(none) xlabel(none)) .6677e+18 5.7342e+19 1. * 1.7 241337 183845.9 988878. High R2 but few significant t-ratios.9996 = 2.01 32.2 347622.44 40. . Interval] -2.000 0.97 -0. vif Variable VIF 1/VIF cobre zinc oro estanho plata pbi_mundial plomo hierro 56.345988 Mean VIF 31. Detecci´on de Multicolinealidad Source SS df MS Model Residual 3.249 0.1 2931.030840 0.411 0.9 395228.216 10.42 = 0.1 74204.607 44173.20 5. *4.849 1509886 8.017718 0.2451e+18 pbi_mineria Coef.594 7308.35 3. * 2.029472 0. Factor de inflaci´ on de la varianza.84 Number of obs F( 8. cor pbi_mineria pbi_mundial cobre plomo zinc oro plata hierro estanho (obs=31) . Err. Matriz de correlaci´ on .943 13858.26 39. *graph matrix pbi_mineria pbi_mundial cobre plomo zinc oro plata hierro estanho.5 206091.000 0.35e+08 7.24 33. *Detecci´ on de Multicolinealidad .05 or less.2e+07 [95 % Conf.21 5.94e+07 .51 1865413 9. or a tolerance (1/VIF) is .35e-06 93145. .

7134 0. Farrar-Glauber Multicollinearity Tests .9761 0.000 23.9480 0.000 7.000 23.157 39.0000 0.000 7.0000 * (2) Farrar-Glauber Multicollinearity F-Test: Variable F_Test DF1 DF2 P_Value pbi_mund~l cobre plomo zinc oro plata hierro estanho 103.7276 P-Value > Chi2(28) 0. fgtest pbi_mineria pbi_mundial cobre plomo zinc oro plata hierro estanho ====================================================================== * Farrar-Glauber Multicollinearity Tests ====================================================================== Ho: No Multicollinearity .9758 0.9688 0.686 128.9150 0.9652 0.8633 0.191 6.000 23.6159 0.988 125.000 23.199 23.000 7.9528 0.8297 .657 105.000 7.9710 0.009 0.9726 0.8771 0.9371 0.Ha: Multicollinearity * (1) Farrar-Glauber Multicollinearity Chi2-Test: Chi2 Test = 481.000 23.000 7.9278 0.9821 0. Multicolinealidad 217 pbi_mi~a pbi_mu~l pbi_mineria pbi_mundial cobre plomo zinc oro plata hierro estanho hierro estanho 1.5330 0.0000 0.000 23.000 7.0000 0.211 108.9166 1.253 182.10.0000 0.9114 hierro estanho 1.9118 0.9254 1.0000 0.8663 0.000 0.9086 0.000 0.000 0.0000 0.8231 1.9643 1.9773 0.4429 1.0000 0.000 7.000 0.9395 0.9468 0.0000 0.000 0.000 7. findit fgtest .9634 0.000 0.000 . *5to.6037 0.6369 0.000 23.8923 1.000 0.0000 cobre plomo zinc oro plata 1.4955 0.6374 0.

plomo 8. cobre 14.058 22.369 > cobre plomo zinc oro plata hierro est > > > > > > > 10.454 7. *Primer modelo alternativo .278 . . Otra posible soluci´on es quedarse con todas las variables regresoras siempre y cuando todas sean relevantes en el modelo.621 6.736 3.109 10.3.234 10.648 . zinc 17.694 18.123 8.218 10.951 11.317 17.749 3. estanho .759 8.882 2. reg pbi_mineria pbi_mundial plomo oro plata hierro estanho . Medidas Correctivas Dado que se ha demostrado la existencia de una alta correlaci´on entre las variables regresoras.736 10. ********************* .879 13.434 12.3. *´MEDIDAS CORRECTIVAS . a continuaci´on se plantea la eliminaci´on de aquellas que generan mayor colinealidad. plata 15.477 17.149 .962 .631 4.129 2.874 . Medidas Correctivas * (3) Farrar-Glauber Multicollinearity t-Test: Variable > a~o pbi_~l pbi_mu~l .021 3. 10. oro 14.205 . hierro 3.706 9.

035 0.30e+09 .13 -1.90 7.7 88553.7 14165.48 -3.000 0.67 6.0000239 3801183 256783.22e-06 873543.43e+08 Std.3 20719.23 2.014 0.23 10.46 = 0.20e+09 .087 0.2451e+18 pbi_mineria Coef.85 1. 7.5278e+17 5 25 7. 6. Interval] -1.0000 = 0.22e-06 580884.7 16440.031 0.27 4.29 7.000 0. pbi_mundial plomo oro plata hierro estanho _cons .10.41e-06 966177.9962 = 0. vif Variable VIF 1/VIF oro estanho pbi_mundial plata plomo hierro 34.2451e+18 pbi_mineria Coef.000 0.7353e+19 30 1.61 129225.22e+08 t 2.39 21.001 = 31 = 1043.000 0.2017e+18 5.9 3646814 -3.84 0.15 -1.80 Number of obs F( 6.002 [95 % Conf.16e+08 .7353e+19 30 1.53 P>|t| 0.9417e+15 Total 3.8 47881.50 27.1 12161.0000111 2002086 203657.80 5.83 -1.4401e+18 6.000 0.9959 = 0. Err.3 150532.15e+08 .092184 0. *Segundo modelo alternativo . Interval] 1.0000318 4569068 304944.203 0.6 123865.91 2077.63 -7.029179 0. reg pbi_mineria pbi_mundial Source SS plomo oro plata hierro df MS Model Residual 3.63e+07 -1.84 .02 2.54 2686.85e+08 Number of obs F( 5.603 19748.7210e+19 1.7 25794.7e+07 [95 % Conf.9952 = 7.4 162975 8620. 24) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.8 82592.036511 0.1 34393.4 -3. pbi_mundial plomo oro plata hierro _cons .544023 Mean VIF 20.77 = 0.568 19997.997 41319. Multicolinealidad Source 219 SS df MS Model Residual 3.54 -6321754 -8.0000165 2574976 233959.60e+08 Std. vif Variable VIF 1/VIF t 1.9951 = 7.7200e+19 1. *Conclusion: Todavia el vif es alto .4260e+17 6 24 6.047114 0.033903 0. 25) Prob > F R-squared Adj R-squared Root MSE = 31 = 1217.1111e+15 Total 3.27 29.8e+07 .74e-06 202989.78 2. Err.000 0.91 4.5 19710.0000 = 0.31 -3.78 4829970 2.

dependiente).115988 0.6 1448056 2.16 Number of obs F( 3. Las variables incluidas son: OUTPUT : VBP Agropecuario (var.4.74 0.68e-06 11649.80 = 0. .19 .04e-06 223227. vif Variable VIF 1/VIF pbi_mundial cobre oro 16.33 7.4.220 10. Ejercicio Propuesto En el archivo vbpagr.81 9.16 19.98 9.dta se tiene de la agricultura para los a˜ nos 1948 y 1988. *Tercer modelo alternativo .067 0. MACH : cantidad de horas m´aquina utilizadas y SEEDFEED: Cantidad de semillas y ganados.9e+07 [95 % Conf.9981 = 4.7353e+19 30 1.74 12.91 19.9983 = 0. 3. pbi_mundial oro cobre _cons 7. FERT : Cantidad de fertilizantes utilizados.43e+07 t 1.081027 0.000 0.36e+08 .059499 0.2430e+19 2. si esta existe corregirla de la mejor manera.573784 Mean VIF 12.31e+08 . reg pbi_mineria pbi_mundial Source SS oro cobre df MS Model Residual 3.7289e+19 6. es menor a 20 10. Se le pide estimar por MCO una funci´on de producci´on tipo Cobb-Douglas y evaluar la presencia de multicolinealidad. Ejercicio Propuesto pbi_mundial oro plata plomo hierro 18.83e+08 Std.4565e+16 3 27 1.2451e+18 pbi_mineria Coef.3 1622987 3.053354 0.000 0.34 8.053286 0.77 0.04 5. LAND: cantidad de acres cultivados.62 1. LABOR: Horas de trabajo utilizados. Err.000 = 31 = 5197. 27) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.102362 Mean VIF 12. Interval] -5.77 18.17e-07 199324. *Conclusion: Todavia el vif es alto .0000146 247130 1797919 5.3913e+15 Total 3.0000 = 0.100194 0.44 85256. *Conclusion: El vif es aceptable.04 .

Parte III Modelos de Elecci´ on Discreta 221 .

.

Variables Dicot´ omicas o Binarias: • Estudiar en una instituci´on p´ ublica vs privada • Decisi´on de trabajar de una mujer casada (si o no) 223 . En este cap´ıtulo se tratar´a modelos de regresi´on en los cuales la variable dependiente o de respuesta puede ser una variable categ´orica.Cap´ıtulo 11 Modelo de Elecci´ on Discreta Binaria Usualmente un modelo de regresi´on se supuso impl´ıcitamente que inclu´ıa una variable dependiente (Y ) num´erica y un conjunto de variables explicativas (X 0 s) que pueden ser num´ericas o discretas (variables dummies). 11. esto se da en los casos en el que el prop´osito es explicar o predecir la probabilidad que n-individuos elija alguna de las alternativas que pueda representar dicha variable end´ogena y encontrar la probabilidad de que un acontecimiento suceda. Tipos de Variables de Elecci´ on Discreta En general la variable end´ogena categ´orica puede agruparse en dicot´omicas (si tiene dos alternativas: si o no.1. uno u otro) o en policot´omicas (si tiene m´as de dos alternativas).

etc. buena salud. Alternativas M´ ultiples Ordenadas: • Estado de salud de un individuo (muy pobre salud. muy buena salud). nacional). 5000. etc. Es-salud. Modelos de Elecci´ on Discreta para Variables Dicot´ omicas 11.2.2. etc. 5. bus. secundaria. etc.) • Decisi´on de d´onde se atiende un paciente (Ministerio de Salud. etc. Alternativas M´ ultiples Secuenciales: • N´ umero de choques en Lima • N´ umero de casos con resultado positivo. Variables Policot´ omicas o Multiples: • Alternativas m´ ultiples no ordenadas: • Decisi´on de utilizar alg´ un medio de transporte (avi´on. provincial. el modelo de probabilidad lineal (MPL) se plantea como un modelo de regresi´on cl´asico.000 o m´as).2. privado). departamental. universitaria) • Nivel de clasificaci´on (local. 1000. Modelos de Elecci´on Discreta para Variables Dicot´omicas • Resultado de un examen (aprobado o desaprobado) • Decisi´on de acudir al m´edico (va o no va). de S/. etc. auto. es decir: . • Pertenecer a un Nivel de Ingresos (menos de S/.224 11.1. 11. de S/. Alternativas M´ ultiples Secuenciales: • Nivel de educaci´on alcanzado (primaria. Modelo Lineal de Probabilidad (MLP) Considerando que la probabilidad no se observa. 1000 a menos de S/.

y Xi es el vector fila que representa las k-variables explicativas. tales como: El efecto impacto de un cambio en una variable regresora Xi en la probabilidad es una constante igual a β. Por lo tanto. esto es: F (Yi ) = P Yi (1 − P )Yi (11. Los valores predichos para la probabilidad Pi no est´a restringido al rango 0 y 1.2) El efecto impacto de la variable Xi .11.1) Donde la variable dependiente Yi puede tomar valores 0 o 1. esto le quita realismo pues las probabilidades deben ser siempre positivas y permanecer en el rango 0. si Xi es una variable dummy (0. Yi tendr´a una funci´on de distribuci´on (cdf) tipo Bernoulli.4) Si se utiliza m´ınimos cuadrados ordinarios (MCO) para estimar los par´ametros del modelo lineal de probabilidad se tiene algunos problemas. sobre la probabilidad que Yi = 1 si Xi es una variable num´erica el efecto impacto se calcula como: βi = ∂P (Yi = 1kXi ) ∂Xi (11. 1. 1) el efecto impacto se calcula como: βi = P (Yi = 1kXi = 1) − P (Yi = 1kXi = 0) (11.3) Por otro lado. cualquiera sea el valor de Xi . . Modelo de Elecci´on Discreta Binaria Yi = Xi β + µi 225 (11.

si se supone que los errores tienen una funci´on de distribuci´on log´ıstica. Por ejemplo. Por consiguiente.2.5) Adicionalmente. este no cumplimiento de normalidad quiz´a no sea tan cr´ıtico ya que a medida que el tama˜ no de muestra aumenta indefinidamente. la inferencia estad´ıstica MLP seguir´a el procedimiento MCO usual bajo el supuesto de normalidad. exp(Xi β) exp(Xi β) ∂P (Yi = 1)kXi = kXi = 1 − kXi = 0 ∂Xi 1 + exp(Xi β) 1 + exp(Xi β) (11.2. la funci´on de distribuci´on que est´a asociada es una Bernoulli. para el caso de un individuo representativo el efecto marginal de Xi es: ∂P (Yi = 1)kXi = Pi (1 − Pi )β ∂Xi (11. Modelos de Elecci´on Discreta para Variables Dicot´omicas Los errores no se distribuyen normalmente. 11.6) Si la variable Xi es categ´orica. Sin embargo. Dado que Yi s´olo puede tomar los valores 0 ´o 1. si la variable explicativa Xi es num´erica el efecto impacto se obtiene como la derivada de la probabilidad que Yi = 1 dado un cambio unitario en la variable explicativa. el resto de variables explicativas debe tomar su valor promedio. el cual tiene la siguiente especificaci´on: log( Pi ) = Xi β 1 − Pi (11. Para el caso de un individuo representativo. una variable dummy que toma valores 0 ´o 1.7) . los estimadores MCO tienden a ser normalmente distribuidos. esto es. esto es. el efecto marginal se obtiene como la diferencia entre la probabilidad que Yi = 1 dado que Xi = 1 y la probabilidad que Yi = 1 dado que Xi = 0. en muestras grandes. . Xi . sino siguen la distribuci´on Bernoulli.2. Modelo Logistico (Logit) La expresi´on anterior se puede estimar de otra forma.226 11.

8) −∞ donde:φ(z) = 2 √1 exp(− z ).2. 2 2π Siendo Φ(Xi β) la funci´on de distribuci´on o acumulativa (cdf).3. Amemiya (1981) demostr´o que los coeficientes de los modelos MLP.2. si la variable explicativa Xi es num´erica el efecto impacto es: ∂P (Yi = 1)kXi ) = φ(Xi β)β ∂Xi (11. la principal diferencia es que la distribuci´on log´ıstica tiene extremos m´as anchos.10) Relaciones entre Modelos Logit y Probit Si bien los modelos son muy semejantes. Modelo de Elecci´on Discreta Binaria 11. el efecto marginal es: ∂P (Yi = 1)kXi = Φ(Xi β)kXi = 1 − Φ(Xi β)kXi = 0 ∂Xi 11. 227 Modelo Probabil´ıstico (Probit) El modelo supone que los errores siguen una funci´on de densidad normal est´andar.11.9) Si la variable Xi es una variable dummy que toma valores 0 ´o 1.4. con Φ−1 (Pi ) = Xi β y φ(zi ) funci´on de densidad de probabilidad normal est´andar (pdf). (11. Igual que el modelo anterior. de modo que la funci´on de probabilidad es: Z Xi β Pi = Φ(Xi β) = φ(z)dz (11. logit y Probit est´an relacionados de la siguiente manera: .). φ(. lo cual significa que la probabilidad condicional Pi se aproxima a cero o a uno a una tasa menor en el modelo logit en comparaci´on con el probit.

REGRES Si piensan volver.25βLOGIT + 0. para la intersecci´on. Damaso Beraum. Se realiz´o una encuesta a los visitantes del Parque Nacional Tingo Mar´ıa. 1al 5 NVISIT N´ umero de visitas realizadas. Modelos de Elecci´on Discreta para Variables Dicot´omicas βM LP = 0. Aplicaci´ on El Parque Nacional de Tingo Mar´ıa se encuentra situado en los Distritos de Rupa Rupa.5. excepto para la intersecci´on. dispuesto a pagar la cantidad S/.25βLOGIT . la caza ilegal de especies y la deforestaci´on est´an destruyendo el ecosistema del Parque Nacional y su belleza paisaj´ıstica. 1 al 10 LUGVIS Exclusividad de la visita. βM LP = 0.csv IMPOR Importancia de las caracter´ısticas del a´rea.625βLOGIT . Lista de Variables del archivo: logit probit. 10 adicionales a la tarifa de ingreso para proteger y conservar el entorno natural y evitar los da˜ nos ambientales al ´area? SI / NO.2. . ¿Cu´anto es la Disposici´on de Pagar (adicional a la tarifa de entrada) de los visitantes para invertir en protecci´on y conservaci´on de dicho atractivo tur´ıstico?. ¿Estar´ıa Ud. 2. el cultivo de la hoja de coca. Departamento de Hu´anuco.228 11. βP ROBIT = 0. Si 1 No 0 DAP1 X cuanto pagar´ıa para proteger y conservar el entorno y evitar los da˜ nos ambientales (Variable num´erica). La agricultura. Teniendo informaci´on de 92 encuestados se plantea las siguientes preguntas: 1. Si 1 No 0 PROTEC Si la cueva est´a bien protegida. particularmente a la Cueva de las Lechuzas (atractivo tur´ıstico y u ´nico lugar del pa´ıs que sirve como h´abitat natural a las colonias de lechuzas que est´an en peligros de extinci´on). excepto para la intersecci´on.

reg dap1_x import lugvis nvisit regres protec edad gener hijos tiempo gasto Source SS df MS Number of obs = 92 F( 10. Modelo de Elecci´on Discreta Binaria 229 RDAP1 pagar´ıa la cantidad de S/. GASTO Gasto. En este caso la variable dependiente seria dap1 x y las variables explicadas anteriores serian las variables regresoras: .6794405 10 8.0414 Total 1214. clear . TIEMPO Tiempo.64 Model 88.7772 Residual 1126. *Estimaci´ on en Minimos Cuadrados Ordinarios (MCO) . GENER G´enero 1 HOMBRE 2 MUJER.86794405 Prob > F = 0.9018373 R-squared = 0. HIJOS N´ umero de hijos. browse Una vez importada la base de datos. 10 para proteger y conservar el entorno natural y evitar los da˜ nos ambientales al ´area? SI / NO (Variable dicot´omica) EDAD Edad.7285 . ********************************* .dta) . *Importar un archivo en Execel al Stata(.11. Estimaci´ on en Minimos Cuadrados Ordinarios (MCO) Importaci´on de la base de datos (Excel a Stata) . . 81) = 0.0730 Adj R-squared = -0. insheet using logit_probit.3486622 Root MSE = 3.04882 81 13. se quiere determinar la Disposici´on de Pagar de los de los visitantes para invertir en protecci´on y conservaci´on de dicho atractivo tur´ıstico. *Limpiando la memoria . *TEMA: ELECCION DISCRETA BINARIA* . ********************************* . cd "D:\Econometria-Stata\eleccion-discreta-binaria" D:\Econometria-Stata\eleccion-discreta-binaria . *DEFINO LA RUTA .72826 91 13. *Visualizar la data . *************************************************. . 92 obs) .csv (13 vars.

459 0. Por ejemplo? Prop´osito principal de la visita.74 -0.23 0. grado de instrucci´on.093 0.759 0.70 1.6207085 -.95 P>|t| 0.677717 2.628578 -1. Err.6489333 -.230 11. En todos los casos.482 0.392472 -. *Calculo de la Disposici´ on a Pagar en MCO: . Lo anterior.1751215 .5128287 2. caso contrario el efecto es inverso. egen mda1_x=median(dap1_x) .7264512 . En este caso el DAP es 7 soles.222 0.01271 . ocupaci´on. forma de pago. Modelos de Elecci´on Discreta para Variables Dicot´omicas dap1_x Coef.6286121 2.37 -0.46445 Calculo de la Disposici´on a Pagar en MCO: .0034759 15.055 [95 % Conf.2. . br mda1_x La media de la disposici´on a Pagar – indica cuanto pagar´ıa adicional los visitantes para invertir en protecci´on y conservaci´on de dicho atractivo tur´ıstico.069619 .2451664 -. Un valor 0.0676344 .281448 1. import lugvis nvisit regres protec edad gener hijos tiempo gasto _cons .3205851 -.033642 . Por ejemplo comprobar que el siguiente modelo es mejor que el estimado anteriormente: .16 0.876 0. o al hecho de haber omitido variables importantes que pueden explicar mejor la realidad.1592004 .13 1.07 indica que el modelo explica la realidad apenas en un 7 %.7140249 .47543 .173774 -1.0809495 . El R2 cuadrado Indica la bondad del modelo dise˜ nado. ruta. medio de transporte.7717522 -1.0786056 . Interval] -.46 -0.669448 -. Hay que analizar los signos de los coeficientes betas.006727 -5.088766 .1960699 .31 -1.711 0.0016019 7. si el signo es positivo entonces la variable afecta positivamente la DAP.262 0.8609684 .0009418 3.366 0. residencia.221372 .1483541 2.71 0. hace referencia quiz´as a plantear otro modelo o eliminar algunas variables que posiblemente est´en correlacionadas.8346738 . entonces los coeficientes estimados (individualmente) son no significativos. etc. El valor bajo se puede deber a pocas observaciones (pocas encuestas). estado civil.644663 Std.91 -0.0002721 -.647 0.087338 .2240379 -.1890576 -1.120689 -.04003 -1.4109541 2.93016 t 1. El coeficiente en si es el tama˜ no o magnitud de impacto de la variable independiente sobre la DAP. las probabilidades son mayores al 5 %. ´epoca de la visita.

26 Number of obs F( 4. se procede a eliminar aquellas que fueron altamente no significativas.67 0. Logit y Probit) . nocons Source SS df MS Model Residual 33. 88) Prob > F R-squared Adj R-squared Root MSE = = = = = = 92 41. ******************************* .0000 0.4315095 Std. *Para evitar problemas de heteroscedasticidad .07 1. *Modelo de Probabilidad Lineal* .001 0.71743 14.0103356 .7940 3. 10 adicionales para proteger y conservar el entorno natural y evitar los da˜ nos ambientales en el lugar tur´ıstico? SI / NO).138017 . que se pueden incluir todas las variables explicativas o solo algunas. Sin embargo.0462791 . nocons robust -.60 Number of obs F( 4.1684933 . .057 0.86971 1244. Es importante tener en cuenta. .52 0.004024 . ******************************* .000 = = = = = = 92 89.13029 4 88 1267.007 0. reg dap1_x rdap1 edad tiempo regres .6536 0.204661783 Total 52 92 .12855 . Err.286062 Std.041 0.008 0.0037452 . nocons Source SS df MS Model Residual 5070. Interval] -4.6379 .1811087 8.0164741 . Err.796118 . dap1_x edad tiempo regres -.72 3.93 6. 88) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.35 2. rdap1 edad tiempo regres -2.0028927 .6945257 .0028311 4.8030 0.002 -. reg rdap1 dap1_x edad tiempo regres .8343532 . la variable dependiente seria RDAP1 (pagar´ıa la cantidad de S/.76 2. reg rdap1 dap1_x edad tiempo regres .49744077 .0891388 6.178841 Estimaci´ on de Modelos Probabilisticos (MLP. .001 0.1378442 Total 6315 92 68.0257203 .0316849 . ************************************************************ . En nuestro caso.0054588 .76 [95 % Conf. *Estimaci´ on de Modelos Probabilisticos (MLP.4524 P>|t| [95 % Conf. Modelo de Elecci´on Discreta Binaria 231 .0177784 .9524425 t -3.1323492 t -3. la variable dependiente es una dicot´omica: SI y NO.0148721 .0000 0. *Modelo Alternativo .11. Interval] 0.0404771 .565217391 rdap1 Coef.35 2.6413043 dap1_x Coef.06448 .0120782 .45422 .065583 .9897631 18.0102369 4 88 8.393282 -1. Logit y Probit) Hay que recordar que para este tipo de modelos de regresi´on.0026159 -.

4524 [95 % Conf.0102369 4 88 8.001 0. predict xb.48 3.6379 .565217391 rdap1 Coef. fitted values) .0233692 . *Estimando la probabilidad individual para MPL . 88) Prob > F R-squared Adj R-squared Root MSE P>|t| = = = = = = 92 41. xb .4315095 Robust Std.04 P>|t| 92 67. Std. *Vista gr´ afica: .142156 t -3. symbol(+ o) /// jitter(2) l1title("Linear prediction & actual outcome") .6536 . scatter rdap1 yhat xb. nocons Source SS df MS Model Residual 33.0169629 .0103356 .79 3.49744077 .1490044 -.42 2.0148721 .0042757 . t Number of obs F( 4.4524 [95 % Conf. Modelos de Elecci´on Discreta para Variables Dicot´omicas Linear regression Number of obs = F( 4.0029692 .0000 0.006 0.003 -.7140146 .0118323 .6536 0.2. . 88) = Prob > F = R-squared = Root MSE = rdap1 Coef.0000 0.017702 .001 0. Err.52 0.0037068 . predict yhat (option xb assumed. Interval] 0. reg rdap1 dap1_x edad tiempo regres .9897631 18.29 0.0639913 .232 11. Err.0063751 . dap1_x edad tiempo regres -.0404771 .204661783 Total 52 92 . Interval] . label var xb "xb (index)" .

************** .78 0.1684933 -. dap1_x edad tiempo regres -. label var xbb "xblogit (index)" . scatter rdap1 yhatt xbb. Modelo de Elecci´on Discreta Binaria dap1_x edad tiempo regres -.0345736 .0771123 .686026 Iteration 2: log likelihood = -51.0257203 .84 P>|z| 0.0103356 .1323492 233 -3.35 2.5405781 Std.0727405 . . predict xbb.62851 Iteration 4: log likelihood = -51.11.398 .26 0. *Modelo Logit* . nocons Iteration 0: log likelihood = -63. Interval] -.008 0.002 -. ************** .004024 .62851 Logistic regression Log likelihood = Number of obs Wald chi2(4) Prob > chi2 -51.23 0.0404771 .0054588 .0120782 .116 0.0093492 -. Pr(rdap1)) . *Vista gr´ afica: . logit rdap1 dap1_x edad tiempo regres .57 2.0323642 .026 0.72 3. .76 2.007 0. symbol(+ o) jitter(2) /// l1title("Logit & actual outcome") = = = 92 16.6398627 z -3.7135297 -. xb .0148721 .0685435 .6945257 .4315095 .0037452 .1448753 1.2451406 .0028927 .794686 .628551 Iteration 3: log likelihood = -51.0021 [95 % Conf.06448 . predict rdap1mpl (option xb assumed.3794835 -.001 0. fitted values) .1107977 .0080121 .58 1.0177784 .0164741 . predict yhatt (option pr assumed.000 0. Err.0206005 .62851 rdap1 Coef.769541 Iteration 1: log likelihood = -51.

84 P>|z| 0.78 0.794686 .3794835 -.62851 Number of obs Wald chi2(4) Prob > chi2 -51.1448753 1.686026 = -51. *DAP promedio .0345736 .0771123 . .23 0.0080121 . .23 0. logit rdap1 dap1_x edad tiempo regres .1107977 .686026 = -51.62851 = -51.398 = = = 92 16.84 P>|z| 0.026 0.3794835 -. Modelos de Elecci´on Discreta para Variables Dicot´omicas .2451406 .5405781 Std. *DAP por persona encuestada .58 1. Err. Err. br dap_logit1 dap_logit2 . *Visualizar .58 1.0345736 . *C´ alculo de la DAP -.0093492 -.628551 = -51.794686 .Modelo Logit .62851 rdap1 Coef.6398627 z -3. logit rdap1 dap1_x edad tiempo regres . nocons Iteration 0: log likelihood Iteration 1: log likelihood Iteration 2: log likelihood Iteration 3: log likelihood Iteration 4: log likelihood Logistic regression Log likelihood = = -63.0080121 .0685435 .628551 = -51.769541 = -51.116 0.0093492 -.000 0.000 0. predict rdap1logit (option pr assumed. nocons Iteration 0: log likelihood Iteration 1: log likelihood Iteration 2: log likelihood Iteration 3: log likelihood Iteration 4: log likelihood Logistic regression Log likelihood = = -63.62851 Number of obs Wald chi2(4) Prob > chi2 -51.0206005 .0021 [95 % Conf.0323642 . Interval] -.0771123 .5405781 Std.1107977 . dap1_x edad tiempo regres -.026 0.1448753 1.116 0.0206005 .2.2451406 .0685435 .7135297 -. dap1_x edad tiempo regres -.0727405 .57 2.0323642 .62851 = -51.62851 rdap1 Coef. gen dap_logit1= -(_b[edad]*edad+_b[tiempo]*tiempo+_b[regres]*regres)/_b[dap1_x] . Interval] -.0727405 . *Estimando la probabilidad individual para el modelo Logit . Pr(rdap1)) .57 2. *************** .0021 [95 % Conf. *************** .7135297 -. *Modelo Probit* .78 0.6398627 z -3. egen dap_logit2= median(-(_b[edad]*edad+_b[tiempo]*tiempo+_b[regres]*regres)/_b[dap1_x]) .234 11.769541 = -51.398 = = = 92 16.

0392988 .2243541 -.379 92 19.3453639 Std.88 P>|z| 0.571295 Number of obs Wald chi2(4) Prob > chi2 Log likelihood = -51. *Vista gr´ afica: .045675 . label var xbbb "xbprobit (index)" .0044606 . predict xbbb.0703058 . nocons Iteration 0: log Iteration 1: log Iteration 2: log Iteration 3: log Iteration 4: log Probit regression likelihood likelihood likelihood likelihood likelihood = = = = = -63.713968 -51. symbol(+ o) /// jitter(2) l1title("Probit & actual outcome") . scatter rdap1 yhattt xbbb.000 0.0007 [95 % Conf. nocons = = = -. predict yhattt (option pr assumed. Interval] -. .571295 rdap1 Coef. dap1_x edad tiempo regres -.0068743 -.4248045 .29 0.769541 -51.0122553 .571295 -51. Pr(rdap1)) .110 0. *Estimando la probabilidad individual para el modelo Probit .31 0. xb .3929503 z -3.0197966 .571368 -51.60 2.021 0. probit rdap1 dap1_x edad tiempo regres . probit rdap1 dap1_x edad tiempo regres .0435795 .0844757 1.0195594 .75 1.1473299 . Modelo de Elecci´on Discreta Binaria 235 .115532 . Err.11.

.75 1.0044606 .2. twoway (scatter xbb yhatt) (scatter xbbb yhattt) . Probit): Vista gr´ afica .0435795 .571368 -51.0044606 .000 0. *DAP promedio .31 0.60 2.0007 [95 % Conf.713968 -51.0007 [95 % Conf.571368 -51.0195594 . Err. probit rdap1 dap1_x edad tiempo regres . dap1_x edad tiempo regres -.Modelo Probit .3453639 Std.4248045 -.1473299 .571295 Number of obs Wald chi2(4) Prob > chi2 Log likelihood = -51.0122553 . Err.2243541 -. gen dap_probit1= -(_b[edad]*edad+_b[tiempo]*tiempo+_b[regres]*regres)/_b[dap1_x] .045675 .31 0.3929503 z -3.571295 rdap1 Coef. Modelos de Elecci´on Discreta para Variables Dicot´omicas Iteration 0: log Iteration 1: log Iteration 2: log Iteration 3: log Iteration 4: log Probit regression likelihood likelihood likelihood likelihood likelihood = = = = = -63. egen dap_probit2= median(-(_b[edad]*edad+_b[tiempo]*tiempo+_b[regres]*regres)/_b[dap1_x]) .0703058 .713968 -51.0392988 .115532 . Interval] -. nocons Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: log log log log log likelihood likelihood likelihood likelihood likelihood = = = = = -63. predict rdap1probit (option pr assumed. *C´ alculo de la DAP -. Interval] -.000 0. dap1_x edad tiempo regres -.571295 -51. br dap_probit1 dap_probit2 .0195594 .571295 rdap1 Coef.29 0.571295 -51.110 0.379 = = = 92 19.0844757 1.0197966 .0068743 -.88 P>|z| 0.571295 Probit regression Number of obs Wald chi2(4) Prob > chi2 Log likelihood = -51.75 1.379 = = = 92 19.110 0.115532 .60 2.0068743 -.1473299 .0392988 .29 0.2243541 -.0844757 1.3453639 Std. .0197966 .769541 -51.3929503 z -3.0703058 . *Comparaciones dos ´ ultimos modelos (Logit vs.236 11. *visualizar . Pr(rdap1)) .021 0.0122553 .769541 -51.88 P>|z| 0.4248045 -.0435795 .021 0. *DAP por persona encuestada .045675 .

88) Prob > F R-squared Adj R-squared = = = = = 92 41.2426241 .7992527 6.6052126 . 9. reg rdap1 dap1_x edad tiempo regres .6757985 .6536 0.4653244 .6003659 .8023702 .52 0. 3. 7.066361 . ************************* . nocons Source Model Residual SS 33. list rdap1mpl rdap1logit rdap1probit in 1/10 rdap1mpl rdap1l~t rdap1p~t 1.4332702 .4816584 . 8.3908928 .9438509 .9055933 .9162604 .0000 0.11. 5.49744077 . 10.6379 .6130841 .0102369 df 4 88 MS 8.6779036 .3994535 .699643 . . *Efectos Marginales (MFX) .9534355 Efecto Impacto de las variables explicativas en cada uno de los tres modelos anteriores . 15 adicionales para proteger y conservar el entorno natural y evitar los da˜ nos ambientales al ´area .7161391 1.204661783 Number of obs F( 4.9075889 .3634279 .2698136 .4731561 .4998367 . *Modelo de probabilidad lineal . .4454062 .9897631 18.3762003 . 4. Modelo de Elecci´on Discreta Binaria 237 Pron´ostico (probabilidad individual)de que los visitantes paguen la cantidad de S/. 2.4094213 .2515068 .7017308 .

956522 .06448 . Interval] 0.78 0.15849 z -3.176899 ] -.02681 .72 3.3794835 -.0028927 .399 -.006 0.0404771 .0054588 .0148721 .0206005 .44565 28.01208 .58 2.002 -.017676 .004173 .6945257 .769541 = -51.55576647 variable dap1_x edad tiempo regres* dy/dx Std.9891 9.026 0.57 2.004024 .62851 rdap1 Coef.0037452 .17211 .35 2.956522 (*) dy/dx is for discrete change of dummy variable from 0 to 1 .0177784 .000 0. dap1_x edad tiempo regres -.4315095 .444375 (*) dy/dx is for discrete change of dummy variable from 0 to 1 X 7. Err.0078048 . mfx Marginal effects after logit y = Pr(rdap1) (predict) = .06415 -. logit rdap1 dap1_x edad tiempo regres .0103356 . 0.025571 .016804 .73478 . nocons Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: log log log log log likelihood likelihood likelihood likelihood likelihood = -63.84 P>|z| [ 95 % C.00493 .0120782 .238 11. ] -.5405781 .690909 X 7.398 = = = 92 16.7135297 -. Err.0727405 .26 P>|z| [ 0.0164741 .0771123 .26 0.58 1.I.0080121 .26 Root MSE = .72 3.0257203 .034721 .9891 9. Err.006 0. -.0021 [95 % Conf.00823 . Err.2451406 .I.0323642 .1337379 Std. .116 0.002995 .024 0.1323492 t -3.2.4315095 92 .00185 .0103356 .113 0.0404771 .76 2. .0591169 .59404788 variable dap1_x edad tiempo regres* dy/dx -.6398627 z P>|z| -3.13235 z -3. *Modelo Logit .001 0.0093492 -.59 1.1107977 .794686 .565217391 Std.001 0.00546 .0345736 .62851 = -51.0148721 . dap1_x edad tiempo regres -. Modelos de Elecci´on Discreta para Variables Dicot´omicas Total 52 rdap1 Coef.4524 P>|t| [95 % Conf.007 0.628551 = -51. Interval] -.35 2.1684933 -.76 2.001 95 % C.01746 .000 0.008 0.091424 -.002471 -.73478 .686026 = -51.1448753 1.62851 Logistic regression Log likelihood = Number of obs Wald chi2(4) Prob > chi2 -51. mfx Marginal effects after regress y = Fitted values (predict) = .01648 .84 0.00375 .018596 .0685435 .23 0. Std.44565 28.

si se incrementa el pago de la DAP (DAP1 X ) y as´ı tener m´as recaudaci´on para evitar los da˜ nos ambientales disminuye la probabibilidad de que los visitantes paguen 10 soles.380 -.0195594 .00759 .11.571295 -51.000 0. *Modelo Probit .0435795 .016797 .3929503 z P>|z| -3.44565 28.61 2.956522 (*) dy/dx is for discrete change of dummy variable from 0 to 1 Las variables sombreadas de amarillo representan el efecto impacto de cada variable explicativa para un modelo Probit.115532 . Err.1473299 .0007 [95 % Conf.0176828 . nocons Iteration 0: log Iteration 1: log Iteration 2: log Iteration 3: log Iteration 4: log Probit regression likelihood likelihood likelihood likelihood likelihood = = = = = -63.571295 Number of obs Wald chi2(4) Prob > chi2 Log likelihood = -51.88 0.59678259 variable dap1_x edad tiempo regres* dy/dx -.15559 z -3.0197966 .31 0.021 0.002806 .75 1.33 0.441534 X 7.60 2.1365816 Std. aumentan la probabilidad de que dicha persona pague 10 soles adicionales en 13.000 0.3453639 .77 1.4248045 -.88 P>|z| [ 95 % C.001653 .0392988 . mfx Marginal effects after probit y = Pr(rdap1) (predict) = . 13. .571368 -51. Interval] -.0044606 . .15 % para un modelo MPL. el tiempo y si piensa volver los individuos (visitantes).73478 . ] 0.0122553 .0075723 .29 0.0570379 .37 % para un modelo logit y 43.108 0. Err.0068743 -.I.00471 .168371 .713968 -51. dap1_x edad tiempo regres -.379 = = = 92 19.01511 .086662 -.020 0.027414 -. aumentan la probabilidad de que dicho individuo est´e dispuesto a pagar 10 soles.2243541 -.0844757 1. Std.65 % para un modelo probit. Si los visitantes desean volver.0703058 .571295 rdap1 Coef. Conclusiones: La edad.110 0.045675 . Modelo de Elecci´on Discreta Binaria 239 . Por otro lado. probit rdap1 dap1_x edad tiempo regres .9891 9.03256 -.769541 -51.

0771123 .1826 El pseudo R2 de McFadden del modelo Probit es ligeramente superior al del modelo Logit. . .628551 Iteration 3: log likelihood = -51. estat classification Logistic model for rdap1 True Classified D ~D Total + - 40 12 15 25 55 37 Total 52 40 92 Classified + if predicted Pr(D) >= .000 0.58 1.116 0. se dan los siguientes resultados: McFadden R-squared Logit 0.0345736 .398 .23 0.1820 McFadden R-squared Probit 0.0323642 .84 0. dap1_x edad tiempo regres -. Clasificaci´ on Para determinar si el modelo predice correctamente la probabilidad de la variable dependiente realizamos la prueba de clasificaci´on.0080121 .85 % para un modelo logit. ************** .2.686026 Iteration 2: log likelihood = -51. logit rdap1 dap1_x edad tiempo regres. Modelos de Elecci´on Discreta para Variables Dicot´omicas El tiempo que se demoran en llegar a dicha a´rea aumentan la probabilidad de que dicha persona pague los 10 soles adicionales en 1.5 True D defined as rdap1 != 0 = = = 92 16.57 2.5405781 Std.62851 rdap1 Coef.1448753 1.2451406 .62851 Iteration 4: log likelihood = -51.769541 Iteration 1: log likelihood = -51.76 % para un modelo probit y 1.7135297 -.026 0.0021 [95 % Conf.794686 .62851 Logistic regression Log likelihood = -51. Err.0093492 -. Interval] -. Con respecto a los resultados del SeudoR2 de los modelos logit y probit. *Clasificaci´ on .240 11. nocons Iteration 0: log likelihood = -63.0727405 .0685435 .6398627 z Number of obs Wald chi2(4) Prob > chi2 P>|z| -3.1107977 .0206005 .3794835 -.78 0.

021 0.2243541 -.5 True D defined as rdap1 != 0 92 Sensitivity Specificity Positive predictive value Negative predictive value Pr( +| D) Pr( -|~D) Pr( D| +) Pr(~D| -) 76.50 % 23.000 0. Modelo de Elecci´on Discreta Binaria 241 Sensitivity Specificity Positive predictive value Negative predictive value Pr( +| D) Pr( -|~D) Pr( D| +) Pr(~D| -) 76.08 % 27.31 0.73 % 67.65 % La prueba relaciona probabilidad estimadas contra probabilidad observadas aprox. dap1_x edad tiempo regres -.92 % 62.571295 Number of obs Wald chi2(4) Prob > chi2 Log likelihood = -51.0197966 .115532 .92 % 62.571295 rdap1 Coef.3929503 z P>|z| -3.27 % 32.08 % 27.29 0.571295 -51.110 0.27 % 32.1473299 .0844757 1.50 % 23.713968 -51.50 % 72.43 % + + - rate rate rate rate for for for for true ~D true D classified + classified - Correctly classified 70.60 2. .57 % False False False False Pr( +|~D) Pr( -| D) Pr(~D| +) Pr( D| -) 37.57 % False False False False Pr( +|~D) Pr( -| D) Pr(~D| +) Pr( D| -) 37.0392988 .0044606 .0703058 .65 % .0068743 -.50 % 72. probit rdap1 dap1_x edad tiempo regres.0435795 . estat classification Probit model for rdap1 True Classified D ~D Total + - 40 12 15 25 55 37 Total 52 40 Classified + if predicted Pr(D) >= .4248045 -.nocons Iteration 0: log Iteration 1: log Iteration 2: log Iteration 3: log Iteration 4: log Probit regression likelihood likelihood likelihood likelihood likelihood = = = = = -63. 71 % de las probabilidades estimadas coinciden con las observadas .0195594 .045675 . Interval] -.75 1.769541 -51.88 0.43 % + + - rate rate rate rate for for for for true ~D true D classified + classified - Correctly classified 70.571368 -51.0122553 .379 = = = 92 19.73 % 67.0007 [95 % Conf. Err.11.3453639 Std.

3. Obtenga los siguientes estad sticos de bondad de ajuste: (i) tasa de predicci on.242 11. Que problemas puede generar el MPL con respecto a las predicciones de las probabilidades de pesca en bote alquilado para cada individuo? Corrija la matriz de varianzas y covarianzas del MPL construyendo las variables ((ponderadas)) Estime el modelo Logit. Obtenga los efecto impacto de los modelos MLP. los individuos eligen pescar en el muelle o pescar en un bote alquilado dependiendo del precio relativo de ambas opciones de pesca. las diferencias en accesibilidad. la variable lnrelp es el logaritmo del precio relativo de pesca en bote alquilado con respecto al precio de pesca en el muelle.3. Por otro lado. y Probit Que informacion brindan los parametros estimados?. De este modo se espera que la probabilidad de pescar en un bote alquilado disminuya mientras el precio relativo de esta opci on con respecto al precio de la pesca en el muelle se incremente. Interprete el coeficiente resultante. En este modelo. Los estadisticos deberan de ser calculados utilizando los datos proporcionados por las estimaciones y comandos de calculo en Stata. Usted observa que la variable dcharter toma el valor de 1 cuando el individuo ha elegido pescar desde un bote privado y toma el valor de 0 en caso que el individuo haya elegido pescar desde el muelle. . Ejercicio Propuesto 11. Interprete los resultados. El modelo de eleccion binaria puede escribirse de la siguiente manera: dcharteri = β0 + β1 lnrelpi + µi Estime el Modelo de Probabilidad Lineal (MPL). Interprete cada uno de los estadisticos resultantes. Logit y Probit. como por ejemplo. (ii) Pseudo R2 de McFadden y (iii) Prueba del Ratio de Verosimilitud.dta contiene informaci on de 630 individuos a cionados a la pesca en California del Sur para 1989 y fue utilizada por Herriges y Kling (1999) para explicar las preferencias de los individuos a partir de modelos de utilidad aleatoria. Ejercicio Propuesto La base de datos fishing. El precio de pescar en un bote alquilado o en el muelle varia entre individuos por varios factores.

Parte IV Econometr´ıa de Series de Tiempo 243 .

.

12. 245 . a diferencia de los conjuntos de datos de corte transversal. Es decir. muchas series tiempo exhiben el fen´omeno de autocorrelaci´on. En segundo lugar. as´ı que no hay necesidad de detenerme en las pruebas y demostraciones. existe un orden natural de las observaciones en un conjunto de datos a trav´es del tiempo. An´ alisis de Serie Temporal Univariado en STATA Como es de saber. En un principio nos centraremos en un An´alisis Univariado de datos que son observados en distintos puntos discretos del tiempo. y posteriormente se abarcar´a el an´alisis multivariado.1.Cap´ıtulo 12 Introducci´ on a Series de Tiempo en STATA En el presente cap´ıtulo nos centraremos en aplicar an´alisis de series temporales y la forma de hacerlo con Stata. Existen diversos libros que cubren la teor´ıa del an´alisis de series de tiempo. en este tipo de an´alisis el tiempo juega un papel.

el orden en que aparecen las observaciones en el conjunto de datos es significativa. y as´ı sucesivamente. Stata est´a dise˜ nado para trabajar con los datos que se recogieron en los puntos equidistantes en el tiempo. trimestrales datos econ´omicos. Todos los conjuntos de datos de series de tiempo debe tener una variable que identifica el per´ıodo en que se tom´o cada observaci´on. iii.246 12. La variable temporal representa el orden de clasificaci´on de los datos. A diferencia de los datos transversales. *Limpiando la memoria . y que a menudo trabajan con los cambios de per´ıodo a per´ıodo en las variables. *Abriendo la base de datos en formato Stata (. pero para que funcionen. El comando tsset se utiliza para identificar la variable temporal. cd "D:\Econometria-Stata\introducci´ on-serie-tiempo" D:\Econometria-Stata\introducci´ on-serie-tiempo . Stata cuenta con herramientas que hacen llegar los valores rezagados y las diferencias es f´acil. el cual representa el mes en que se observa el ´ındice.dta) . Stata debe saber la variable que representa el tiempo. Se ilustra mediante el uso de un conjunto de datos del ´Indice de Producto Bruto Interno a˜ no base 1994 (pbi ) y Consumo Privado (consumo) que se encuentra contienida en la base de datos indice pbi que abarca el periodo enero 1992 hasta mayo 2012. ii. *Incluyendo la ruta donde se encuentra el archivo . datos de ventas mensuales. clear .1. La variable t se numerar´a consecutivamente. Stata usa la variable de tiempo para identificar las lagunas y los datos que faltan en la serie. usted puede tener los datos semanales de inventarios. . o los datos anuales de la climatolog´ıa. An´alisis de Serie Temporal Univariado en STATA es decir. Stata a menudo necesita refierirse a un valor de una variable de un per´ıodo anterior a la ´epoca actual. el valor de una variable en el tiempo t est´a a menudo correlacionada con sus valores en los tiempos t-1. t + 1. Stata necesita esto por tres razones: i. Por ejemplo.

As´ı que. . el primer mes observado es Enero 1992. 10.clear . 4.9778 85. 5. Stata hace una nota de la variable temporal y ordena el conjunto de datos seg´ un dicha variable. el Stata puede mostrar los meses en vez de los valores gen´ericos de la variable t cuando se listen los datos. 9. * hacemnos una descripci´ on de la base . list in 1/10 t pbi 1.dta. y as´ı el Stata devuielve una serie cuyos valores se expresan en fecha mensual.0194 80.1733 6. a trav´es de la funci´on ym(). 1 2 3 4 5 85.4039 84. Introducci´on a Series de Tiempo en STATA 247 . 1 to 244 1 unit .653 83. 2. Si usamos describe al conjunto de datos.dta obs: 244 vars: 2 size: 3.174 81. *Establecemos la base de datos como serie temporal . si es necesario. 8.0g float %8.12.6815 80. describe Contains data from indice_pbi.416 (98. En la base de datos.0g t Cuando usamos el comando tsset. que toma como argumento el n´ umero de a˜ nos y el mes de inicio.8 % of memory free) variable name t pbi Sorted by: storage type display format value label 23 Jul 2012 10:40 variable label int %8.7191 . *listamos algunas observaciones de la base de datos . use indice_pbi.4272 87.9181 84. 6 7 8 9 10 87. se observar´a que est´a ordenada por t. tsset t time variable: delta: t. 3. 7.

Outliers. como por ejemplo la presencia de tendencia. Quiebres. .248 12. se puede apreciar una amrcada estacionalidad en los meses de Junio y Diciembre. Estacionalidad. generate time = ym(1992.2. a menudo nos queremos referir no al valor de la serie en s´ı en el tiempo t. adem´as de la tendencia creciente a lo largo del tiempo. y usamos la opci´on monthly para indicarle al Stata que est´a variable lo interprete con periodicidad mensual. title("Evoluci´ on del I no Base 1994=100)") 12. etc. tsset time. format( %tm) time variable: time. Si graficamos la serie del pbi con el comando tsline. Otra forma era haber utilizado el c´odigo %tm: . sino m´as bien a sus valores rezagados o los cambios en el valor de la serie de tiempo t-1 a t. 1) //mes de enero 1992 384 . tsset time. *graficamos la evoluci´ on del pbi ´ndice de PBI" "(A~ .1 . Operadores de Serie de Tiempo . Nuetra variable time est´a etiquetada con las fechas mensuales de 1992m1 hasta 2012m4. siempre es u ´til graficarlos para saber si existe ciertas particularidades en la informaci´on. 1) + t . monthly time variable: delta: time. *creamos una variable para las fechas mensuales . 1992m1 to 2012m4 delta: 1 month Cuando se trabaja con variables temporales. tsline pbi. Operadores de Serie de Tiempo Debido a que las series cronol´ogicas de datos tiene un orden temporal natural. . 1992m1 to 2012m4 1 month Ahora usamos el comando tsset con la variable time. display ym(1992. lo que indica el mes y el a˜ no de cada observaci´on que fue recolectada.2.

xt−1 = xt−2 2 y en general.2.(L.xt = xt−n . Operador de Rezagos El operador de rezago (lag) L se utiliza com´ unmente en el an´alisis de series de tiempo y se define de tal manera que: L. 12. En esta discusi´on. generate lpbi=L.xt = L.xt = xt−1 L . En Stata.12. Introducci´on a Series de Tiempo en STATA 249 Figura 12. *Operador de Rezagos .1: Comando tsline Stata cuenta con una serie de operadores que se pueden aplicar a las variables para hacer m´as f´acil para referirse a tales valores. se idnica el grado del rezago entre el operador del rezago y el nombre de la variable a la que queremos rezagar. Ln . tal y como se muestra a continuaci´on: .xt ) = L.pbi (1 missing value generated) . *Operadores de Series de Tiempo . que se entrelazan tanto el ´algebra y el c´odigo de Stata.1.

2. F.pbi (2 missing values generated) .9181 84. *Operador de adelanto . 85.42715 87.68151 80. generate fpbi=F. 10.pbi (2 missing values generated) .4272 87. list time pbi fpbi f2pbi in -10/l . 1992m1 1992m2 1992m3 1992m4 1992m5 85. 4. 12.x donde # es un n´ umero enterio mayor o igual a 0. Operadores de Serie de Tiempo .17332 87.01944 80. list time pbi lpbi l2pbi in 1/10 time pbi lpbi l2pbi 1.xt = F. Este da el valor posterior en el tiempo en la variable.40388 84.17403 81.250 12.2.65303 83.(F.6815 80. 9. 5.97782 83.7191 87.653 83. L#. y se refiere al n´ umero de periodos rezagados de la variable x. 1992m6 1992m7 1992m8 1992m9 1992m10 87. y a veces es u ´til en un contexto de programaci´on. 7. Operador de Adelanto El operador de adelanto (forward ) F es opuesto al operador L.xt = xt+1 F .x indica el valor corriente de la variable x. gen f2pbi=F2.42715 .pbi (1 missing value generated) .91812 84. El caso especial de L0. 8.65303 6.174 81.40388 84. gen l2pbi=L2. 2.2. 3. .0194 80.17403 81.91812 84.4039 84.01944 80.9778 85.1733 .17332 87.xt+1 = xt+2 2 y en el Stata escribimos de la siguiente forma: .xt ) = F. 85.68151 y en general.

029 220.0115 230.0209 243.4585 235.0209 243. 241. 2011m7 2011m8 2011m9 2011m10 2011m11 226.1113 229.838 223.3. gen d2pbi=D2. 2011m12 2012m1 2012m2 2012m3 2012m4 249.D2 para obtener la segunda diferencia y asi sucesivamente.8597 223.012 230. 251 Operador de Diferencia A menudo no nos interesa trabajar con los valores en niveles de la variable. 237.459 235. *Operador de diferencia .4585 235. 239. Y veremos m´as adelante que hay razones estad´ısticas para utilizar valores diferenciados de una serie en lugar de su nivel.454 223. 243.021 243. 242.534 223.12.4544 249.pbi (2 missing values generated) . 236.86 223. .0115 230.421 223. sino con los cambios periodo a periodo del mismo.5336 .0286 240.5336 . 244. 220. generate dpbi=D.4544 249. 12.2. . list time pbi dpbi d2pbi in 1/10 .111 229.8375 223. El Operador de Diferencia D (∆) se define como: ∆xt = xt − xt−1 ∆ xt = ∆∆xt = ∆(xt − xt−1 ) = (xt − xt−1 ) − (xt−1 − xt−2 ) 2 En Stata se usa la letra D para obtener la primera diferencia.0286 220.1113 229.pbi (1 missing value generated) .8597 223. Introducci´on a Series de Tiempo en STATA time pbi fpbi f2pbi 235. 238.

8647 -5. 9. muchas veces queremos comparar el cambio en una variable por cada mes de este a˜ no con el mismo mes del a˜ no anterior.746162 .475021 4.174 81.653 83. cero o negativo. ∆12 xt = xt − xt−12 Adem´as.2. 1992m6 1992m7 1992m8 1992m9 1992m10 87.9778 85.252 12. -4.4.1733 . Por ejemplo. se ha mantenido igual o disminuye con el tiempo. 2. por ejemplo.7036896 4. 7. se puede usar el operador de diferencia estacional mas de una vez.249146 -1.444984 12. 8. tal que. Entonces: .0194 80. Esto con la final de comparar dos periodos que no se van a ver influidos por factores estacionales.7191 .225876 3. 10.2.9181 84.251579 1. 4. para datos mensuales s = 12. por lo que nos dar´a una mejor idea de los cambios en las variables a trav´es del tiempo. Por ejemplo.7448044 -3. Operadores de Serie de Tiempo time pbi dpbi d2pbi 1. .741295 -3. 3.4272 87. aplicando dos veces este operador para ver si el efecto estacional ha sido cada vez mas fuerte.4039 84. Operador de Diferencia Estacional Cuando se trata de datos mensuales. 1992m1 1992m2 1992m3 1992m4 1992m5 85.788826 5.6815 80. 5.615555 4. respectivamente.972038 6.744095 -2. dependiendo de si la segunda diferencia estacional es positiva.488899 1.001358 -4.492516 -. 8. El Operador de Diferencia Estacional DS (∆s ) se define como: ∆s xt = xt − xt−s donde s depende de la frecuencia de la data.

023 222.012 230. .93275 11.pbi (24 missing values generated) . Por ejemplo: ∆∆12 yt = ∆(∆12 yt ) = (yt − yt−12 ) − (yt−12 − yt−13 ) Es necesario de saber. 239. gen s12pbi2=S12S12.4352 12. que los oepradores de serie de tiempo son conmutativos.06331 11.19682 -5.58698 11.82661 15.41335 11.46817 16.97296 5.005386 240.614 15.3625946 -1. *Operador de diferencia estacional . Combinando Operadores de Serie Temporales Tambi´en podemos especificar m´as de un operador de series de tiempo para una variable.029 220. 233.98938 12.864197 -1. 241.2.835114 -11.71666 14.526276 -.872 233.69838 12.274368 -7.26797 -4. 242.111 229.14847 10.534 14. list time pbi s12pbi s12pbi2 in -15/l time pbi s12pbi s12pbi2 230.536041 -7.392044 -4.319702 -6. 2011m2 2011m3 2011m4 2011m5 2011m6 206.327576 -5.82724 16. 2011m7 2011m8 2011m9 2011m10 2011m11 226. generate s12pbi=S12. 243. 238.076 232. 231.337 246. 2011m12 2012m1 2012m2 2012m3 2012m4 249. esto quiere decir que no existe diferencia alguna en especificar el orden de los operadores.421 223.453201 -1.194199 -1.454 13.468887 -9.59868 235. se usa la letra S seguido por el n´ umero que representa el periodo de diferenciaci´on estacional .459 235. 234.pbi (12 missing values generated) . Introducci´on a Series de Tiempo en STATA 253 ∆212 xt = ∆12 (xt − xt−12 ) = (xt − xt−12 ) − (xt−12 − xt−24 ) En Stata. 236. 244. 232.021 243. 237.8952 16.12.86 223.838 223.5.

795334 -2.6.0375519 .40523 24. Expresiones con Operadores Los operadores tambi´en pueden ser usados en otras expresiones o como lista de variables.162766 -3. 234.614 .8263702 240.012 230.534 -. . gen w=LS12D.6523218 7.2. 241.86 223.58114 -26. 232.pbi D. 242.1428 142.4270325 . sum pbi L.718536 -2. *Combinando Operadores de Serie Temporal .029 220.111 229. Operadores de Serie de Tiempo .58114 79.021 243.58114 79.076 232.7951 . 239.6409302 . 2011m2 2011m3 2011m4 2011m5 2011m6 206. 237. list time pbi x w in -15/l time pbi x w 230. 231.2.718536 -2.27827 41.2031 8. 2011m12 2012m1 2012m2 2012m3 2012m4 249.753616 . 244 243 243 243 232 142.2431793 -3. S12.pbi (14 missing values generated) .pbi Obs Mean Variable pbi --.795334 -2.3190002 2.023 222.621459 Std. 236. *Expresiones con Operadores . generate x=DS12L. Dev.162766 -3.853653 2.pbi F.454 -4.346649 2.337 246.346649 2.pbi (14 missing values generated) .286728 -.8597 249.83107 -8.514746 Min Max 79. 42.286728 12.459 235.254 12.0375519 235. 238. 2011m7 2011m8 2011m9 2011m10 2011m11 226.5583 142.124517 6.421 223.4270325 .6409302 .576035 -.853653 2. 243.pbi S12.959793 1.2431793 -3.84401 Tambi´en se usa con la condicional if para limitar la muestra: . 244. los operadores pueden ser usados para obtener estad´ısticas descriptivas variables.872 233.172592 249.8263702 -4.576035 -.838 223.753616 .3190002 2. F1.959793 1. L1.86326 42. D1.8597 19. Por ejemplo. 233.8597 249.

86326 41. sum L(1/3).129 P>|t| [95 % Conf.1428 141.072 15925.013907 1.8597 249.8597 249. Err.9629 = 8.472297 5.86326 41.0124824 _cons 2.8597 Min Max 79.170609 1.58114 249. regress pbi L.8597 O por u ´ltimo. Dev.759 141.813514 En el caso de que se quiera especificar una lista de variables. Std.pbi .1428 141.0000 = 0. 42. sum pbi if D. es posible realizar una regresi´on: . Stata nos permite usar par´entesis para agrupar un conjunto de variables que ser´an afectados por un operador.12.9631 = 0.29324 Min Max 79. Dev.9647301 1. pbi L1.17 0. Introducci´on a Series de Tiempo en STATA .51943 41.pbi Variable Obs Mean pbi --.pbi Source SS df MS Model Residual 415101.58114 79.072 66. Dev.8597 .8597 249. L2.10635 Min Max 83.58114 79. 241) Prob > F R-squared Adj R-squared Root MSE = 243 = 6281.58114 79. .242 -1.4931 1 241 415101.4324 Variable Obs Mean pbi L1.29324 . sum L(0 1 2 3).8597 249.9893186 .58114 79.000 . L1. 41.5583 142.8597 249.6637 255 Std.26 0. Por ejemplo: .58114 79.71 = 0.27827 41.pbi>0 Variable Obs pbi 127 Mean 145.49815 249.4324 Std. 44.759 141. Interval] 79. L3. reg pbi L( pbi lpbi) Std.849326 t Number of obs F( 1. 244 243 242 241 142.51943 41.565 242 1781.10151 pbi Coef. L3. L2. 243 242 241 142.0808844 Total 431026.58114 249.

pbi)/L. .814 241 1772.7604873 1.000 .07 0.0240244 .58 15722. *Cambio Porcentual .8874169 . . pbi L1. La tasa de cambio en una variable X desde el periodo t-1 hasta t esat´a dado por: ∆ %X = Xt −Xt−1 x100 Xt−1 Por lo tanto.0000 = 0. .285 -1.9629 = 8. SS df MS Model Residual 411395. 239) Prob > F R-squared Adj R-squared Root MSE = 242 = 3126. Std.999572 t Number of obs F( 2. geenralmente se analiza en t´erminos porcentuales con respecto al mismo periodo del a˜ no anterior.256 12.2. no importa cual de las dos formulas se usa para calcular el cambio porcentual.7834056 Total 427117. gen var1_pbi=(pbi-L. Err.pbi *100 (1 missing value generated) Alternativamente.673413 Cambios Porcentuales Para muchas variables econ´omicas.0648495 1.1037251 _cons 1.9632 = 0. se puede calcular de la siguiente forma: Y = ln(X) dY = dln(X) = dX/X Si el cambio de X es relativamente peque˜ no. Operadores de Serie de Tiempo Source 12.2314747 1.79 65.864951 1. una forma de calcular una variable que sea igual al cambio porcentual de X. Interval] 13.014346 .2.1107 P>|t| [95 % Conf.2339 2 239 205697.7.89 = 0.0644332 lpbi L1.674269 5. .60 0.27309 pbi Coef.77 0.111 -.

Ejercicio Propuesto Se presenta el archivo indice produccion.X(j.T −1) .12.ln_pbi*100 (1 missing value generated) . de los sectores Agropecuario.16981 -14. 5.ln(X). calcular lo siguiente: • Las variaciones porcentuales mensual a 12 meses. se pide lo siguiente: Establecer la base de datos como serie de tiempo.T ) = Pt=j × 100 − 100 t=0 X(t. Introducci´on a Series de Tiempo en STATA 257 . gen var2_pbi=D.Acuml. Pesca. Manufactura. es decir.T ) V ar. Construcci´on y Comercio.574856 .3. Graficar la evoluci´on de cada uno de los ´ındices.314392 Min Max -13. Miner´ıa e Hidrocarburos. 12. el cual se define de la siguiente manera: Pt=j t=0 X(t.4330761 Std. Dev. no se puede por ejemplo escribir 100*D. A trav´es de estos indices.52799 11. Por medio de los operadores de rezagos. es que el operador de series temporales no puede ser combinado con funciones del Stata.319213 5.8032 Algo importante que mencionar.12158 12. gen ln_pbi=ln(pbi) .dta que contiene informaci´on de los ´Indices de Producci´on Mensual del Producto Bruto Interno. sum var* Variable Obs Mean var1_pbi var2_pbi 243 243 . el cual se define de la siguiente manera: ∆ %Xt = Xt − Xt−12 × 100 Xt−12 • Las variaciones porcentuales acumuladas al mes j en el a˜ no T.

Ejercicio Propuesto • Las variaciones porcentuales anualizadas. el cual se define de la siguiente manera: Pt=j t=j−12 V ar.T −1) × 100 − 100 . X(t.T ) = Pt=j t=j−12 Graficar cada una de estas tasas de variaci´on.X(j.T ) X(t.258 12.3.Anual.

1. En segundo lugar. Es decir. En tercer lugar. conjunto de valores observados de distintas variables (pbi. Comencemos con algunas definiciones que nos van a permitir caracterizar una variable temporal. muchas series temporales exhiben un comportamiento tendencial. que el valor de Xt esta correlacionado con Xt−2 . . La Naturaleza de Series de Tiempo Una primera caracter´ıstica de serie de tiempo es que las observaciones est´an t´ıpicamente correlacionadas. Esto es.. −1. y asi sucesivamente.Cap´ıtulo 13 Series de Tiempo Estacionarios 13. 2....) correpon- 259 . Un Proceso Estoc´ astico Discreto (PED) es una sucesi´on de variables {yt } donde t = . 1.. −2. Xt−1 . ambas variables pueden parecer altamente correlacionadas. a diferencia de la data de secci´on transversal en donde la media muestral es un estimador de la media poblacional. Una Serie Temporal es la realizaci´on particular de un PED. si hacemos una regresi´on de una variable con otra variable que indica el tiempo (tendecia).. inversi´on. Xt+1 . 0. en datos de serie de tiempo asumimos que la media poblac´ıonal puede incluso no existir. etc.consumo.

la covarianza y la autocorrelaci´on de una variable. La Naturaleza de Series de Tiempo dientes a periodos de tiempos consecutivos (el cual tienen la misma amplitud). El an´alogo de la muestra es: yt = Pt=T 1 T t=0 yt De manera similar.260 13. la varianza.y en donde la serie tiene un caracter discreto.1. La Caracterizaci´ on de una Serie Temporal consiste en encontrar el valor promedio. el segundo momento. Podemos definir el primer momento. es: E[(yt − µ)2 ] = σ 2 = R∞ −∞ (yt − µ)2 f (yt )dyt y su an´alogo de la muestra es: s2 = 1 T Pt=T t=0 (yt − y)2 Recordemos que la covarianza entre dos variables ui y vi se define como: Cov(ui . por lo que vamos a hacer un uso extensivo de la autocovarianza define como: . vi ) = E[(ui − µu )(vi − µv )] En el an´alisis de series de tiempo. el valor de una variable en el tiempo t se puede correlacionar con su valor en el tiempo t + j para alg´ un entero j. o varianza. conocido como el promedio o valor esperado de una serie yt est´a dado por: R∞ E(yt ) = µ = −∞ yt f (yt )dyt donde f (yt ) representa la funci´on de densidad de probabilidad de yt .

γj = γ−j . Mientras que la Estacionariedad D´ ebil se presenta cuando sus dos primeros momentos es constante en el tiempo. es decir. si cumplen con las siguientes tres propiedades: . hemos supuesto impl´ıcitamente que son independientes del tiempo. momentos entre otras) de yt y yt−k no dependen de t y t − k (su ubicaci´on absoluta en la secuencia) pero s´olo de k (su separaci´on relativa en la secuencia). Entonces. se define la Funci´on de Autocorrelaci´on (ACF) como: ρj = γj /γ0 donde γ0 es la autocovarianza de orden cero. 13..2. Se puede estimar γj como: γˆj = 1 T Pt=T −j t=0 (yt − y)(yt+j − y) Debido a que las correlaciones son invariantes en escala y por lo tanto m´as f´acil de interpretar que las covarianzas.. ytn tienen la misma distribuci´on independientemente del valor de t. Estacionariedad En nuestras definiciones de la media. . Existe dos tipos de estacionariedad: La Estacionariedad Estricta se presenta cuando la funci´on de distribuci´on no cambia a lo largo del tiempo. se dice que una PED es estacionario si determinadas propiedades estoc´asticas(funciones de distribuci´on. que es la varianza. yt2 . Un proceso estoc´astico es estaci yt1 .. Es decir. varianza y autocovarianza. yt+j ) = E[(yt − µ)(yt+j − µ)] γj es sim´etrica. Series de Tiempo Estacionarios 261 γj = Cov(yt .13.

*Generando una variable Ruido Blanco con 10.254M 203.262 13. t0 . varianza constante y no est´a serialmente correlacionada: E[t ] = 0 V ar[t ] = σ γk = Cov(t . set obs 10000 obs was 0. set seed 11111 . yt0 +j ) = 0 para todo t. set mem 200m Current memory allocation current settable value set maxvar set memory set matsize 5000 200M 400 description max. *Incluyendo la ruta donde se encuentra el archivo . Las esperanzas matem´aticas de las variables aleatorias no dependen del tiempo (esperanzas constantes): E[yt ] = 0 • Propiedad 2.909M 200. clear all . Estacionariedad • Propiedad 1. j. Las varianzas no dependen del tiempo y son finitas: V ar[yt ] = σ 2 < ∞+ • Propiedad 3. cd "D:\Econometria-Stata\estacionariedad" D:\Econometria-Stata\estacionariedad . now 10000 . Un ejemplo de serie estacionaria en sentido d´ebil es una variable ruido blanco (t ) el cual tiene una media igual a cero.163M .1) . data space max. yt+j ) = Cov(yt0 . RHS vars in models memory usage (1M = 1024k) 1.2. Las covarianzas entre dos periodos de tiempos distintos solamente dependen del lapso de tiempo transcurrido entre esos dos periodos: Cov(yt .000M 1. t+s ) = 0 para todo s .000 observaciones : et.N(0. variables allowed max.

En esta secci´on. Dev. . gen et=rnormal(0.1)") Figura 13.N(0. yline(0) title("Ruido Blanco .0056196 Std. et . y as´ı sucesivamente. 1.1) . tsline et. Adem´as.001315 Min Max -3. se desarrollan tres maneras de modelar este tipo de dependencias.0056196) y una desviaci´on est´andar cercano a la unidad (1. t − 1. tsset t time variable: delta: t. gen t=_n . sum et Variable Obs Mean et 10000 . una caracter´ıstica clave de los datos de series de tiempo es de autocorrelaci´on: el valor de y en el momento t es probable que se correlaciona con su valor en los tiempos t − 2. 13.83599 3. 1 to 10000 1 unit .001315).3. Procesos Autoregresivos y de Media M´ ovil Como se mencion´o anteriormente. en la gr´afica se nota que los valores osilan alrededor de su promedio.1: Ruido Blanco Se puede notas que la variable ruido blanco tiene un valor promedio cercano a cero (.607195 . Series de Tiempo Estacionarios 263 . t + 1.13.

3.1) donde t es un proceso ruido blanco. t + 2. se describe mediante la ecuaci´on: yt = µ + t + θt−1 (13.1. La media de (10.2). la media depende solamente de la constante µ y no del tiempo.3. escrito MA(1).3) La autocovarianza de orden 1 es: γ1 = E[(t ] + θt−1 )(t+1 ] + θt )] = θσ 2 (13.264 13.4) As´ı que la primera Autocorrelaci´on es: ρ1 = θσ 2 θ γ1 = = 2 2 γ0 (1 + θ )σ (1 + θ2 ) (13.1) es: E[yt ] = µ + E[t ] + θE[t−1 ] = µ (13.2) Como se ve en (10. Procesos Autoregresivos y de Media M´ovil Los modelos que se desarrollan en esta secci´on nos permite entender c´omo el choque en el tiempo t influye en los otros per´ıodos t + 1. Procesos de Media M´ ovil (MA) Un proceso de media m´ ovil de primer orden.5) . y as´ı sucesivamente. 13. La varianza es: γ0 = E[(yt − µ)2 ] = E[(t + θt−1 )2 ] = E[2t + θt t−1 + θ2 2t−1 ] = (1 + θ2 )σ 2 (13.

tipeamos lo siguiente: . *=================== . tsset t time variable: delta: . gen t=_n . d t. El proceso MA(1) depende de valores anteriores de t . usamos la funci´on rnormal(). gen et=rnormal(0. 1 to 10000 1 unit . necesitamos 0 . adem´as establecemos una semilla de 11111 para que se obtenga los mismos resultados. dado que t es un ruido blanco.5t−1 Para una variable ruido blanco con media 0 y varianza 1. Supongamos que queremos una muestra de T = 10000 observaciones del proceso MA(1): y1 = 1 + t + 0.6) Y la Autocorrelaci´on de segundo orden ρ2 = 0.13. podemos calcular un valor aleatoria para 0 y usarlo para calcular y1 . set seed 11111 .asi que necesitamos tener cuidado. sum et. Para explorar las propiedades de un proceso M A(1). now 10000 . set obs 10000 obs was 0. Series de Tiempo Estacionarios 265 La autocovarianza de segundo orden es: γ2 = E[(t ] + θt−1 )(t+2 ] + θt+1 )] = 0 (13. Entonces. clear . *PROCESO M´ EDIA M´ OVIL . *Proceso MA(1) .1) . vamos a simular algunos datos. Para t = 1.

933245 .002631 -.116081 Variance Skewness Kurtosis 1.607195 Obs Sum of Wgt. *media: .969727 .002547 1.316044 Smallest -3. disp "E(yt)=" $mu E(yt)=1 .636566 -1.5222 -3.66943 2.713771 4.446433 2. global mu=1 . *Caracterizamos la Serie temporal yt .675252 1.583009 1.500743 Largest 3. (10000 missing values generated) . *----------------------------------. Dev.129482 -2.261993 3. Variance Skewness Kurtosis 10000 10000 .714058 -3. *Autocovarianza de Primer Orden: .301161 1.2584961 Smallest -3.689604 4. sum yt. Mean Std. disp "Ac1=" $theta Ac1=.738758 4. replace yt=et in 1 (1 real change made) .600897 3.852232 3.26873 -.5 .5 Obs Sum of Wgt. d yt 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles -1.429939 3.336658 -3.764957 2. 1.0100336 2. *varianza: . quietly replace yt=$mu+et+$theta*et[`i´-1] in `i´ 3.592231 -.008289 1.587869 -3.245636 . 10000 10000 Mean Std.344029 -1.25 .0056196 1. Procesos Autoregresivos y de Media M´ovil et 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles -2.599518 Largest 4.001315 1. } // . global theta=0. forvalues i=2(1)10000 { 2.4194317 .669957 .3.0031478 .0063962 3. Dev.266 13.010815 . gen yt=.83599 -3.8197443 -. disp "Var(yt)=" (1+$theta^2) Var(yt)=1.

MA De la expresi´on (10.4.5/(1 + 0.yt L2. Adem´as.4 .2). . yt yt yt F2.52 ) = 0.0000 0. yt 1. F. name(ma1. yt 1. *Autocorrelaci´ on de Primer Orden: . line yt t.0000 .0033 -0. la correlaci´on de primer orden ρ1 = 0.008289).1) = 1. *graficamos el Proceso MA(1) .3) indica la varianza de yt es (1 + 0. cor F2. En tanto. el valor esperado de yt es 1.0068 1. La autocorrelaci´on de segudno orden es cero.25 cercano tambi´en a 1.245636.0000 0.0072 -0.0000 0. L2.52 ).0072 L. 1.0000 0.13. y se observa en el u ´ltimo cuadro que las correlaciones superiores de primer orden son casi nulas. L1. *Autocorrelaci´ on de Orden Superior: .0034 yt 1.yt (obs=9996) F2. Series de Tiempo Estacionarios 267 . --.yt F1.yt yt L. disp "Rho1=" $theta/(1+$theta^2) Rho1=. en el gr´afico se puede observar el proceso MA(1) para yt que oscila alrededor de su media.2: Proceso Media M´ovil . La ecuaci´on (10. F1.3990 0.3990 L2.399.3990 0.0071 -0. y la media muestral es cercano a este valor (1.3990 0. y la autocorrelaci´on muestral esta alrededor de 0.replace) yline($mu) title("Proceso MA(1)") Figura 13.

. Procesos Autoregresivos y de Media M´ovil En general. t + 2.3. . un Proceso de Media M´ovil de orden q M A(q) es: yt = µ + t + θ1 t−1 + θ2 t−2 + . y las autocovariaznas son: γ1 γ2 . = θq σ 2 = 0.. asi que concluimos que un proceso M A(q). . . simbolizado como AR(1). m > q tanto la media. . = . + θq−2 θq )σ 2 . . . . La γm = 0 para m mayor a qquiere decir que si los shocks ocurren en el tiempo t para un proceso M A(q). t + q. + θq−1 θq )σ 2 = (θ2 + θ1 θ3 + θ2 θ4 + . .. t + 1. se escribe de la siguiente manera: yt = β + φyt−1 + t (13.3. 13.2.. + θq t−q La media es µ.. . la varianza y autocovarianza son todos independientes de t. γq γm = (θ1 + θ1 θ2 + θ2 θ3 + .268 13. + θq2 )σ 2 = P i=q 2 i=0 θi  σ2 donde θ0 ≡ 1. Procesos Autoregresivos (AR) Un Proceso Autoregresivo de Primer Orden. pero no tiene efecto para el periodo t + q + 1 en adelante. estos shocks afecta a la serie en el periodo t..7) . mientras que la varianza es: γ0 = E[(yt − µ)2 ] = (1 + θ12 + θ22 + .

. Recordando de la siguiente secuencia: (13.)β + t + φt−1 + φ2 t−2 + . se tiene: µ= β 1−φ Sin embargo.. = (1 + φ + φ2 + . asi que se puede escribir (10. esta derivaci´on es algo enga˜ noso. Note que la variable y1 depende de su valor pasado t − 1. ¿Cu´al es la emdia descrito en (10.8) Si asumimos que yt es estacionaria. Series de Tiempo Estacionarios 269 donde t es un proceso ruido blanco. β y φ son par´ametros. . . podemos reescribir la ecuaci´on (10.8) como: µ = β + φµ Despejando µ.13. Tenemos lo siguiente: E[yt ] = β + φE[yt−1 ] + E[t ] = β + φE[yt−1 ] (13.7) como: yt = = = = β + φyt−1 + t β + φ(β + φyt−2 + t−1 ) + t (1 + φ)β + φ2 (β + φyt−3 + t−2 ) + t + φt−1 (1 + φ + φ2 )β + φ3 (β + φyt−4 + t−3 ) + t + φt−1 + φ2 t−2 .9) . . = . Usando sustituciones recursivas.7)?. entonces. ya que hace un suspuesto impl´ıcito acerca de φ. E[yt ] = E[yt−1 ] = µ.

. .)] = (φ + φ3 + φ5 + . .11) σ2 γ0 = E[(yt − µ) ] = (1 + φ + φ + . .3. podemos caracterizar la serie yt como: yt = β 1−φ (13. . = 1 1−φ Siempre que |φ| < 1. . 1−φ el cual se simplifica a un proceso de media m´ovil con µ = (13. . asumiremos que |φ| < 1. . .)(t+1 + φt + φ2 t−1 + .10) β . podemos reescribir la expresi´on (10. por tamto. . . Procesos Autoregresivos y de Media M´ovil 1 + φ + φ2 + .)σ = 1 − φ2 2 2 4 2 (13.9): yt = β + t + φt−1 + φ2 t−2 + . . 1−φ A partir de ahora.270 13.12) La Autocovarianza de primer orden es: E[(yt − µ)(yt+1 − µ)] = E[(t + φt−1 + φ2 t−2 + . Entonces.)σ 2 φ = σ2 1 − φ2 asi que: ρ1 = φ La Autocovarianza de segundo orden es: .

clear . ρj = φj para un proceso AR(1).7yt−1 + t t ∼ N (0. set seed 11111 . En primer lugar. . . . 2) En este caso  tiene varianza 2. . set obs 10000 obs was 0.)σ 2 φ2 = σ2 2 1−φ asi que: ρ2 = φ2 Se puede ver un patron en ρ1 y ρ2 .13.)] = (φ2 + φ4 + φ6 + . *===================== . sabemos que la media condicional es: µ= β 1−φ = 10 1−0. . Por lo tanto. *Proceso AR(1) . simulemos el siguiente proceso AR(1) con un muestra de T = 10000 valores: yt = 10 + 0. *PROCESO AUTOREGRESIVO . Series de Tiempo Estacionarios 271 E[(yt − µ)(yt+2 − µ)] = E[(t + φt−1 + φ2 t−2 + . Ahora.7 ≈ 33.)(t+2 + φt+1 + φ2 t + . now 10000 . . .33 asi que esta cifra lo podemos usar para el primer valor de yt (y0 ).

global sigma=2 .80658 26. *varianza: Obs Sum of Wgt.76227 30.11402 30.613155 4.7 . tsset t time variable: delta: t.90582 Largest 39.092437 5.0079473 1.416073 2.sqrt(2)) .10463 40.950798 Largest 4. (10000 missing values generated) . global mu=$beta/(1-$phi) .005263 -. sum et.275381 Smallest -5. *----------------------------------. disp "E(yt)=" $beta/(1-$phi) E(yt)=33.917904 -.89807 36.3.252471 -4. *media: .98178 26. quietly replace yt=$beta+$phi*L.0063962 3.65289 37.0044516 .333333 .010815 .00679 Smallest 25.97937 Variance Skewness Kurtosis 3.314455 -1. gen yt=.70212 35.360931 3.272 13.35945 1. sum yt.840119 2.37155 34. Procesos Autoregresivos y de Media M´ovil .42491 -5.1061 26.9474622 . Mean Std.981143 -4.yt+et in 2/l . 1 to 10000 1 unit . gen et=rnormal(0.314957 -2.9549506 1.1847 . gen t=_n .850666 5.89886 33. Variance Skewness Kurtosis 10000 10000 . 10000 10000 Mean Std. Dev. global beta=10 .101345 Obs Sum of Wgt.908804 .83002 39. *Caracterizamos la Serie temporal yt . replace yt=$mu in 1 (1 real change made) . 33.96432 40. global phi=0. d yt 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles 28. Dev.794255 -.0110678 2. d et 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles -3.82553 32.

*Autocovarianza de Primer Orden: .6987 0.yt F1.3: Proceso Autoregresivo . L1. disp "Rho1=" $phi Rho1=. disp "Rho2=" $phi^2 Rho2=.yt L2. F. *graficamos el Proceso AR(1) .3428 0. Series de Tiempo Estacionarios 273 .13.0000 . name(ar1. yt yt yt F2. L2.33).6987 0.2372 1.6987 L2. disp "Ac1=" $sigma*$phi/(1-$phi^2) Ac1=2.replace) yline($mu) title("Proceso AR(1)") Figura 13.7 . disp "Var(yt)=" $sigma/(1-$phi^2) Var(yt)=3. *Autocorrelaci´ on de Primer Orden: .AR El valor promedio muestral (33.0000 0. F1. *Autocorrelaci´ on de Orden Superior: .0000 0.49 . 1.4929 0. cor F2.6987 0.35945) esta cercano al valor poblacional (33.0000 0. yt 1.745098 .3428 yt 1. Mientras que la varianza poblacional es 2/(1 − 0.0000 0.917904. yt 1.92 y la muestral es 3.4929 L.9215686 . line yt t.yt yt L.4929 0. .yt (obs=9996) F2. *Autocorrelaci´ on de Segundo Orden: . --.72 ) ≈= 3.

Procesos Autoregresivos y de Media M´ovil Con respecto a las correlaciones estimadas (ρ1 = 0.7 y 0. este se define como: .49 respectivamente.6987 y ρ2 = 0.4929) son muy parecidas a las poblacionales 0.13) La forma m´as sencilla de encontrar la media es asumir que yt es estacionaria y se toma el valor esperado: E[yt ] = E[β + φ1 yt−1 + φ2 yt−2 + t ] µ = β + φ1 µ + φ2 µ β = 1 − φ1 − φ2 (13. Un Proceso Autoregresivo de Segundo orden AR(2) puede ser escrito como: yt = β + φ1 yt−1 + φ2 yt−2 + t (13. paraj > 2 ρ1 = ρ2 ρj Generalizando un Proceso Autoregresivo de Orden p AR(p).274 13.3.14) La varianza es: γ0 = E[(yt − µ)2 ] = (1−φ2 )σ 2 (1+φ2 )[(1−φ2 )2 −φ21 ] y las correlaciones son: φ1 1 − φ2 = φ1 ρ1 + φ2 = φ1 ρj−1 + φ2 ρj−2 .

+ φp yt−p + t Las formulas de varianza y autocorrelaciones son un pocos complejas en este caso1 . Un ejemplo sencillo es el proceso ARMA(1.3. Series de Tiempo Estacionarios 275 yt = β + φ1 yt−1 + φ2 yt−2 + . 13.1). cap´ıtulo 3. yt = β + φ1 yt−1 + t + θ1 t−1 La media de este proceso es similar al modelo AR(1): E[yt ] = µ = β 1−φ La varianza esta dado por la siguiente expresi´on: γ0 = E[(yt − µ)2 ] = (1 + 2φθ + θ2 )σ 2 1 − φ2 Mientras que la Autocovarianza de primer orden es: γ1 = θσ 2 + φγ0 1 Ver Hamilton (1994. .13.4) para m´as detalles. . . el cual nos permite obtener modelos m´as parsimoniosos. el cual posee un termino autoregresivo y de media m´ovil de primer orden en ambos.3. Procesos Autoregresivos y Medias M´ oviles (ARMA) Estos procesos estan compuesto por una parte Autoregresiva (AR) y otra de Medias M´oviles (MA).

*Proceso ARMA(1.1) . now 10000 . Procesos Autoregresivos y de Media M´ovil Para ordenes superiores. gen t=_n .5t−1 t ∼ N (0. set seed 11111 . clear .7yt−1 + t + +0. d .3.276 13. *PROCESO AUTOREGRESIVO Y DE MEDIA MO . simulemos el siguiente proceso ARM A(1. la Autocovarianza se clacula de la siguiente forma: γk = φγk−1 . tsset t time variable: delta: t.sqrt(2)) . basandose en los dos ejemplos anteriores: yt = 10 + 0. 1 to 10000 1 unit . set obs 10000 obs was 0. 2) ´VIL . 1) con un muestra de T = 10000 valores. *====================================== . gen et=rnormal(0. k > 1 Por lo tanto. sum et. la Autocorrlaci´on se obtiene como: θσ 2 +φ γ0 = φρk−1 . k > 1 ρ1 = ρk Para este caso.

31368 24.981143 -4.092437 5.794255 -.314455 -1. .65474 Obs Sum of Wgt. Dev.99406 42.0087895 2.42491 -5. d yt 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles 27.13.252471 -4.40366 42.634977 -.56132 Largest 41.005263 -. Series de Tiempo Estacionarios 277 et 1% 5% 10 % 25 % 50 % 75 % 90 % 95 % 99 % Percentiles -3. quietly replace yt=$beta+$phi*L.840119 2.275381 Largest 4.yt+et+$theta*L.24392 36. Variance Skewness Kurtosis 10000 10000 33. global mu=$beta/(1-$phi) .763146 7.9549506 1. global theta=0. sum yt. Mean Std. global phi=0.97047 39.360931 3.0044516 .5 . global sigma=2 .010815 . *varianza: . gen yt=. 10000 10000 Mean Std.47618 33.40345 35. replace yt=$mu in 1 (1 real change made) .888375 .850666 5.77382 31. *media: . disp "E(yt)=" $beta/(1-$phi) E(yt)=33.0079473 1.90961 41. *----------------------------------.19296 23.950798 .37256 2.00448 28. disp "Var(yt)=" ($sigma*(1+2*$phi*$theta+$theta^2))/(1-$phi^2) Var(yt)=7. *Caracterizamos la Serie temporal yt .613155 4.0063962 3.314957 -2.6470588 .9474622 Smallest -5. Dev.79176 24.et in 2/l .333333 .416073 Variance Skewness Kurtosis 2. global beta=10 .79942 Smallest 23.82331 29. (10000 missing values generated) .91316 37.101345 Obs Sum of Wgt.7 .

83076923 .5834 0.3529412 . F1.634977) est´an cercanos. cor F2.37256) esta cercano al valor poblacional (33.8312 0.yt F1.83076923 . *Autocorrelaci´ on de Orden Superior: . *graficamos el Proceso AR(1) . line yt t. yt 1. L2. --. disp "Rho1=" $phi + $theta*$sigma/((1+2*$phi*$theta+$theta^2)*$sigma/(1-$phi^2)) Rho1=.4072 0.0000 . *Autocorrelaci´ on de Primer Orden: .0000 0.0000 0. *Autocovarianza de Primer Orden: .0000 0. Con respecto a las correlaci´on estimadas (ρ1 = 0. name(arma1.278 13. .3.33).5834 L.replace) yline($mu) title("Proceso ARMA(1.4072 yt 1. L1.8312 es muy parecida a la poblacional 0. yt 1.8312 0.yt (obs=9996) F2.8312 0.2849 F.ARMA Se puede observar que el valor promedio muestral (33.8312 L2.yt L2.0000 0. Procesos Autoregresivos y de Media M´ovil . disp "Ac1=" $theta*$sigma + $phi*(1+2*$phi*$theta+$theta^2)*$sigma/(1-$phi^2) Ac1=6. 1. yt yt F2.6470588) y la muestral (7. Mientras que tanto la varianza poblacional (7.4: Proceso Autoregresivo de Media M´ovil .yt yt L. yt 1.1)") Figura 13.5834 0.

13. en un proceso AR(p). adem´as de encontrar el orden de cada proceso. Sin embargo.4. . en vez de emplear un proceso AR o M A. Las dos herramientas (F AS y F AP ) que describiremos en esta secci´on nos permite ver el impacto del shock y diferenciar en base a sus propiedades si es un proceso autoregresivo o de media movil. haciendo que el modelo final cumpla con la propiedad de parsinomia. γj γ0 . + θq t−q Esencialmente el proceso ARM A nos permite capturar la din´amica de nuestra serie utilizando pocos par´amtros.13.1. . 13. + φp yt−p + t + θ1 t−1 + . el efecto de un shock decae gradualmente a trav´es del tiempo.4. Funci´ on de Autocorrelaci´ on Muestral (FAS) La Funci´on de Autocorrelaci´on Muestral (FAS) en el rezago j (γj ) se define como: ρj = donde γ0 es la varianza. . . q): yt = µ + φ1 yt−1 + . un factor que distingue entre un proceso autoregresivo y un proceso de media m´ovil es la manera en que los shocks afectan a las futuras realziaciones de una serie. En un proceso M A(q). Funci´ on de Autocorrelaci´ on Muestral (FAS) y Parcial (FAP) Como se ilustr´o en la secci´on anterior. Series de Tiempo Estacionarios 279 Un proceso mas general es el ARM A(p. un shock en el periodo t no tiene efecto alguno sobre la serie en el periodo t + q + 1 en adelante.

7/(1 + 0. con un componente ar(0. . La opci´on sigma(1) especifica una desviaci´on est´andar igual a 1 para el proceso ruido blanco  : t. *========================================================= .72 ) = 0. Para dibujar las autocorrelaciones podemos usar el comando ac: . *proceso MA(1): y(t) = e(t) + 0.7t . *FUNCI´ ON DE AUTOCORRELACI´ ON MUESTRAL (FAS) .47. donde  es un ruido blanco con media 0 y varianza 1. Adem´as.7. sim_arma y.7) sigma(1) nobs(1000) time(t) Este comando genera una nueva variable y. nobs(1000) indica que se desea 1000 observaciones en nuestra base de datos y time(t) genera una nueva variable t que indica la frecuiencia temporal (de 1 hasta 1000). Para esto utilizaremos en comando sim arma .280 13. *----------------------------------------. set seed 11111 . ma(0. ac y .5: FAS para un Proceso MA(1) . title("FAS MA(1)") Figura 13. simularemos una muestra de 1000 observaciones de un proceso M A(1). Funci´on de Autocorrelaci´on Muestral (FAS) y Parcial (FAP) Para ilustrar esta herramienta. = 0. yt = t + 0.7) donde el coeficiente que acompa˜ na al primer rezago es 0. *FUNCI´ ON DE AUTOCORRELACI´ ON MUESTRAL (FAS) Y PARCIAL (FAP) .5). la autocorrelaci´on de primer orden es 0.4. De la expresi´on (10.7e(t-1) . . ρ2 = ρ3 = . clear all .

47. ac y .95y(t-1) + e(t) . y las dem´as autocorrelaciones son aproximadamente iguales a 0.13. entonces. Pero si la muestra hubiese sido mas grande. ¿Que sucede si el t´ermino AR es negativo. Estos no son identicamente a porque estamos trabajando con una muestra en lugar de la poblaci´on. set seed 11111 . Los intervalos de confianza de las bandas se deriva de Davis(2002). es decir. Series de Tiempo Estacionarios 281 La autocorrelaci´on con un rezago es cercano a la poblacional 0. φ < 0? . estos se acercar´ıan al valor poblacional. consideremos un proceso AR(1): yt = 0. *proceso AR(1): y(t) = 0.95yt−1 + t  ∼ (0. sim_arma y. clear all . title("FAS AR(1)") Figura 13. Ahora. ar(0.6: FAS para un Proceso AR(1) En este caso se observa que un shock ocurrido en el periodo t tiene un efecto persistente y cuyo impacto decrece gradualmente en los periodos futuros. 1) .95) sigma(1) nobs(1000) time(t) .

sim_arma y. exploremos un proceso ARM A: yt = 0.5e(t-1) . un shock positivo en el periodo t impactar´ıa negativamente en el periodo t+1. title("FAS AR(1) con phi<0") Figura 13. *proceso AR(1): y(t) = -0. y asi sucesivamente. set seed 11111 .5yt−1 + t + 0. Finalmente . ac y . 1) . dado que el impacto en el periuodo t+1 es negativo. Estas autocorrelaciones muestran un patron de oscilaci´on amortiguada.1): y(t) = 0.282 13. en el periodo t + 2 el impacto es positivo.4. ar(-0. clear all .5y(t-1) + e(t) + 0.75y(t-1) + e(t) . *¿Que sucede si phi<0? . clear all .5t−1  ∼ (0.75) sigma(1) nobs(1000) time(t) . Funci´on de Autocorrelaci´on Muestral (FAS) y Parcial (FAP) . *proceso ARMA(1.7: FAS para un Proceso AR(1) con Phi<0 Con un valor negativo de φ.

Funci´ on de Autocorrelaci´ on Parcial (FAP) Hemos notado que las autocorrrelaciones para un proceso autoregresivo decaen gradualmente. si es un AR(1) o un AR(5).5) ma(0.1) Las autocorrelaciones para el proceso ARM A comienzan con valores altos y decrecen rapidamente a comparaci´on de un proceso AR. title("FAS ARMA(1. set seed 11111 . 13. sim_arma ar1 .5) nobs(1000) . es decir. ma(0. ac arma11.8: FAS para un Proceso ARMA(1. Series de Tiempo Estacionarios 283 . gen(arma11_ac) .2. . .13. .1) AC" . ar(0.1)") Figura 13.5) nobs(1000) . label var arma11 "ARMA(1. ac ar1. gen(ar1_ac) label var ar1 "AR(1)-only AC" ac ma1. gen(ma1_ac) label var ma1 "MA(1)-only AC" . tsline ar1_ac ma1_ac arma11_ac in 1/20 . sim_arma arma11 .4. sim_arma ma1 . . pero usando la funci´on de autocorrelaci´on para un proceso AR no permite detectar de que orden es dicho proceso.5) nobs(1000) . ar(0.

La F AP mide la correlaci´on entre yt y yt+j despu´es de controlar el efecto de yt+1 . Funci´on de Autocorrelaci´on Muestral (FAS) y Parcial (FAP) La Funci´on de Autocorrerlaci´on Parcial (FAP) remedia esto. + φjj (yt−j − µ) + t donde t es un ruido blanco.4yt−2 − 0.3yt−3 . sim_arma y.0. entonces las autocorrelaciones parciales de los rezagos p + 1 en adelante son iguales a 0 en la poblaci´on. mientras que los dem´as son iguales a cero. sin embargo. yt+2 .7 0. Este m´etodo garantiza que la primera FAS sea igual a la primera FAp. la t´ecnica basada en la regresi´on ha demostrado que funciona bien para calcular el FAP. A nivel poblacional. *FUNCI´ ON DE AUTOCORRELACI´ ON PARCIAL (FAP) . . pac y .3y(t-3) . En STATA. pero los resultados simulados para calcular el FAP por el m´etodo de Yule-Walker puede estar seriamente sesgado. las autocorrelaciones parciales φ11 . φ22 .7yt−1 + 0. . . *proceso MA(3) : y(t) = 0.4y(t-2) . la motivaci´on surge en saber si sigue proceso de orden p (AR(p)).3) nobs(10000) . clear . 2 Existe una opci´ on para calcular el FAP a trav´es de las ecuaciones de Yule-Walker. . Ilustremos un ejemplo para un proceso AR(3) para una muestra de T = 10000 observaciones: yt = 0. .4 -0. . . . y − t + j − 1. . Desde una perspectiva de regresi´on. φjj son los coeficiente de la siguiente regresi´on: (yt − µ) = φ11 (yt−1 − µ) + φ22 (yt−2 − µ) + . .284 13. . ar(0. set seed 11111 . el comando pac nos permite obtener la F AP .4. Si bien es cierto. la primera FAS es igual a la primera FAP (ρ1 = φ11 ). title("FAP AR(3)") Note que las tres primeras FAP son estad´ısticamente significativos.7y(t-1) + 0. esto no garantiza que la primera FAS sea igual a la priemra FAP2 . *---------------------------------------.

8131 0.0000 0.0000 0.0000 0.0080 -0.0000 0. Si utilizamos este comando para los primeros 20 rezagos.0000 0.0000 0.0000 0.0000 0.0022 0.0015 0. el comando corrgram muestra la F AS y F AP de manera conjunta.0899 0. tendremos lo siguiente: .2915 0.1379 0.0022 -0.0000 0.13.0000 0.0000 0.0267 PAC 0.8133 0.0153 0.7286 0.0000 0.5357 0. Series de Tiempo Estacionarios 285 Figura 13.0000 0.4218 0.9: FAP para un Proceso AR Como se indic´o en el cap´ıtulo referente al tema de Autocorrelaci´on.0489 0.0053 0.0244 0.0022 0.0115 0.0000 0.0000 0. lags(20) LAG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 AC 0.0067 -0.0126 0.0051 -0.0210 0.0171 -0.0134 0.0243 -0.0000 0.0000 0.0014 0.0000 0.0000 0.0015 0.0071 0.0000 -1 0 1 -1 0 1 [Autocorrelation] [Partial Autocor] .3098 -0.0161 -0.0179 0.0068 0.0074 -0.0218 0.0069 Q 6613 11924 14796 16576 17426 17860 18050 18131 18155 18159 18160 18160 18160 18160 18161 18162 18166 18170 18176 18183 Prob>Q 0. corrgram y .0138 0.1998 -0.0093 0.2081 0.

286

13.5. Ejercicio Propuesto

13.5.

Ejercicio Propuesto

1. Generar de forma manual una serie con T = 8000 observaciones que sigan
los siguientes procesos:
M A(2) : yt = t + 0,3t−1 + 0,7t−2 
t ∼ N (0, 1)
AR(2) : yt = 5 + φt + 0,3φt−1 + 0,7φt−2 
t ∼ N (0, 1)
ARM A(2, 2) : yt = 5 + φt + 0,3φt−1 + 0,7φt−2 + t + 0,3t−1 + 0,7t−2 
t ∼ N (0, 1)
Adem´as, compare los resultados de la media, varianza, autocovarianza y autocorrelaci´on de primer y segundo orden poblacional con la muestral.
2. Simule una serie de T = 5000 observaciones para cada uno de los siguientes
procesos y grafica las funciones de autocorrelaci´on muestral y parcial:
AR(1) con φ1 = 0,95. ¿Qu´e sucede si φ1 = −0,95?
MA(1) con θ1 = 0,95. ¿Qu´e sucede si θ1 = −0,95?
ARMA(1,1) con φ1 = 0,95 y θ1 = 0,95. ¿Qu´e sucede si tienen signos
contrarios ambos par´ametros?

Cap´ıtulo 14
Procesos Estoc´
asticos No
Estacionarios
Una serie no estacionaria se puede deber a:

1. Serie No Estacionaria en Media
Presencia de una tendencia estoc´atica.
Presencia de una tendencia determin´ıstica.
2. Serie No Estacionaria en Varianza
Presencia de una varianza heterosced´astica.

Para el presente cap´ıtulo se desarrollar´a el tema de Series No Estacionarias en
Media.

14.1.

Serie No Estacionaria en Media

En la realidad, casi siempre se trabaja con variables econ´omicas que no son estacionarias. Es decir, a medida que transcurre el tiempo esta variable se va alejando

287

288

14.1. Serie No Estacionaria en Media

de su valor promedio sin tener un trayectoria definida. La diferencia entre procesos
estacionarios y no estacionarios es saber si la evoluci´on a largo plazo (tendencia)
de las series observadas es determin´ıstica o estoc´
astico.
Es proceso es determin´ıstico si la tendencia puede ser predecible y constante.
Mientras que, un proceso estoc´astico no puede ser predecible. A estos u
´ltimos tipos
de procesos se le conoce en la literatura como Camninata Aleatoria o Random
Walk1 .
Hay que diferenciar dos tipos de procesos Random Walk:

1. Caminata Aleatoria sin Variaciones o simplemente Random Walk.
2. Caminata Aleatoria con Variaciones o Random Walk with Drift.

14.1.1.

Proceso Estacionario de Tendencia Determin´ıstica

Si  es ruido blanco que se distribuye con media 0 y varianza σ2 . Se dice que Yt
presenta una tendecia determin´ıstica si:

Yt = β0 + β1 t + t

(14.1)

El valor de Yt depende linealmente de t m´as un choque aleatorio. Si realizamos
la caracterizaci´on de esta serie, obtenemos:

E[Yt ] = E[β0 + β1 t + t ]
= β0 + β1 t

(14.2)

1
El t´ermino Caminata Aleatoria o Random Walk se compara con el camina de un borracho. Al
dejar la cantina, el borracho se mueve una distancia aleatoria , al tiempo t, y contin´
ua caminando
de manera indefinida, con lo cual a la larga se alejar´a cada vez m´as de la cantina.

14. Procesos Estoc´asticos No Estacionarios

V ar[Yt ] = V ar[β0 + β1 t + t ]
= σ2

289

(14.3)

Este tipo de procesos no son estacionarias en media pero si en varianza. Para
convertirlo en un proceso estacioanrio es necesario restar a la serie original su
media, como se muestra a continuaci´on:

Yt − E[Yt ] = (β0 + β1 t + t ) − (β0 + β1 t)
= t
Por lo tanto:

E[Yt − E[Yt ]] = 0
V ar[Yt − E[Yt ]] = σ 2

14.1.2.

Proceso Estacionario de Tendencia Estoc´
astica

Random Walk
Supongase que  es un t´ermino de error ruido blanco que se distribuye con
media cero y varianza σ2 . Entonces, decimos que Yt es un random walk si:

Yt = Yt−1 + t

(14.4)

Como se observa en la anterior ecuaci´on, el valor de Y en el tiempo t es igual
a su valor pasado (t − 1) m´as un choque aleatorio, siendo un modelo AR(1).
Si caracterizamos este proceso, tendr´ıamos con respecto a la media lo siguiente:

290

14.1. Serie No Estacionaria en Media

Y1 = Y0 + 1
Y2 = Y1 + 2 = Y0 + 1 + 2
Y3 = Y2 + 3 = Y0 + 1 + 2 + 3

As´ı sucesivamente hasta obtener la siguiente expresi´on:

Yt = Y0 + Σt

(14.5)

E[Yt ] = E[Y0 + Σt ]
= Y0 + ΣE[t ]
= Y0

(14.6)

Por lo tanto:

Mientras que la varianza de la variable Y es:

V ar[Yt ] =
=
=
=
=

V ar[Y0 + Σt ]
V ar[Σt ]
ΣV ar[t ]
Σσ2
tσ2

(14.7)

Seg´
un la expresi´on (14.6), el promedio de y es igual a su valor inicial, mientras
que, la expresi´on (14.7) muestra que a medida que el tiempo t se incrementa, la
varianza de y tambi´en lo hace. Esto conlleva a decir que la serie y no cumple con
las propiedad de Estacionariedad, ya que la varianza depende del tiempo2 .
2

A menudo se iguala Y0 es igual a cero, o mejor dicho, E[Y0 ] = 0

14. Procesos Estoc´asticos No Estacionarios

291

Otra caracter´ıstica de las series random walk, es la persistencia de los choques
aleatorios, tal como se muestran en la ecuaci´on (14.5) donde la serie Yt es la suma
de su valor incial (Y0 ) y con la sumatoria de los errores (t ). Dado esto, los impactos
de los choques no se desvanecen, es por ello, se dice que el proceso random walk
tiene memoria infinita.
Se obtiene resultados interesantes si la ecuaci´on (14.4) se expresa de la siguiente
manera:

Yt − Yt−1 = ∆Yt = t

(14.8)

siendo ∆ el operador de primera diferencia. Sabemos que la serie Yt no es
estacionaria, pero probaremos a continuaci´on que su primera diferencia si lo es:

E[∆Yt ] = E[t ] = 0
V ar[∆Yt ] = V ar[t ] = σ

(14.9)
(14.10)

Dado que la media y varianza de Yt no depende del tiempo, podemos decir que
la primera diferencia es estacionaria.

Random Walk with Drift
Este tipo de procesos se define de la siguiente manera:

Yt = β + Yt−1 + t

(14.11)

donde β se conoce como el par´ametro de variaci´on o drift. Si realizamos el
proceso iterativo la variable Yt an´alogamente que en el anterior caso, tendremos:

292

14.1. Serie No Estacionaria en Media

Y1 = β + Y0 + 1
Y2 = β + Y1 + 2 = 2β + Y0 + 1 + 2
Y3 = β + Y2 + 3 = 3β + Y0 + 1 + 2 + 3

As´ı sucesivamente hasta obtener la siguiente expresi´on:

Yt = tβ + Y0 + Σt

(14.12)

Si caracterizamos la variable Yt se obtiene:

E[Yt ] = E[tβ + Y0 + Σt ]
= tβ + Y0 + ΣE[t ]
= tβ + Y0

V ar[Yt ] =
=
=
=
=

V ar[tβ + Y0 + Σt ]
V ar[Σt ]
ΣV ar[t ]
Σσ2
tσ2

(14.13)

(14.14)

Como se observa en las expresiones (4.13) y (4.14), tanto la media ccomo la
varianza dependen directamente del tiempo, originando que la Serie Yt no sea
estacionaria.
Si nuevamente despejamos el t´ermino rezagado de Yt para obtener al lado
izquierdo la primera diferencia (∆Yt ), y luego caracterizamos esta nueva serie se
conseguir´ıa lo siguiente:

Si manipulamos la expresi´on (14. sim embargo. −1 ≤ ρ ≤ 1 (14. la primera diferencia de la serie Yt es estacionaria. y por lo tanto.2. ya que sus dos primeros momentos no dependen del tiempo. lo cual conlleva a que este modelo se convierta en un random walk puro. se obtiene: Yt − Yt−1 = ρYt−1 − Yt−1 + t = (ρ − 1)Yt−1 + t O que es lo mismo: (14.14.16) y (14. se puede decir que una serie un proceso Random Walk con o sin drift es NO ESTACIONARIA. En conclusi´on.18) donde t es nuevamente un ruido blanco. Procesos Estoc´asticos No Estacionarios Yt − Yt−1 = ∆Yt = β + t E[∆Yt ] = E[β + t ] = β V ar[∆Yt ] = V ar[β + t ] = σ 293 (14. Proceso de Ra´ız Unitaria Sea el siguiente proceso AR(1): Yt = ρYt−1 + t .17).16) (14.18). 14.19) . Un proceso de Ra´ız Unitaria se da cuando ρ = 1. su primera diferencia si lo es.17) Tal como se muestra en las expresiones (14. restando Yt−1 en ambos lados. se tendr´ıa un proceso no estacionario de Yt .15) (14.

294 14. que indirectamente es lo mismo decir que ρ = 1. por lo tanto. *Incluyendo la ruta donde se encuentra el archivo . ***************************************** . .2. el estad´ıstico usual para contrastar esta hip´otesis no es el t − student. variables allowed max. para probar la hip´otesis nula de que δ = 0. Phillips.1. Proceso de Ra´ız Unitaria ∆Yt = δYt−1 + t (14. Smichdt y Shin (KPSS). Dickey & Fuller demostraron que bajo la hip´otesis nula de que δ = 0. Pruebas de Ra´ız Unitaria Dentro de los test existentes para probar la presencia de Unit Root tenemos: Dickey & Fuller (DF).000M 1.163M . 14. Dickey & Fuller Aumentado (ADF).254M 203. data space max.2.20) sigue una distribuci´ on estad´ıstico tau (τ ).20). As´ı que en la pr´actica se estimar´a el modelo (14. cuya informaci´on provierne del BCRP y se encuentra en el archivo igbvl mensual. el valor estimado de t del coeficiente de Yt−1 en (14. Phillips Perron (PP) y Kwiatkowski. tuvieron que calcular valores cr´ıticos del estad´ıstico τ en abse a simulaciones de Montecarlo. Sin embargo.909M 200. y nos lleva a conclusi´on de que existe Ra´ız Unitaria y por lo tanto la serie Y no es estacionaria. analizaremos la serie del ´Indice General de la Bolsa de Lima (IGBVL) desde el mes de Enero de 1992 hasta Junio 2012. cd "D:\Econometria-Stata\no-estacionario" D:\Econometria-Stata\no-estacionario . A manera de ejemplo. RHS vars in models memory usage (1M = 1024k) 1.20) donde δ = ρ − 1. ***************************************** .csv. set mem 200m Current memory allocation current settable value set maxvar set memory set matsize 5000 200M 400 description max. * PROCESOS ESTOC´ ATICOS NO ESTACIONARIOS * . clear all .

*Graficamos el IGB . 247 obs) . format %tm time . Yt es Estacionaria Si: τ -calculado > τ -cr´ıtico ⇒ Se rechaza la Ho.") (3 vars. insheet using igbvl_mensual.Fuller (DF) El modelo m´as simple para evaluar la presencia de ra´ız unitaria es el desarrollado por Dickey & Fuller: ∆Yt = α + δYt−1 + t Ahora el contraste es el siguiente: Ho: δ = 0 ⇒ Existe Unit Root. *creamos nuestra variable temporal . 1992m1 to 2012m6 delta: 1 month .14. τ -calculado < τ -cr´ıtico ⇒ Se acepta la Ho. tsline igb91 Dickey . . ************************** . Yt No es Estacionaria Ha: δ 6= 0 ⇒ No Existe Unit Root. * PRUEBAS DE RA´ IZ UNITARIA . Procesos Estoc´asticos No Estacionarios 295 . *Prueba de Dickey-Fuller (DF) .month) (1 missing value generated) .delimiter(". *establecemos una base de datos de serie de tiempo . por lo tanto. gen time=ym(year. por lo tanto. tsset time time variable: time.csv.

Fuller Aumentado (ADF) En esta prueba se puede excluir la constante e incluir una tendencia lineal. en terminos generales. Yt No es Estacionaria Si: .950) a un nivel de significancia del 95 %. las estimaciones que originan este test se muestran en el cuadro de abajo.410 -1. es decir. Yt es Estacionaria Ha: δ 6= 0 ⇒ No Existe Unit Root. Interval] -.620 [95 % Conf. por lo tanto. noconstant regress Dickey-Fuller test for unit root Test Statistic Z(t) 0. se acepta la Ho.82 0.21) i=1 El contraste es similar al anterior caso: Ho: δ = 0 ⇒ Existe Unit Root. Proceso de Ra´ız Unitaria . el τ -calculado (0.0069485 .igb91 Coef. dfuller igb91. igb91 L1. Por lo cual. Err. tambi´en existe la opci´on de pedir utilizar los rezagos de la variable diferenciada (∆Yt−i ) de acuerdo a alg´ un criterio de informaci´on. el IGBVL es no estacionaria.005005 Number of obs = 245 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value -2.825) es menor (en valor absoluto) al τ cr´ıtico (1. Por lo tanto.950 Std.581 -1. la prueba ADF consiste en estimar el siguiente modelo: ∆Yt = β1 + β2 t + δYt−1 + αi m X ∆Yt−i + t (14.296 14. por lo tanto.0169585 Seg´ un el test de DF. Dickey .0060686 0. .825 D.2. t P>|t| .

las estimaciones que originan este test se muestran en el cuadro de abajo. Err.131 MacKinnon approximate p-value for Z(t) = 0.14.364 [95 % Conf. La hipotesis nula Ho del test de Phillips-Perron es la trayectoria de raiz unitaria con tendencia y la alternativa la estacionariedad con tendencia. _trend _cons Coef.7503 D. Por lo tanto. si el valor t-Student asociado al coeficiente de Yt−1 es mayor en valor absoluto al valor critico de MacKinnon.0233522 2.992 -3. la ecuacion es estimada por MCO y luego el estadistico t del coeficiente ρ es corregido. el IGBVL es no estacionaria.431) a un nivel de significancia del 95 %. *Prueba de Phillips-Perron (PP) .013726 1. . dfuller igb91.484391 134.PP Este contraste estad´ıstico estima una regresi´on haciendo una correcci´on sobre la matriz de varianzas y covarianzas de los residuos.91 P>|t| 0.1746 Std.749317 -115. *Prueba de Dickey-Fuller Aumentado (ADF) . .049 0.388493 126. Mas bien.70 1.0503899 .igb91 igb91 L1.6946 t -1.090 0. el τ -calculado (1. la prueba PP es una prueba de hipotesis sobre ρ = 1 en la ecuacion: ∆Yt = ∆β + ρYt−1 + ∆. Interval] -.7397 . es decir. Procesos Estoc´asticos No Estacionarios 297 τ -calculado > τ -cr´ıtico ⇒ Se rechaza la Ho. τ -calculado < τ -cr´ıtico ⇒ Se acepta la Ho. pero a diferencia de la prueba ADF. -.431 -3.0036856 5. . se rechaza la hipotesis de existencia de raiz unitaria. Al igual que la prueba ADF. trend regress Dickey-Fuller test for unit root Test Statistic Z(t) Number of obs = 245 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value -1.701) es menor (en valor absoluto) al τ -cr´ıtico (3.0142433 -364.3904 Seg´ un el test de ADF. La correcci´on es mediante un m´etodo no param´etrico. no existen terminos de diferencias retardados.98 -0. se acepta la Ho. Phillips Perron .701 -3.

131 MacKinnon approximate p-value for Z(t) = 0.926 -2. _trend _cons . Proceso de Ra´ız Unitaria . Interval] .6946 t 71.7397 1.298 14.9766478 2. Err. . Pero se trata de una cuasidiferencia Yt aYt−1 .484391 134.367 -3.280) a un nivel de significancia del 95 %. El contraste es el siguiente: Ho: La serie tiene Unit Root. las estimaciones que originan este test se muestran en el cuadro de abajo.15 1.003686 5.431 -17. igb91 L1. Aqu´ı el valor de α representa el punto espec´ıfico contra el cual contrastamos la hip´otesis nula (valor menor a uno). el valor t-Student asociado al coeficiente de Yt−1 (8.992 -21.2. Ha: La serie no tiene Unit Root.749317 -115. donde a toma el valor uno en el caso anterior (ADF). trend regress Phillips-Perron test for unit root Number of obs = 245 Newey-West lags = 4 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value Test Statistic Z(rho) Z(t) -8.983 -3.0142433 -364.5346 igb91 Coef. Por lo tanto.3904 Seg´ un el test de PP.013726 1. se acepta la Ho.000 0.1746 Std. Rothenberg y Stock (ERS)o (DF-GLS) Antes de aplicar la regresi´on propuesta por Dickey & Fuller. se debe primero extraer la tendencia de la serie original. . Si: t-calculado > t-cr´ıtico ⇒ Se rechaza la Ho.9496101 . pperron igb91.91 P>|t| 0.926) es mayor en valor absoluto al valor critico de MacKinnon (21. el IGBVL es no estacionaria. Elliot.388493 126. es decir.98 -0.280 -3.120 -28.364 [95 % Conf.049 0.

534 -2.480 -3.53372 at lag 5 with RMSE 810.899 -2. *Prueba de Elliot. es el n´ umero de rezagos ´optimos (15) incluidos en el modelo para probar ra´ız unitaria.174 -1.961 -2.480 -3.560 -2.619 -2.462 -3.584 -2.480 -3.612 -2.912 -2.480 -3.803 -2. Phillips.860 -2.833 -2.100 -1.842 -2. el cual son en todos los rezagos menores al valor t cr´ıtico.436 -2.525 -2.569 -2.618 -2.480 -3. Kwiatkowski.188 -2.480 -3.271 -2.868 -2. Procesos Estoc´asticos No Estacionarios 299 t-calculado < t-cr´ıtico ⇒ Se acepta la Ho. dfgls igb91 DF-GLS for igb91 Maxlag = 15 chosen by Schwert criterion Number of obs = 230 [lags] DF-GLS tau Test Statistic 1 % Critical Value 5 % Critical Value 10 % Critical Value 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 -2.480 -2.480 -3.624 -2.7147 851.855 -2.543 -2.5482 835. El contraste es el siguiente: Ho: La serie es estacionaria.480 -3.851 -2.954 -1.813 -2.896 -2. y segundo.906 -2.884 -2. los estad´ısticos calculados t.838 -1.918 -2.3038 El test de DFGLS nos brinda dos informaciones importantes: Elprimero.58869 at lag 3 with RMSE Min MAIC = 13. .577 -2.599 -2.010 -1. Por lo tanto. se puede decir que existe se acepta la Ho (existe ra´ız unitaria).480 -3. Rothenberg y Stock (ERS)o DF-GLS . ´esta es la principal diferencia con los otros test de ra´ıces unitarias.KPSS Proponen contrastar como hip´otesis nula la hip´otesis de estacionariedad en tendencias.876 -2.14.480 -3. .480 -3.606 -2.552 -2.706 -1. Smichdt y Shin . KPSS es frecuentemente utilizado con las otras pruebas de ra´ıces unitarias para investigar si la serie es fraccionalmente integrada.480 -3. Ha: La serie no es estacionaria.480 -3.042 -1.592 -2.630 Opt Lag (Ng-Perron seq t) = 12 with RMSE Min SC = 13.823 -2.892 -2.480 -3.

kpss igb91 KPSS test for igb91 Maxlag = 15 chosen by Schwert criterion Autocovariances weighted by Bartlett kernel Critical values for H0: igb91 is trend stationary 10 %: 0.427 .89 1.176 1 % : 0.2.967 . el valor de los estad´ısticos calculados. findit kpss .72 1. *Prueba de Kwiatkowski. es decir. Una de las formas mas usuales es el m´etodo de la diferenciaci´ on.300 14. . Proceso de Ra´ız Unitaria Si: valor calculado > valor cr´ıtico ⇒ Se rechaza la Ho. el KPSS nos brinda dos informaciones importantes: Elprimero.146 2.5 %: 0.466 .27 .31 .368 . se puede decir que existe se rechaza la Ho (la serie no es estacionaria). 14. es necesario convertirla en estacionaria.326 . Por lo tanto.216 Test statistic 3.119 Lag order 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 5 % : 0. valor calculado < valor cr´ıtico ⇒ Se acepta la Ho.2. Transformaci´ on de Series No estacionarias Dado la serie analizada presenta ra´ız unitaria seg´ un todas las pruebas.2.296 Aligual que el test de DFGLS. entonces. calcular ∆Yt . Phillips. y segundo.345 . A partir de esta nueva serie aplicar . el cual son en todos los rezagos mayores al valor t cr´ıtico.515 .394 .785 .579 .664 . Smichdt y Shin (KPSS) . es el n´ umero de rezagos ´optimos (15).

d_igb91 L1.d_igb91 Coef.431 -3. -. g d_igb91=D.345 0.581 Std.992 -3. dfuller d_igb91.15 0.881 [95 % Conf. _trend _cons -.0000 D. dfgls d_igb91 Std.54 0.95 -0. dfuller d_igb91.42 P>|t| 0.d_igb91 Coef.9217 -.6404 //ERS DF-GLS for d_igb91 Maxlag = 15 chosen by Schwert criterion [lags] P>|t| DF-GLS tau Test Statistic 1 % Critical Value Number of obs = 5 % Critical Value 229 10 % Critical Value .1104 t -14.igb91 (2 missing values generated) . d_igb91 L1.620 [95 % Conf. Err.8095957 114.9241252 Number of obs = 244 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value -2.950 t -14.14068 .000 -1.8098782 2. Err. noconstant regress //DF Dickey-Fuller test for unit root Test Statistic Z(t) -14. Interval] -1.050326 -. .536 -3. El procedimiento de diferenciaci´on se utilzia hasta que la serie se convierta en estacionaria.131 MacKinnon approximate p-value for Z(t) = 0.7661244 -17.424 D. *pruebas de ra´ ız unitaria . *generamos la diferencia del igb91 .0644488 . Interval] -1. Si generamos la diferencia de la serie IGBVL (d igb91 ) y contrastamos las pruebas de ra´ız unitaria veremos lo siguiente: .063788 -.8286628 -241.14. trend regress // ADF Dickey-Fuller test for unit root Test Statistic Z(t) Number of obs = 244 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value -14.9368331 .7979245 .0640686 -1.000 0. Procesos Estoc´asticos No Estacionarios 301 otra vez las pruebas de ra´ız unitaria y verificar que no exista este problema.360912 207. .

1104 t 0.702 -14.592 -2.480 -3.0313 1 % : 0. kpss d_igb91 Std.815 -6.276 -3.0644488 .549 -4.480 -3.302 14.584 -2.480 -3.813 -2.619 -2.992 -21.609 -6.569 -2.5 %: 0. trend regress -2. .164 -5.7661244 -17.480 -2.803 -2.534 -2.98 0.2.612 -2. Proceso de Ra´ız Unitaria 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 -3.552 -2.14068 .0396 .59831 at lag 3 with RMSE Min MAIC = 14.560 -2. pperron d_igb91.480 -3.543 -2.345 0.480 -3.301 -4.3959 //PP Phillips-Perron test for unit root Number of obs = 244 Newey-West lags = 4 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value Test Statistic Z(rho) Z(t) -274.119 Lag order 0 1 2 3 4 5 6 5 % : 0.827 -4.480 -3.480 -3.577 -2.899 -28.913 -2. Err.868 -2.480 -3.480 -3.833 -2.919 Opt Lag (Ng-Perron seq t) = 15 with RMSE Min SC = 13.360912 207.899 -2.586 -3.431 -17.95 -0.0344 .135 -3.0499 .575 -7.176 Test statistic .480 -3.480 -3.146 2.884 -2.131 MacKinnon approximate p-value for Z(t) = 0.892 -2.606 -2.860 -2.877 -2.775 -4.328 0.15 P>|t| 0.480 -3.624 -3.1901218 2.8286628 -241.3016 855.823 -2.0000 d_igb91 Coef.360 -3.599 -2.851 -2.6404 .881 //KPSS KPSS test for d_igb91 Maxlag = 15 chosen by Schwert criterion Autocovariances weighted by Bartlett kernel Critical values for H0: d_igb91 is trend stationary 10 %: 0. d_igb91 L1.9217 .630 804.081 -6.980 -3.0631669 . _trend _cons .842 -2.207 -3.624 -2.001 -6.906 -2.5125 867.0469 .480 -3.063788 -.0326 . Interval] -.0317 .8095957 114.056 -4.20697 at lag 2 with RMSE .480 -3.216 [95 % Conf.525 -2.

0329 . Eliminandose el problema de ra´ız unitaria. Se pide analizar la estacionariedad de todas las series.0326 . 14.14. Ejercicio Propuesto Se la base de datos de sector real.xls el cual contiene informaci´on anual entre el periodo 1992-2011 de algunas series macroecon´omicas.3.0318 .032 .033 . . Procesos Estoc´asticos No Estacionarios 7 8 9 10 11 12 13 14 15 303 .0337 Como se puede observar en todos los casos.0336 .0336 . convertirlar a estacionarias.0334 . la primera diferencia del IGBVL deja de ser no estacionaria. Si en caso no fueran estacioanrias.

Ejercicio Propuesto .3.304 14.

inferencia estructural y an´alisis de pol´ıticas. el t´ermino de error del modelo en la forma reducida tambi´en puede estar correlacionado entre las ecuaciones. Cada ecuaci´on es estimada por MCO. Si las variables se encuentran correlacionadas. La metodolog´ıa de Vectores Autoregresivos parte del supuesto del no conocimiento de las variables (el modelo te´orico detr´as de la forma reducida) por lo que busca ver las din´amicas entre las variables. El numero de valores rezagados a incluir se basan en diferentes m´etodos ( Akaike. Existen tres variedades de VAR: Forma Reducida del VAR Expresa cada variable como una funci´on lineal de sus propios valores pasados y los valores pasados de todas las dem´as variables. La importancia de los modelos VARs es que es un enfoque coherente y cre´ıble de descripci´on de datos. predicci´on. VAR Recursivo 305 .Cap´ıtulo 15 Modelos de Vectores Autoregresivos El Modelo de Vectores Autoregresivos (VAR) representa un sistema lineal de n variables con n ecuaciones en el que cada variable es explicado por sus propios valores rezagados y los valores pasados de las restantes n-1 variables. considerando el termino de error serialmente no correlacionado. BIC. etc). El t´ermino de error en estas regresiones son los movimientos sorpresas en las variables despu´es de considerar los valores pasados.

El n´ umero de VARs estructurales es limitado solamente por la inventiva del investigador. Los resultados dependen del orden de las variables. Se incluye algunos valores contempor´aneos como regresores. De acuerdo al esquema tradicional de pol´ıtica monetaria. interes (tasa de referencia de la pol´ıtica monetaria) durante el primer trimestre 2005 hasta el u ´ltimo trimestre del 2011. produci´endose residuos que no se encuentran correlacionados.dta se tiene informaci´on de algunas variables econ´omicas peruanas: inflacion (variaci´on porcentual del indice de precios). A continuaci´on se realizara una especificaci´on del VAR no restringido (a la Cholesky). Esto produce variables instrumentales que permitan relaciones contempor´aneas sean estimadas usando regresiones de variables instrumentales.306 Construye los t´erminos de error en cada regresi´on como no correlacionado con el termino de error de la ecuaci´on anterior. Ejercicio En el archivo phillips. VAR estructurales requiere supuestos de identificaci´on que permita que las correlaciones sean interpretadas por causalidad. donde hay n representaciones de VARs. VAR Estructural Usa la teor´ıa econ´omica para establecer las relaciones contempor´aneas entre las variables. Estos supuestos de identificaron puede involucrar todo el VAR o solo algunas ecuaciones. Utilizando un modelo parecido al de Stock y Watson se plantea un VAR reducido que involucran las siguientes ecuaciones: inf laciont = β11 inf lacion(−1) + β12 inf lacion(−2) + β13 desempleo(−1)+ + β14 desempleo(−2) + β15 interes(−1) + β16 interes(−2) + ß17 . La estimaci´on de cada ecuaci´on se hace con MCO. ordenando las variables desde la m´as end´ogena hasta la m´as ex´ogena. el mecanismo de transmisi´on va desde la tasa de inter´es. desempleo (tasa porcentual). pasando con la demanda agregada y terminando en la variaci´on del ´ındice de precios.

var inflacion desempleo interes . *Definiendo a la base de datos como una serie de tiempo . *Abriendo un archivo de formato STATA (. tsset year time variable: delta: year. **************** . cd "D:\Econometria-Stata\var" D:\Econometria-Stata\var . *Limpiando la memoria . clear . realizaremos dicho analisis) .dta) . se proceder´a a realizar los pasos en STATA (en orden) y estimar un VAR con el objetivo de encontrar la funci´on impulso respuesta y realizar proyecciones: . 1 to 28 1 unit . **************** . *3er PASO . use phillips. *Identificando la ruta donde se encuentra el archivo . Modelos de Vectores Autoregresivos desempleot 307 = β21 inf lacion(−1) + β22 inf lacion(−2) + β23 desempleo(−1)+ + β24 desempleo(−2) + β25 interes(−1) + β26 interes(−2)+ interest = β31 inf lacion(−1) + β32 inf lacion(−2) + β33 desempleo(−1)+ + β34 desempleo(−2) + β35 interes(−1) + β36 interes(−2)+ Dado el sistema de ecuaciones. *1ER PASO . cap.dta . *Estimaci´ on VAR .15. *Asumiendo que las variables son estacionarias (sgte. *2do PASO . ************** .

3163771 interes L1.1596 0.625 0. L2.671 -.0205475 -.0951718 -2.0067924 desempleo L1.2673601 .5117272 interes L1. L2.871528 .128392 -2.05 0.334926 -. L2.3249407 -1.0000 [95 % Conf.125724 1.4179195 .220517 .025 0.0554645 .8097 4. L2.625039 .000 0.472374 11. Interval] inflacion inflacion L1.4587205 -.431 -.723519 -.4792557 .149689 6.068791 1.1628153 0. L2.67 0.2573957 _cons 7.320 -.438602 -.57 -0.614 -.9690684 3. z No.0691278 .9278 Std.94595 FPE = . .28 0.4573388 6.108112 .0218 0.013 0. . 1.109321 desempleo inflacion L1.568 0.004 0.1453683 .24 -0.442304 7.8593798 .77 0.603765 . L2.1785103 3.055 .023 .2196879 1.1673621 .2646125 . L2.2506085 .7037784 -. L2.74 0.000 3.5491019 -.47 2.030 -.145849 .1206884 9.84337 .33 -0.28333 1.165843 0.2894678 .5519 0.8779693 1.8874806 .1625398 .21 -0.8460944 .225 0.165734 -.28 Log likelihood = -58.1320606 .99 0. RMSE R-sq .945511 3.0962437 .3882399 .0186982 Equation Parms inflacion desempleo interes 7 7 7 Coef.4963436 .4819553 -.49 0. -.92 0.1119754 -.2408203 2.1869101 -.000 0.93706 333.441 -.6414245 .000 1.285505 1.62 -1.352897 -.463316 0.0979673 Det(Sigma_ml) = .0580612 -. of obs AIC HQIC SBIC chi2 P>chi2 14.42 0.09864 interes inflacion L1.441859 2.3629 0.2758278 .1967952 .1515296 .1721826 .0647335 .18 0.6345389 .1961098 .1731846 .3430815 .90 -5.79 0.8755386 -. Err.3862636 desempleo L1.308 Vector autoregression Sample: 3 .1732402 -0. -. -.292 -.50 0. -. .3094594 desempleo L1.6929553 .500 .2723928 -.4048797 _cons 1.153685 -.87 0. .2056866 .8844 P>|z| = = = = 26 6.182 0.3936139 interes L1.2070807 .2521094 -. L2.31 0.2499842 _cons 3.2044218 .

Teniendo claro esto procedemos a realizar el cuarto paso.0000 = = = = 26 6. *Causalidad de granger .1238 7.0186982 Equation Parms inflacion desempleo interes 7 7 7 RMSE R-sq .38392* 6.93706 333.28 Log likelihood = -58.2664 Endogenous: Exogenous: 60. Posteriormente se determin´o el rezago ´optimo usando los criterios de informaci´on de AIC.142213 8.2078 -67.353 .8097 4.28 lag 0 1 2 3 LL LR -97. of obs AIC HQIC SBIC chi2 P>chi2 14.9278 No.09994* 6.15. BIC y HQIC a trav´es del comando varsoc. lags(1/2) Vector autoregression Sample: 3 .91432* 7.1157 -55.000 0. var inflacion desempleo interes.0979673 Det(Sigma_ml) = . que es realizar el test de causalidad de Granger. *Rezago ´ optimo del VAR .42131 = HQIC 25 SBIC 8.8844 0.32926 6.1596 0. .94595 FPE = .608426 .5519 0.463316 0. *4to PASO . **************** .149689 6.2493 -50. Stata por default realiza usando 2 rezagos en la estimaci´on.01662 6. Seg´ un dicho resultado mostrado arriba.3629 0. maxlag(3) Selection-order criteria Sample: 4 .84337 .0218 0.16289 6.005 0.625039 .113489 .82699 8.05719 6.165843 .49153 6.184 23.093706* .9659 Number of obs df p FPE AIC 9 9 9 0.733* 9. este nos indica que la estimaci´on var se deber´ıa usar 2 rezagos.88396 inflacion desempleo interes _cons N´otese que cuando escribimos solamente el comando var sin ninguna opci´on. Modelos de Vectores Autoregresivos 309 . varsoc.442304 7.

320 -.4587205 -. -.1625398 .145849 . L2.7037784 -.023 .9690684 3.3163771 interes L1.3094594 desempleo L1. -.000 0.1515296 .1869101 -.2521094 -.055 .182 0.05 0.0951718 -2.441 -.2758278 .8779693 1.2646125 .109321 desempleo inflacion L1.99 0.31 0.74 0.09864 interes inflacion L1.6929553 . Std.723519 -.4179195 .0205475 -.2056866 .47 2.21 -0.49 0. L2.2894678 .79 0.0580612 -.1673621 .87 0.6345389 .33 -0.28 0.153685 -.671 -.50 0. z P>|z| [95 % Conf.4048797 _cons 1.92 0.431 -.1961098 .4819553 -.3249407 -1.1967952 .1785103 3.128392 -2.0554645 .334926 -. Interval] inflacion inflacion L1.2408203 2.6414245 .2196879 1.4963436 .871528 .292 -.42 0.285505 1.225 0.614 -.108112 .603765 .0647335 .1119754 -.013 0.0691278 .90 -5.438602 -.220517 .000 0.472374 11.500 .18 0. L2.5117272 interes L1.352897 -. .125724 1.025 0.068791 1.2723928 -. .000 3. .2673601 .3862636 desempleo L1. 1.8593798 .28333 1.5491019 -. L2.625 0.3430815 .0962437 . L2.310 Coef.030 -.1453683 .165734 -.62 -1.1731846 . L2.1206884 9.2506085 .77 0. -. -.2044218 .1628153 0.1721826 .000 1.8755386 -. . L2.24 -0.2573957 _cons 7. Err.8874806 .2070807 .2499842 _cons 3.568 0.4792557 .004 0.67 0.945511 3.57 -0.8460944 .3936139 interes L1.3882399 .0067924 desempleo L1.441859 2.4573388 6. L2.1732402 -0. L2.1320606 .

839 0.4553 2 2 4 0. se cumple la condici´on de estabilidad. Dado que los resultados del modulus de cada eingevalor es estrictamente menor a 1.7116242 .6811 16.3886478i + - . Modelos de Vectores Autoregresivos 311 .369863 .2631 .001 0.03898298 .176381 All the eigenvalues lie inside the unit circle.669727 .629 2 2 4 0.336 8.016 0.076 desempleo desempleo desempleo inflacion interes ALL 2.810837 .509 interes interes interes inflacion desempleo ALL 14.3026 2 2 4 0.4175 3.3886478i .002 La hip´otesis nula es que el rezago de las variables inflacion e interes si ayudan a explicar o predecir las variables inflacion. .3698625 . **************** . *5to PASO .013 0.810837 .176381 . En este caso el comando varstable realiza la prueba de estabilidad del var(2) estimado.6697269 -. varstable. vargranger Granger causality Wald tests Equation Excluded chi2 df Prob > chi2 inflacion inflacion inflacion desempleo interes ALL 8. VAR satisfies stability condition.265 0.299 0.35172 8. Caso contrario es que el se observa en la variable desempleo quien no ayuda a explicar a ninguna variable.7116242 .03898298 + - .6594 2.1720191i .15. interes y desempleo en un 10 % y 5 % respectivamente. graph Eigenvalue stability condition Eigenvalue . . *Prueba de Estabilidad del VAR .1720191i Modulus .

000 0.lema hasta de orden 2 ya que la probabilidad es mayor a 0.3872 9 9 0.40232 H0: no autocorrelation at lag order .57949 0. En la prueba de significancia individual y conjunta de la estimaci´on var(2) concluye que todos los coeficientes para cada ecuaci´on son . existe evidencia para concluir que no existe tal prob.4554 30.000 chi2 df Prob > chi2 171.000 Equation: desempleo lag 1 2 Equation: interes lag 1 2 Equation: All lag 1 2 Con respecto al test autocorrelaci´on. .813 3 3 0.423 0.800837 1. *Test de autocorrelaci´ on . *6to PASO .000 0.5555 9. *Prueba de la significancia conjunta de los coeficientes del var(2).05 y por ende no se rechaza la hip´otesis nula. varlmar Lagrange-multiplier test lag chi2 df Prob > chi2 1 2 7.677 chi2 df Prob > chi2 146.899 chi2 df Prob > chi2 2.009 0. varwle Equation: inflacion lag 1 2 chi2 df Prob > chi2 11.312 .58681 .589807 3 3 0.01551 9 9 0.7505 35.524876 3 3 0. **************** .

**************** .28 Log likelihood = -58. step(16) . fcast compute f1_. *Impulso Respuesta: caso var(2) . la u ´ltima tabla nos permite aseverar que de manera global todos los rezagos asociados a cada ecuaci´on son signi.05).149689 .cativas (probabilidad menor a 0. lags(1/2) irf Vector autoregression Sample: 3 . *7 mo PASO . Sin embargo. *Pron´ ostico 3 anhos (2012-2015) usando var(2) .1: Proyecci´on . br f1_inflacion f1_desempleo f1_interes Figura 15. varbasic inflacion desempleo interes. Modelos de Vectores Autoregresivos 313 significativos excepto para la variable desempleo tanto para el primer y segundo rezago (probabilidad < 0.94595 No. *8 vo PASO . fcast graph f1_inflacion f1_desempleo f1_interes .15. **************** . . of obs AIC = = 26 6.05).

L2.125724 1.025 0.2056866 .74 0.6414245 .8593798 .8460944 .441859 2.472374 11.5491019 -.0962437 .000 0.1453683 .3163771 interes L1.3862636 desempleo L1.2521094 -.6929553 .8097 4. L2.3936139 interes L1.3249407 -1. .1596 0.500 .9690684 3.1515296 .182 0.49 0.625 0.000 3.5117272 interes L1.1869101 -.09864 interes inflacion L1.1721826 .93706 333.0186982 Parms 7 7 7 Coef.320 -.165734 -.145849 .1732402 -0.334926 -.1206884 9.0951718 -2.8779693 1.92 0.0000 Std.1625398 .2646125 .438602 -.871528 .0691278 .4963436 .8755386 -.0205475 -. .068791 1.2196879 1. -.47 2.79 0.4048797 _cons 1.2506085 .2044218 .57 -0.21 -0.2070807 .1673621 .50 0.945511 3.1119754 -.225 0.109321 desempleo inflacion L1.2408203 2. L2.1320606 .33 -0.3094594 desempleo L1.0647335 .3882399 .2758278 .4819553 -.8874806 .67 0.023 . L2.568 0.77 0.1961098 .1628153 0. -.165843 [95 % Conf.1967952 .000 1.18 0.90 -5.603765 .671 -.99 0.614 -.87 0.441 -. .004 0.0580612 -.625039 .3629 0.3430815 . z P>|z| 6.013 0.6345389 .2499842 _cons 3.42 0.8844 0.352897 -.4587205 -.4179195 .05 0.2573957 _cons 7.4792557 . Interval] inflacion inflacion L1.108112 .5519 0.030 -.7037784 -. -.1731846 .0979673 .220517 .285505 1.9278 14.000 0. . L2. L2.314 FPE Det(Sigma_ml) Equation inflacion desempleo interes = = .0554645 .2673601 .0067924 desempleo L1.431 -. -. L2. L2.28333 1.2894678 . Err.1785103 3.292 -.24 -0.2723928 -. L2.28 0.723519 -.4573388 6.84337 . HQIC SBIC = = RMSE R-sq chi2 P>chi2 . 1.0218 0.128392 -2.62 -1.31 0.055 .463316 0.153685 -.442304 7.

1.csv se tiene informaci´on de algunas variables econ´omicas peruanas: tc nominal (definido como el precio relativo soles por d´olar estadounidense) y it creal (definido como el indice [Dic 01=100] del precio relativo entre bienes de ambos paises) durante enero 1998 hasta el noviembre del 2011. Tambi´en se observa una relaci´on directa entre la tasa de inter´es y tasa de inflaci´on. De las funciones impulso respuesta.15. Modelos de Vectores Autoregresivos 315 Figura 15. . Analizando esto se puede evidenciar la importancia que tienen las perturbaciones nominales en la din´amica del tipo de cambio real peruano. Trabajando en logaritmos y asumiendo estacionalidad se pide estimar un VAR. encontrar el orden de dicha estimaci´on. graficando la reacci´on hasta 8 periodos con bandas de confianza anal´ıticas. 15. Ejercicio Propuesto En el archivo tc var. Aqu´ı se observa un posible trade-off entre la tasa de inflaci´on y la tasa de desempleo en el corto plazo al igual que la tasa de inter´es y tasa de desempleo.2: Funci´on de Impulso Respuesta La funci´on impulso respuesta sirve para encontrar la respuesta de valores actuales y futuros de cada variable ante un incremento unitario en la innovaci´on. realizar la funci´on impulso respuesta y proyectar 2 a˜ nos ambas variables.

1.316 15. Ejercicio Propuesto .

En este caso. En este ejemplo.Cap´ıtulo 16 Modelos de Correci´ on de Errores El modelo de correcci´on de errores es utilizado cuando las variables est´an cointegradas. se debe evaluar la existencia de cointegraci´on. el sistema contiene dos variables llamadas y y x. dado 317 . Formalmente consideremos dos series temporales. las ecuaciones describen un sistema en el cual cada variable esta en funci´on de su propio rezago y el rezago de la otra variable del sistema. Juntos las ecuaciones constituyen un sistema llamado vector autoregresivo (VAR). De manera general la discusi´on sobre la relaci´on din´amica de estas dos variables relacionadas se da a trav´es del siguiente sistema de ecuaciones: yt = β10 + β11 y(t − 1) + β12 x(t − 1) + vty xt = β20 + β21 y(t − 1) + β22 x(t − 1) + vtx Tal como se observa. Si se demuestra que existe cointegraci´on entre estas dos series no es posible usar el enfoque de vectores autoregresivos (VAR) y por tanto es necesario usar el modelo de correcci´on de errores para conseguir resultados correctos. yt y xt . La prueba de cointegraci´on es un test para corroborar si una combinaci´on lineal de series son estacionarias o no. Si dos o m´as series temporales no estacionarias tienen una relaci´on de largo plazo comun (o de equilibrio).

luego se toma diferencias y se estima usando MCO: ∆yt = β10 + β11 ∆y(t − 1) + β12 ∆x(t − 1) + vt∆y ∆xt = β20 + β21 ∆y(t − 1) + β22 ∆x(t − 1) + vt∆x Si por otro lado. Ejercicio En el archivo vecm. **************** . A continuaci´on se proceder´a a realizar los pasos en STATA (en orden) y estimar un modelo de correcci´on de errores realizando todo los pasos previos. . Si y y x son estacionarias. y y x son I(1) y cointegradas. Si por el contrario. el sistema de ecuaciones es modificado para permitir la relaci´on de cointegraci´on entre estas dos variables I(1). clear .dta se tiene informaci´on anual durante 1950-2011 de las siguiente variables econ´omicas peruanas: pbi (Producto bruto interno en millones de soles 1994) y cpr (Consumo privado en millones de soles 1994). Introduciendo la relaci´on de cointegraci´on el modelo correcto a usar es el de correcci´on de errores. *1er PASO . *Limpiando la memoria ram . A partir del uso de estas variables (en t´erminos logaritmos) se le pide estimar un modelo de correcci´on de errores realizando todo los pasos previos que permitan el uso de dicho modelo. esto me permitir´a encontrar la funci´on impulso respuesta y realizar proyecciones.318 que el numero m´aximo de rezagos es 1. el sistema puede ser estimado usando MCO aplicado para cada ecuaci´on. y y x no son estacionarias en sus niveles pero estacionarias en diferencias (I(1)). *Especificando la ruta donde se encuentra el archivo . tenemos un VAR(1).

288549 at lag Min MAIC = -6.829 Opt Lag (Ng-Perron seq t) = Min SC = -6. **************** . tsset year time variable: delta: year. 1950 to 2011 1 unit . g lcpr=log(cpr) .0388019 .724 -3.096 -3. dfuller lpbi.366 -1.061 -3.802 -2.361305 at lag 2 with RMSE 2 with RMSE 2 with RMSE .188669 at lag 1 with RMSE 1 with RMSE 2 with RMSE .724 -3.724 -3.724 -3. maxlag(3) DF-GLS for lpbi Number of obs = 58 [lags] DF-GLS tau Test Statistic 1 % Critical Value 5 % Critical Value 10 % Critical Value 3 2 1 -1.dta . maxlag(3) DF-GLS for lcpr Number of obs = 58 [lags] DF-GLS tau Test Statistic 1 % Critical Value 5 % Critical Value 10 % Critical Value 3 2 1 -1.724 -3.146849 at lag Min MAIC = -6.0431345 . *Abriendo un archivo en formato Stata (.16.829 Opt Lag (Ng-Perron seq t) = Min SC = -6.061 -3. dfgls lcpr.731 -3. *Rezago ´ optimo:2 .0431345 .897 -3.338 -1. *2do PASO .316 -1.127 -2. use vecm. *Identificando la data como time series .096 -3. dfgls lpbi.471 -1.724 -3.127 -2. *Generando variables .0388019 .770 -2. lags(1) . *Rezago ´ optimo:1 .770 -2.0388019 .dta) .802 -2. *Raiz unitaria utilizando el rezago optimo . g lpbi=log(pbi) . Modelos de Correci´on de Errores 319 . *Test para encontrar el rezago optimo incluyendole un maximo de rezagos: (3) . cd "D:\Econometria-Stata\vecm" D:\Econometria-Stata\vecm .0422051 .

dfuller lpbi. dfuller lcpr. lags(2) noconstant Augmented Dickey-Fuller test for unit root Test Statistic Z(t) 3.320 Augmented Dickey-Fuller test for unit root Number of obs = 60 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -0. dfuller lcpr.069 -4.8605 .923 -2.175 .645 -3.567 -2.596 MacKinnon approximate p-value for Z(t) = 0.596 MacKinnon approximate p-value for Z(t) = 0.610 . lags(2) trend Augmented Dickey-Fuller test for unit root Number of obs = 59 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -2. lags(1) trend Augmented Dickey-Fuller test for unit root Test Statistic Z(t) Number of obs = 60 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value -2.128 -3. dfuller lcpr.490 -3.950 -1.950 -1.616 -1.500 Number of obs = 59 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value -2.046 -4. dfuller lpbi.765 -2.219 -3.130 MacKinnon approximate p-value for Z(t) = 0.174 MacKinnon approximate p-value for Z(t) = 0.5637 . lags(1) noconstant Augmented Dickey-Fuller test for unit root Number of obs = 60 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) 2.6653 .491 -3.616 -1.5763 -3.922 -2.566 -2.610 . lags(2) Augmented Dickey-Fuller test for unit root Number of obs = 59 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -1.

175 MacKinnon approximate p-value for Z(t) = 0.569 -2.lpbi.lcpr.617 -1. lags(2) Augmented Dickey-Fuller test for unit root Number of obs = 58 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -3. dfuller d.0000 .923 -2.0003 . **************** .421 -2. *Son no estacionarias ambas series (en logaritmos) .lpbi. dfuller d.596 MacKinnon approximate p-value for Z(t) = 0. Modelos de Correci´on de Errores 321 .130 -3. *3er PASO .950 -1. lags(1) noconstant Augmented Dickey-Fuller test for unit root Number of obs = 59 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -3. dfuller d.lpbi. evaluando si son integrables de orden (1) .610 .597 MacKinnon approximate p-value for Z(t) = 0. lags(1) Augmented Dickey-Fuller test for unit root Number of obs = 59 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -4.950 -1.924 -2.948 -4. *Raiz unitaria en diferencias.lcpr.491 -3. dfuller d.567 -2.16.616 -1. lags(1) trend Augmented Dickey-Fuller test for unit root Number of obs = 59 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -4. dfuller d.983 -3.589 Number of obs = 58 Interpolated Dickey-Fuller 1 % Critical 5 % Critical 10 % Critical Value Value Value -2. lags(2) noconstant Augmented Dickey-Fuller test for unit root Test Statistic Z(t) -2.0019 .610 .917 -3.

9275611 61 .03526 P>|t| [95 % Conf. lpbi _cons . reg lcpr lpbi Source SS df MS Model Residual 18. *graficando los residuos . . *Estimamos MCO . twoway (scatter u1 l. *Test de raiz unitaria a los errores .9961 = 0.175 MacKinnon approximate p-value for Z(t) = 0.80 = 0.8529442 .310287887 lcpr Coef. tsline u1 .0871087 t 123.027 . *Prueba de cointregacion: METODO DE ENGLE Y GRANGER . dfuller d. **************** .132 -3.3715402 . Interval] 0. predict u1. *otro grafico .u1) .9692036 .001243614 Total 18. lags(2) trend Augmented Dickey-Fuller test for unit root Number of obs = 58 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -3.9960 = . *El pvalue de MacKinnon es menor a 0.05 . por que si hay cointegracion deberia ser estacionario .lcpr. *Obtener los residuos. *Son estacionarias en primeras diferencias.8529442 .492 -3.9537096 .0077459 . 60) Prob > F R-squared Adj R-squared Root MSE = 62 =15159.0230537 . es decir son integrables de orden (1) . *4to PASO .0000 = 0.0123 . dfgls u1 .896 -4.13 2.26 Number of obs F( 1.000 0.1972969 Std.322 .074616847 1 60 18. Err.9382156 . residuals .

553 -3. *OTRA PRUEBA DE COINTEGRATION: METODO DEL TEST DE JOHANSEN .724 -3. dfuller u1.724 -3.860 Opt Lag (Ng-Perron seq t) = Min SC = -7.700 -2.987 -3.773 -2.545 -2. **************** . los residuos son ruido blanco *(integradas de orden 0) *por tanto.880 -2.598 -2. *5to PASO .715 -3. var lcpr lpbi .919204 at lag Min MAIC = -7. Modelos de Correci´on de Errores 323 DF-GLS for u1 Maxlag = 10 chosen by Schwert criterion Number of obs = 51 [lags] DF-GLS tau Test Statistic 1 % Critical Value 5 % Critical Value 10 % Critical Value 10 9 8 7 6 5 4 3 2 1 -3.826 -2.70731 at lag 5 with RMSE 1 with RMSE 1 with RMSE .037 -3.124 -3.650 -2.0176557 .0164335 .691 -2. . *Estimation de un var para calcular los rezagos a usar en el test de Johansen .094 -3.0176557 .935 -2.0121 .160 -2.598 MacKinnon approximate p-value for Z(t) = 0.204 -3.083 -3.724 -3.934 -2. *Test mas fuerte por el uso de maxima verosimilitud .724 -3.885 -2.572 -2.724 -3.787 -3. *Las estimaciones estan cointegradas.925 -2. las estimaciones por el metodo de correccion de errores son super *consistentes .16.724 -2. *Asimismo calcula los eigenvalores.880 -2.724 -3. .721 -2.traza y si existe o no relacion de cointegracion .lags(5) Augmented Dickey-Fuller test for unit root Number of obs = 56 Interpolated Dickey-Fuller Test 1 % Critical 5 % Critical 10 % Critical Statistic Value Value Value Z(t) -3.746 -2.789 -2.827 -2.492 -2.724 -3.724 -3.367 -3. .506 -3.724 -3.440 -2.

042872 .37214* -8.04 0.3437353 lcpr L1.277 -.83 -1.80 0.0958273 .3294271 lpbi .120006 -.297 .1754269 .62 0.1127753 1.954 0.8457082 -1. .5556035 -.423183 -.9938 0.962 -.1226998 .09524 9.8687748 1.150 .026 261.1191857 0.68e-07 Equation Parms lcpr lpbi 5 5 Coef.045309 0. L2.324 Vector autoregression Sample: 1952 .02309* .0000 [95 % Conf.000659 . 1. L2.022248 2.95809 7.1377724 .2879655 .204017 -.0176456 -.93e-07 Det(Sigma_ml) = 5.89 -1.3006517 4. Err.219 0. varsoc Selection-order criteria Sample: 1952 .4329815 .0000 0.3821456 _cons .16505 -2.8888137 . z No.1643 FPE = 7.164 Endogenous: Exogenous: 368.023087 0.537 -.2656832 lpbi L1.000393 -2.05 0.1562851 _cons .372144 = -8. of obs AIC HQIC SBIC chi2 P>chi2 9613.0983356 .5850071 lpbi L1.44 0.277* Number of obs df p 4 4 0.6139368 .5788388 -.06 -0.0144649 . Interval] lcpr lcpr L1.2011 Log likelihood = 261.284481 1.7329994 .23561* -8. 1.9e-07* -8. L2.684408 .7e-07 -8.2011 lag 0 1 2 LL LR 66.13774 -2. *Conclusi´ on: Usar 2 rezagos FPE AIC HQIC = 60 SBIC .421 -.9937 Std.000 0.15 20.3423983 -.23 -0.9515 251.000 0.08561 -7.88 P>|z| = 60 = -8.000 0.2787885 . L2. RMSE R-sq .3015458 . .2894079 3.3043344 .436 9395.16753 -8.3058587 0.2946356 .235609 = -8.6141299 .09 0.000 lcpr lpbi _cons .

por tanto.41 0.4774* 18. trend(trend) lags(2) Johansen tests for cointegration Trend: trend Number of obs = Sample: 1952 .7570 5% critical value 12.4298 3. no incluye ni tendencia ni constante .44348 260.07021 60 2 5% trace critical statistic value 11.4197 260.94945 261. no hay cointegracion .2011 Lags = maximum rank 0 1 2 parms 8 11 12 LL 257.94945 261. lags(2) Johansen tests for cointegration Trend: constant Number of obs = Sample: 1952 .00714 60 2 5% trace critical statistic value 7.4892* 15. vecrank lcpr lpbi. trend(constant) lags(2) Johansen tests for cointegration Trend: constant Number of obs = Sample: 1952 .41 0. vecrank lcpr lpbi.2011 Lags = maximum rank 0 1 2 parms 4 7 8 LL 253. vecrank lcpr lpbi.53 3. Modelos de Correci´on de Errores 325 .09149 trace statistic 13.11174 0.58941 257. *con tendencia .2011 Lags = maximum rank 0 1 2 parms 6 9 10 LL 257.60947 260.74 .17 4.4298 3.00714 60 2 5% trace critical statistic value 7. *No se rechaza la hipotesis nula de no rango (rank=0). *Otra alternativa.16432 eigenvalue . *Test de Johansen usando los rezagos del var .7971 5.76 . *al igual que lo anterior:con constante . 0.3676 3.12541 0. 0.4892* 15.11100 0.16432 eigenvalue .2011 Lags = maximum rank 0 1 2 parms 6 9 10 LL 257.18216 eigenvalue .76 .48795 eigenvalue .99836 263. trend(none)lags(2) Johansen tests for cointegration Trend: none Number of obs = Sample: 1952 . 0.84 60 2 .4197 260.11100 0. vecrank lcpr lpbi.16. 0.

0177308 1. Err.174 -. *Asumiendo los resultados de Engle y Granger y Johansen (sin tendencia ni constante) .72e-07 Parms RMSE R-sq 4 4 .326 .3119848 1.10 0.05 0.045063 0.967 -.0303912 .2718837 . *A continuaci´ on se estima el Modelo de Correcci´ on de Errores .5903861 . lags(2) Vector error-correction model Sample: 1952 .0067558 .1745929 -0.1900002 .04 0.924 -.15 0.0000 [95 % Conf. .570 -.11 0.36 0. .2994898 1.969 -.084163 0.33544 lcpr LD.7458346 _cons -. z No. *Aqui si hay cointegraci´ on pues el valor de la traza es mayor al valor cr´ ıtico .67505 P>|z| = 60 = -8. Std.04 0. .398315 = -8.269 -.9494 5.4238325 . .275433 = -8. vec lcpr lpbi.57 0. of obs AIC HQIC SBIC chi2 P>chi2 59.22012 55.4985 Coef.0335574 .0006973 .4105597 . Interval] D_lcpr _ce1 L1. -.042611 .1676374 .0543615 D_lpbi .3151055 .5140 0.1650901 -1. **************** .250 -.3489516 .0151418 .0321629 _ce1 L1.293 -.5135708 .9020947 lpbi LD.6511684 lpbi LD. *6to PASO .2011 Log likelihood = Det(Sigma_ml) = Equation D_lcpr D_lpbi 260.295004 0.0000 0.0167657 -0.1876465 1.1335704 lcpr LD. -.3167289 0.035312 _cons .0196099 . *Estimaci´ on del Modelo de Correcci´ on de errores .

22012 55. Interval] D_lcpr _ce1 L1.2994898 1.0006973 .035312 _cons .6511684 lpbi LD.9062119 . -.5903861 . .969 -. Err.1650901 -1. .1335704 lcpr LD. 0.4238325 . -. z No.7458346 _cons -.1900002 .0196099 . Interval] _ce1 .5135708 .1876465 1.0335574 .0303912 .04 0.084163 0.3167289 0.11 0. .4105597 . z P>|z| [95 % Conf. .0067558 .05 0.3119848 1.275433 = -8. Std.4985 Coef.67505 P>|z| = 60 = -8.10 0. .16.0177308 1. .570 -.967 -.293 -.000 .1676374 .9494 5.3175352 Std.398315 = -8. -41.0000 0.33544 lcpr LD.250 -.15 0. . lcpr lpbi _cons 1 -. -.3151055 .0000 [95 % Conf.3489516 .2011 Log likelihood = Det(Sigma_ml) = Equation D_lcpr D_lpbi 260.17 .1745929 -0.5140 0. vec lcpr lpbi.0151418 . .186 0.9968021 .9020947 lpbi LD.0321629 _ce1 L1. .269 -.57 0. . Err.36 0.174 -.042611 . lags(2)alpha Vector error-correction model Sample: 1952 .0167657 -0.951507 -.0000 beta is exactly identified Johansen normalization restriction imposed beta Coef.295004 0.72e-07 Parms RMSE R-sq 4 4 .0231102 . -.2718837 .04 0.045063 0. Modelos de Correci´on de Errores 327 Cointegrating equations Equation Parms _ce1 1 Identification: chi2 P>chi2 1695.924 -.0543615 D_lpbi . of obs AIC HQIC SBIC chi2 P>chi2 59.

irf set vec_eg.328 Cointegrating equations Equation Parms _ce1 1 Identification: chi2 P>chi2 1695. irf graph irf .33544 D_lcpr D_lpbi En la primera salida se muestra los coeficientes del modelo de correcci´on de errores de cada ecuaci´on denotado por ce1. . -. -41.1900002 .3175352 Std.0014973 0. *CREACION DE IMPULSO RESPUESTA . -. z P>|z| [95 % Conf. irf create vec_eg. *7mo PASO . 0. Err.17 .324544 .0000 beta is exactly identified Johansen normalization restriction imposed beta Coef.951507 -.replace (file vec_eg.irf updated) .1335704 _ce1 L1.5135708 . Usando la opci´on alpha se obtendr´a los par´ametros ajustados de corto plazo. z P>|z| [95 % Conf.15 0. . Interval] _ce1 L1.000 . .969 -.irf created) (file vec_eg. Std.9968021 .1745929 -0.0231102 . .186 0. -. -. Esto quiere decir cuando las variables responden si hay un cambio o shock en el sistema.0067558 . Interval] _ce1 .9691 alpha Coef. **************** .9062119 .04 0. Err. . lcpr lpbi _cons 1 -.irf (file vec_eg.1650901 -1.250 -. Adjustment parameters Equation Parms D_lcpr D_lpbi 1 1 chi2 P>chi2 1.2498 0. .irf now active) .3489516 . step(50) replace irfname vec_eg not found in vec_eg.

4983913 . **************** .3816708 Modulus 1 .675304 .498391 . 329 . *Evaluando la estabilidad del modelo estimado .498391 . vecstable Eigenvalue stability condition Eigenvalue 1 . vecstable.675304 .1: Funci´on de Impulso Respuesta en un MCE .4983913 .16. *8vo PASO .3816708 Modulus 1 . Modelos de Correci´on de Errores Figura 16. graph Eigenvalue stability condition Eigenvalue 1 . .381671 The VECM specification imposes a unit modulus.381671 The VECM specification imposes a unit modulus.6753039 .6753039 .

1. Ejercicio Propuesto .2: Proyecci´on en un MCE 16.9734 6.18017 H0: no autocorrelation at lag order **No existe autocorrelaci´ on bajo ning´ un rezago (no se rechaza la hip´ otesis nula) .09256 0. **************** . *Test de autocorrelacion .330 16. step(24) . fcast compute f_1.1. *Pron´ ostico . veclmar Lagrange-multiplier test lag chi2 df Prob > chi2 1 2 7.csv se tiene informaci´on anual durante 1950-2011 de las siguiente variables econ´omicas peruanas: pbi (Producto bruto interno en . *9no PASO . Ejercicio Propuesto En el archivo pbi cpr inv.2656 4 4 0. fcast graph f_1lpbi f_1lcpr Figura 16.

Modelos de Correci´on de Errores 331 millones de soles 1994) y cpr (Consumo privado en millones de soles 1994) e inv (Inversion Bruta Fija en millones de soles 1994).16. . A partir del uso de estas variables (en t´erminos logaritmos) se le pide estimar un modelo de correcci´on de errores realizando todo los pasos previos que permitan el uso de dicho modelo.

1. Ejercicio Propuesto .332 16.

Parte V Modelos de Panel de Datos 333 .

.

335 .. t = 1.. el n´ umero total de observaciones es simplemente NT . regiones... empresas. Es decir: Yit . . paises.) repetidas sobre el tiempo. Los datos de panel pueden ser balanceados (Ti = T para todo i) o no balanceados (Ti 6= T para algun i). P Para paneles no balanceados.. . Para paneles balanceados. Lema 2 De muchos individuos y pocos periodos temporales (“long panels”macro panel). el n´ umero total de observaciones es N i=1 Ti .. Para cada observaci´on debe conocerse el individuo i y el periodo temporal t al que se refiere. etc. N . Xit ’ i = 1. Se pueden tener paneles: Lema 1 De muchos individuos y pocos periodos temporales (“short panels”micro panel). T .Cap´ıtulo 17 Modelos de Datos de Panel Est´ aticos Los datos de panel (o datos longitudinales) consiste en observaciones de un corte transversal (unidades transversales: hogares.

.1. Se puede estimar consistentemente por MCO.. usando errores est´andar robustos por la probable correlaci´on entre individuos y en el tiempo para un individuo.. + βk Xkit + uit Donde principalmente se cumplen los siguientes supuestos: Supone que los regresores estan incorrelacionados con uit . Modelos con efectos individuales (One-Way) Estos tipos de modelos tienen la siguientes caracter´ısticas: . Modelo Agrupado (Pooled) Figura 17. 17.336 17. Modelo Agrupado (Pooled) Sea el modelo MCO en panel (pooled) o de promedio poblacional: Yit = β1 X1it + .1.. Pero no una estructura en uit (a diferencia de efectos aleatorios que lo veremos luego).2.1: Datos de Panel balanceado y No balanceado 17.

. uit = αi + it αi : efectos individuales (heterogeneidad inobservada permanente en el tiempo). . Modelos de Efectos Aleatorios. E[αi |X1it . Se necesita estimar αi junto con los par´ametros de los regresores [Efectos fijos(FE) con variables dummy por individuo]. 17. + Xkit : variables explicativas (observables)... es estimar por modelos transformados de tal manera que se elimine αi : [modelos en primeras diferencias] y [modelos intra-grupos o estimadores within.. 2. Xkit esten correlacionados con αi . Modelos de Datos de Panel Est´aticos 337 Yit = β1 X1it + ..17.. + βk Xkit + αi + it Donde: X1it + . X1it ...desviaciones respecto a la media]. ....... Xkit ] = 0. .. it : error idiosincr´atico Existen dos modelos sustancialmente diferentes seg´ un el tratamiento de αi : 1...3. es decir...... Por otro lado. . es decir los regresores deben seguir siendo incorrelacionados con it .. en paneles cortos se necesita que N → ∞.. los par´ametros de los regresores podrian estar sesgados por estimar infinitos par´ametros auxiliares αi . Modelo de Efectos Fijos (FE) Siguiendo la u ´ltima ecuaci´on (3)... El otro supuesto fundamental es : E[it |αi .. + βk Xkit + uit Yit = β1 X1it + .. La soluci´on a lo anterior.. Xkit ] 6= 0.... los efectos fijos (FE) permiten que los regresores X1it .. Modelos de Efectos Fijos...

si no existe correlaci´on. . Se puede estimar eficientemente utilizando MCGF (solo si cumple el supuesto de αi ): (yit − θi yi ) = β(1 − θi ) + (Xit − θi Xi ) + αi (1 − θi ) + (it − θi i ) 2 1/2 α θi = 1 − ( δ2δ+δ . otro estimador es m´as eficiente (proporciona menos varianza) → efectos aleatorios (RE). si tanto los regresores estan o no correlacionados con αi se puede estimar por efectos fijos (FE). se tiene una estructura de correlaci´on: corr(uit . es necesario responder a la pregunta de cual modelo es mejor.4. es decir: E[αi |Xit ] = 0 → V ar[αi |Xit ] = δα2 y E[it |Xit ] = 0 → V ar[it |xit ] = δe2 . Dado lo anterior. es decir dado que: uit = αi + it se tiene que E[uit |Xit ] = 0.338 17. A continuaci´on se explica los test que permitiran concluir el mejor modelo. θi = 0 → “within”. Adem´as. Siguen los supuestos fundamentales: αi y it no est´an correlacionados con los regresores.4. esto implica que los regresores son ex´ogenos con respecto al t´ermino de error compuesto. Luego de conocer tres tipos de especificaci´on en un modelo de panel de datos. Modelo de Efectos Aleatorios (RE) 17. el efecto individual αi se trata como puramente aleatorio. uis ) = δa2 /(δα2 + δ2 ). Sin embargo. Modelo de Efectos Aleatorios (RE) En efectos aleatorios (RE). 2) α  Nota: Lema 3 En t´erminos de consistencia. Si: θi = 0 → “pooled”. t 6= s.

Modelo Pooled vs. Modelo de Efectos Aleatorios: Prueba LM Para elegir entre los modelos Pooled o RE. 17. es decir : cov(uit . ´este sirve para contrastar la hip´otesis de que todos los efectos individuales son constantes. La cual tiene como hip´otesis hula que: V ar(αi ) = 0. .17. Rr2 = bondad de ajuste del modelo no restringido (FE).1.5. La hip´otesis nula y la formula del estad´ıstico utilizado los siguientes: H0 : α1 = α2 = . se utiliza el LM Test de Breusch y Pagan.. ( Pn i=1 Ti ) − n − k] = 2 −R2 )/(n−1)) ((Rnr Pr 2 )/(( n (1−Rnr i=1 Ti )−n−k) Donde: 2 Rnr = bondad de ajuste del modelo restringido (Pooled). is ). n = n´ umero de unidades transversales.5. Modelo Pooled vs. Modelos de Datos de Panel Est´aticos 339 17.2. Comparaci´ on de Modelos 17.. El estad´ıstico F relaciona el modelo no restringido (con efectos individuales – FE) con el modelo restringido (efectos individuales constantes – Pooled). Modelo de Efectos Fijos: Prueba F Para comparar entre el FE y Pooled se utiliza la prueba F. = αi La hip´otesis nula se contrasta con el siguiente estad´ıstico: F [n − 1.5. k = n´ umero de unidades transversales. Ti = n´ umero de a˜ nos en que est´a presente la unidad transversal i. uis ) = cov(it .

M´exico y Per´ u. no se rechaza la hip´otesis nula y se prefiere usar el modelo de efectos aleatorios. as´ı: . la hip´otesis nula no se rechaza es mejor el modelo pooled. la hip´otesis nula se rechaza y por lo tanto es mejor elegir un modelo de efectos aleatorios (RE). Ejercicio En el archivo lm panel.dta se tiene informaci´on trimestral desde 1996 hasta el tercer trimestre del 2009 para los siguientes paises: Chile. Las siguientes variables son las que se usaran: logm1 (logaritmo de los saldos monetarios nominales). se rechaza la hip´otesis nula y se prefiere elegir el modelo de efectos fijos. lrate (tasa de inter´es por prestamos) y loggdp (logaritmo del producto bruto interno). Xit ) 6= 0 → efectos fijos (FE). Por otro lado.340 17. Modelo de Efecto Fijo vs.5. Modelo de Efecto Aleatorio: Prueba Hausman H0 : cov(αi . El modelo que vamos a estimar es el siguiente (no se incluir´a el rezago del indice de precios por falta de datos). Donde el test es: (βF E − βRE )[V ar(βF E ) − V ar(βRE )]−1 (βF E − βRE ) ∼ χ2 Si se tiene una probabilidad asociada a dicho test menor a 0. 17. Colombia. Las variables m1 y gdp est´an en millones de d´olares. la probabilidad asociado al test es menor a 0. Xit ) = 0 → efectos aleatorios (RE).05.3.05. Si por otro lado. Comparaci´on de Modelos LM = PN PT 2 NT i=1 ( t=1 it ) P N PT 2(T −1)  t=1 it i=1 − 1 ∼ χ2 Si el valor de la probabilidad asociado al test es mayor a 0.05.5.05. Ha : cov(αi . si dicha probabilidad es mayor a 0.

*Limpiando la memoria . /// xlabel(1 "Chi" 2 "Col" 3 "Mex" 4 "Per") . . *Incluyendo la ruta donde se encuentra el archivo . *Heterogeneidad entre paises . bysort code: egen logm1_mean=mean(logm1) . cd "D:\Econometria-Stata\panel data" D:\Econometria-Stata\panel data . clear . escoger el mejor modelo y corregir si existe problemas de heteroscedasticidad y/o autocorrelaci´on. Modelos de Datos de Panel Est´aticos 341 logm1it = β1 + β2 loggdpit + β3 lrateit + uit El objetivo de este ejercicio es estimar los tres tipos de modelos panel. twoway scatter logm1 code. *Declarando panel data: primero identificador transversal: code y luego el temporal:year . *Abriendo la base de datos en formato Stata (. use panel.dta . **************** . msymbol(circle_holow)|| /// connected logm1_mean code. A continuaci´on se muestra los pasos en STATA: . *2do PASO . xtset code year panel variable: time variable: delta: code (strongly balanced) year. **************** .dta) . symbol(diamond)||.17. 1 to 55 1 unit . *1er PASO .

3: Caja y Bigote de la Heterogeindad entre Individuos . reg logm1 loggdp l_rate . *3ro PASO . graph box logm1.342 17. **************** .2: Heterogeneidad entre Individuos .5. over(code) Figura 17. *Modelos Pooled . Comparaci´on de Modelos Figura 17.

947179 1. loggdp l_rate _cons -.000 2340.0045924 -1.0274896 16.0016958 -2. Xb) F(2.27697 -.000 0.2707 overall = 0.0000 .0122999 1.267732 .9563 between = 0.602356 653. estimates store betas_OLS .969477 2 217 52.01368423 Total 758. 214) = 16680. Interval] -.736 [95 % Conf. estimates store betas_FE t P>|t| = = 0.0517322 14. Interval] 1.91 -7. *Guardamos la ecuaci´ on anterior .27 F(3.690476 Prob > F = 0.0000 0.7784502 -.0 55 within = 0.fe Fixed-effects (within) regression Group variable: code Number of obs Number of groups = = 220 4 R-sq: Obs per group: min = avg = max = 55 55.32558 .365 0.0015951 .23 14.1379 0.34 0.571833 219 3. 217) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.11407446 . *4to PASO .5519155 -.1149364 .46379832 logm1 Coef.9985883 (fraction of variance due to u_i) F test that all u_i=0: Std.131745 t -4.3253808 -. *Efectos fijos .0293479 .80 -2. 43.0014483 -2.59 Number of obs F( 2.214) Prob > F = -0.0339649 .20 0.1190 corr(u_i. loggdp l_rate _cons 1.17.026 0.3187803 sigma_u sigma_e rho 3. xtreg logm1 loggdp l_rate . Modelos de Datos de Panel Est´aticos Source SS df 343 MS Model Residual 104.0000 [95 % Conf.0032471 18. . **************** .1299 1.73821 .35 0. Err. Err.000 0. *Guardamos la ecuaci´ on anterior .50759 Std.7496 logm1 Coef.000 = = = = = = 220 17.318828 .38 .209884 -.3011778 3.

344

17.5. Comparaci´on de Modelos

. *Estimador de efectos fijos con variables dummy 1
.
. xi:regress logm1 loggdp l_rate i.code
i.code
_Icode_1-4
(naturally coded; _Icode_1 omitted)
SS
df
MS
Number of obs =
220
Source
F( 5,
214) =11615.89
Model
755.787054
5 151.157411
Prob > F
= 0.0000
2.78477847
214 .013012984
R-squared
= 0.9963
Residual
Adj R-squared = 0.9962
Total
758.571833
219 3.46379832
Root MSE
= .11407
logm1

Coef.

loggdp
l_rate
_Icode_2
_Icode_3
_Icode_4
_cons

1.267732
.0014483
-.6793208
5.691146
-.3745498
-3.478147

Std. Err.
.0293479
.0015951
.0633168
.0273827
.0672343
.2927645

t
43.20
0.91
-10.73
207.84
-5.57
-11.88

P>|t|
0.000
0.365
0.000
0.000
0.000
0.000

[95 % Conf. Interval]
1.209884
-.0016958
-.8041253
5.637172
-.5070761
-4.055218

1.32558
.0045924
-.5545163
5.745121
-.2420235
-2.901075

. *Guardamos la ecuaci´
on anterior
. estimates store betas_FE_D1
. test
( 1)
( 2)
( 3)

_Icode_2 _Icode_3 _Icode_4
_Icode_2 = 0
_Icode_3 = 0
_Icode_4 = 0
F( 3,
214) =16680.38
Prob > F =
0.0000

. *Generamos dicotomicas que identifiquen cada pais
.
.
.
.

g
g
g
g

d1=pais==1
d2=pais==2
d3=pais==3
d4=pais==4

. *Estimador de efectos fijos con variables dummy 2
. regress logm1 loggdp l_rate
Source

SS

d1 d2 d3 d4, nocons
df

MS

Model
Residual

24783.0272
2.78477847

6
214

4130.50453
.013012984

Total

24785.812

220

112.662782

logm1

Coef.

loggdp
l_rate
d1
d2
d3
d4

1.267732
.0014483
-3.478147
-4.157467
2.213
-3.852696

Std. Err.
.0293479
.0015951
.2927645
.3516467
.2766494
.355298

t
43.20
0.91
-11.88
-11.82
8.00
-10.84

Number of obs
F( 6,
214)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.365
0.000
0.000
0.000
0.000

=
=
=
=
=
=

220
.
0.0000
0.9999
0.9999
.11407

[95 % Conf. Interval]
1.209884
-.0016958
-4.055218
-4.850602
1.667693
-4.553028

1.32558
.0045924
-2.901075
-3.464333
2.758307
-3.152364

17. Modelos de Datos de Panel Est´aticos

345

. *Guardamos la ecuaci´
on anterior
. estimates store betas_FE_D2

. *5to PASO
. ****************

. *Efectos aleatorios
. xtreg logm1 loggdp l_rate logpr,re
Random-effects GLS regression
Group variable: code
R-sq: within = 0.2024
between = 0.1994
overall = 0.1997

Number of obs
Number of groups
Obs per group: min
avg
max

=
=
=
=
=

220
4
55
55.0
55

Random effects u_i ~ Gaussian
corr(u_i, X)
= 0 (assumed)

Wald chi2(3)
Prob > chi2

=
=

53.89
0.0000

logm1

Coef.

loggdp
l_rate
logpr
_cons

-1.014515
.0389616
3.605482
3.789323

sigma_u
sigma_e
rho

0
.1142695
0

Std. Err.
.1586038
.0201478
.8829798
3.300892

z
-6.40
1.93
4.08
1.15

P>|z|
0.000
0.053
0.000
0.251

[95 % Conf. Interval]
-1.325373
-.0005274
1.874874
-2.680307

-.7036571
.0784506
5.336091
10.25895

(fraction of variance due to u_i)

. *Guardamos la ecuaci´
on anterior
. estimates store betas_RE

. *6mo PASO
. ****************
. *Creaci´
on de una tabla para los coeficientes betas de las estimaciones anteriores
. *y comparaci´
on
.
. estimates table betas_OLS betas_FE betas_FE_D1 betas_FE_D2 betas_RE, ///
star stats(N r2_a r2_o r2_b r2_w sigma_u sigma_e rho aic bic)

Variable

betas_OLS

loggdp
l_rate
_Icode_2

-.55191547***
-.02748963*

betas_FE
1.2677321***
.00144831

betas_FE_D1

betas_FE_D2

1.2677321***
.00144831
-.67932081***

1.2677321***
.00144831

_Icode_3

5.6911463***

_Icode_4

-.37454981***

betas_RE
-1.0145149***
.03896163

346

17.5. Comparaci´on de Modelos

d1

-3.4781465***

d2

-4.1574673***

d3

2.2129998***

d4

-3.8526963***

logpr
_cons
N
r2_a
r2_o
r2_b
r2_w
sigma_u
sigma_e
rho
aic
bic

16.507594***

-2.3188276***

220
.12994812

220
.95525748

870.00824
880.18913

.11904283
.27066639
.95627899
3.0339649
.11407446
.9985883
-330.94807
-320.76719

3.6054824***
3.7893226

-3.4781465***
220
.99624315

220
.9998845

-324.94807
-304.58631

220

.19967257
.19944302
.20239818
0
.1142695
0
.
.

-324.94807
-304.58631

legend: * p<0.05; ** p<0.01; *** p<0.001
. *Genero un tabla igual a lo anterior en excel (llamado producto_I)
. outreg2 [betas_OLS betas_FE betas_FE_D1 betas_RE] using producto_I, excel replace
producto_I.xml
dir : seeout

. *7mo PASO
. ****************
. *TEST DE BPG
. xtreg logm1 loggdp l_rate ,re

vce(robust)

Random-effects GLS regression
Group variable: code

Number of obs
Number of groups

=
=

220
4

R-sq:

Obs per group: min =
avg =
max =

55
55.0
55

within = 0.9563
between = 0.2710
overall = 0.1189

Random effects u_i ~ Gaussian
corr(u_i, X)
= 0 (assumed)

Wald chi2(2)
Prob > chi2

=
=

758.81
0.0000

(Std. Err. adjusted for 4 clusters in code)
Robust
Std. Err.

logm1

Coef.

z

loggdp
l_rate
_cons

1.263901
.0012722
-2.277054

.0542515
.0017168
1.964482

sigma_u
sigma_e
rho

1.4530548
.11407446
.99387446

(fraction of variance due to u_i)

23.30
0.74
-1.16

P>|z|
0.000
0.459
0.246

[95 % Conf. Interval]
1.15757
-.0020926
-6.127368

1.370232
.004637
1.57326

17. Modelos de Datos de Panel Est´aticos

347

. xttest0
Breusch and Pagan Lagrangian multiplier test for random effects
logm1[code,t] = Xb + u[code] + e[code,t]
Estimated results:
Var
logm1
e
u
Test:

3.463798
.013013
2.111368

sd = sqrt(Var)
1.861128
.1140745
1.453055

Var(u) = 0
chi2(1) =
Prob > chi2 =

4485.81
0.0000

. *Aleatorios es mejor que pooled
. *TEST DE HAUSMAN
. xtreg logm1 loggdp l_rate ,fe
Fixed-effects (within) regression
Group variable: code

Number of obs
Number of groups

=
=

220
4

R-sq:

Obs per group: min =
avg =
max =

55
55.0
55

within = 0.9563
between = 0.2707
overall = 0.1190

corr(u_i, Xb)

F(2,214)
Prob > F

= -0.7496

logm1

Coef.

loggdp
l_rate
_cons

1.267732
.0014483
-2.318828

.0293479
.0015951
.3187803

sigma_u
sigma_e
rho

3.0339649
.11407446
.9985883

(fraction of variance due to u_i)

F test that all u_i=0:

Std. Err.

t
43.20
0.91
-7.27

P>|t|

=
=

0.000
0.365
0.000

2340.34
0.0000

[95 % Conf. Interval]
1.209884
-.0016958
-2.947179

F(3, 214) = 16680.38

1.32558
.0045924
-1.690476

Prob > F = 0.0000

. estimates store fixed
. xtreg logm1 loggdp l_rate ,re
Random-effects GLS regression
Group variable: code

Number of obs
Number of groups

=
=

220
4

R-sq:

Obs per group: min =
avg =
max =

55
55.0
55

within = 0.9563
between = 0.2710
overall = 0.1189

Random effects u_i ~ Gaussian
corr(u_i, X)
= 0 (assumed)

Wald chi2(2)
Prob > chi2

=
=

4466.52
0.0000

348

17.5. Comparaci´on de Modelos

logm1

Coef.

Std. Err.

z

P>|z|

loggdp
l_rate
_cons

1.263901
.0012722
-2.277054

.0299864
.0016302
.811419

sigma_u
sigma_e
rho

1.4530548
.11407446
.99387446

(fraction of variance due to u_i)

42.15
0.78
-2.81

0.000
0.435
0.005

[95 % Conf. Interval]
1.205129
-.0019229
-3.867406

1.322673
.0044673
-.6867018

. estimates store random
. hausman fixed random,sigmamore
Coefficients
(b)
(B)
fixed
random
loggdp
l_rate

1.267732
.0014483

1.263901
.0012722

(b-B)
Difference
.0038313
.0001761

sqrt(diag(V_b-V_B))
S.E.
.0014306
.0000685

b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test:

Ho:

difference in coefficients not systematic
chi2(2) = (b-B)´[(V_b-V_B)^(-1)](b-B)
=
11.53
Prob>chi2 =
0.0031

. *se rechaza la hipotesis nula, mejor es efectos fijos que aleatorios

. *8vo PASO
. ****************

. *Dado el mejor modelo: EFECTOS FIJOS
. *Se evalua si es necesario usar "Time-Effects" (Two way)

. *Testiando time effects
. xi: xtreg logm1 loggdp l_rate i.year,fe
i.year
_Iyear_1-55
(naturally coded; _Iyear_1 omitted)
Fixed-effects (within) regression
Group variable: code
R-sq: within = 0.9737
between = 0.2674
overall = 0.0757
corr(u_i, Xb)

= -0.6526

Number of obs
Number of groups
Obs per group: min
avg
max
F(56,160)
Prob > F

=
=
=
=
=
=
=

220
4
55
55.0
55
105.80
0.0000

17. Modelos de Datos de Panel Est´aticos

logm1

Coef.

loggdp
l_rate
_Iyear_2
_Iyear_3
_Iyear_4
_Iyear_5
_Iyear_6
_Iyear_7
_Iyear_8
_Iyear_9
_Iyear_10
_Iyear_11
_Iyear_12
_Iyear_13
_Iyear_14
_Iyear_15
_Iyear_16
_Iyear_17
_Iyear_18
_Iyear_19
_Iyear_20
_Iyear_21
_Iyear_22
_Iyear_23
_Iyear_24
_Iyear_25
_Iyear_26
_Iyear_27
_Iyear_28
_Iyear_29
_Iyear_30
_Iyear_31
_Iyear_32
_Iyear_33
_Iyear_34
_Iyear_35
_Iyear_36
_Iyear_37
_Iyear_38
_Iyear_39
_Iyear_40
_Iyear_41
_Iyear_42
_Iyear_43
_Iyear_44
_Iyear_45
_Iyear_46
_Iyear_47
_Iyear_48
_Iyear_49
_Iyear_50
_Iyear_51
_Iyear_52
_Iyear_53
_Iyear_54
_Iyear_55
_cons

.9041342
.0022614
.0244641
.0423186
.2243885
.1647555
.2028327
.2170709
.3345421
.2261649
.2510923
.2223255
.3312363
.2475885
.317447
.3112534
.4317114
.2965809
.3408118
.3203846
.4452123
.3306046
.3635176
.3742054
.506074
.4189348
.4522092
.4602026
.5376398
.4251446
.4490152
.4285727
.5283993
.4442867
.4598856
.4491913
.5415413
.4689264
.4943226
.4678318
.5931801
.4946224
.5252911
.5193787
.6500232
.591606
.5873623
.6183196
.6995092
.6112433
.6032773
.6166061
.7305238
.688161
.7001898
.6856295
.8941145

sigma_u
sigma_e
rho

2.7173076
.10231141
.99858435

349

Std. Err.

t

P>|t|

.0958689
.0026811
.0723771
.0728033
.0728079
.07346
.0743117
.0745979
.0747793
.0753039
.0757554
.0779852
.0794332
.0777398
.0767372
.0774796
.0788023
.0811128
.080979
.0812502
.0821397
.0833187
.0830068
.0833491
.0842567
.085779
.0863341
.0865912
.0877836
.0902647
.0900736
.0905972
.0921649
.0939688
.0953521
.0966262
.098178
.0997919
.1010743
.1027074
.1038023
.1073342
.1094521
.1109765
.1108873
.1141441
.1158788
.1167704
.1197684
.1219573
.1242892
.1235303
.1238529
.1216999
.1212826
.1220343
.9591038

9.43
0.84
0.34
0.58
3.08
2.24
2.73
2.91
4.47
3.00
3.31
2.85
4.17
3.18
4.14
4.02
5.48
3.66
4.21
3.94
5.42
3.97
4.38
4.49
6.01
4.88
5.24
5.31
6.12
4.71
4.98
4.73
5.73
4.73
4.82
4.65
5.52
4.70
4.89
4.55
5.71
4.61
4.80
4.68
5.86
5.18
5.07
5.30
5.84
5.01
4.85
4.99
5.90
5.65
5.77
5.62
0.93

0.000
0.400
0.736
0.562
0.002
0.026
0.007
0.004
0.000
0.003
0.001
0.005
0.000
0.002
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.353

[95 % Conf. Interval]
.7148026
-.0030336
-.1184735
-.1014607
.0806001
.0196792
.0560744
.0697475
.1868603
.0774472
.1014829
.0683124
.1743635
.0940601
.1658987
.1582389
.2760846
.1363911
.1808864
.1599235
.2829944
.1660584
.1995873
.2095992
.3396753
.2495297
.2817079
.2891934
.3642758
.2468806
.2711286
.2496521
.3463826
.2587076
.2715745
.2583641
.3476494
.2718473
.2947108
.2649947
.3881807
.2826479
.309134
.300211
.4310317
.3661825
.3585132
.3877095
.4629784
.3703897
.3578184
.372646
.4859266
.4478156
.4606686
.4446237
-1.000021

(fraction of variance due to u_i)

1.093466
.0075563
.1674017
.1860979
.3681769
.3098318
.3495911
.3643944
.4822238
.3748826
.4007018
.3763385
.4881091
.4011169
.4689954
.464268
.5873382
.4567708
.5007373
.4808457
.6074302
.4951509
.527448
.5388116
.6724727
.58834
.6227106
.6312118
.7110038
.6034085
.6269017
.6074933
.7104159
.6298658
.6481966
.6400186
.7354331
.6660056
.6939345
.6706688
.7981795
.706597
.7414482
.7385465
.8690147
.8170294
.8162114
.8489297
.93604
.852097
.8487362
.8605662
.9751211
.9285063
.939711
.9266352
2.78825

350

17.5. Comparaci´on de Modelos

F test that all u_i=0:

F(3, 160) = 12852.53

. testparm _Iyear_*
( 1)
( 2)
( 3)
( 4)
( 5)
( 6)
( 7)
( 8)
( 9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
(25)
(26)
(27)
(28)
(29)
(30)
(31)
(32)
(33)
(34)
(35)
(36)
(37)
(38)
(39)
(40)
(41)
(42)
(43)
(44)
(45)
(46)
(47)
(48)
(49)
(50)
(51)
(52)
(53)
(54)

_Iyear_2 = 0
_Iyear_3 = 0
_Iyear_4 = 0
_Iyear_5 = 0
_Iyear_6 = 0
_Iyear_7 = 0
_Iyear_8 = 0
_Iyear_9 = 0
_Iyear_10 = 0
_Iyear_11 = 0
_Iyear_12 = 0
_Iyear_13 = 0
_Iyear_14 = 0
_Iyear_15 = 0
_Iyear_16 = 0
_Iyear_17 = 0
_Iyear_18 = 0
_Iyear_19 = 0
_Iyear_20 = 0
_Iyear_21 = 0
_Iyear_22 = 0
_Iyear_23 = 0
_Iyear_24 = 0
_Iyear_25 = 0
_Iyear_26 = 0
_Iyear_27 = 0
_Iyear_28 = 0
_Iyear_29 = 0
_Iyear_30 = 0
_Iyear_31 = 0
_Iyear_32 = 0
_Iyear_33 = 0
_Iyear_34 = 0
_Iyear_35 = 0
_Iyear_36 = 0
_Iyear_37 = 0
_Iyear_38 = 0
_Iyear_39 = 0
_Iyear_40 = 0
_Iyear_41 = 0
_Iyear_42 = 0
_Iyear_43 = 0
_Iyear_44 = 0
_Iyear_45 = 0
_Iyear_46 = 0
_Iyear_47 = 0
_Iyear_48 = 0
_Iyear_49 = 0
_Iyear_50 = 0
_Iyear_51 = 0
_Iyear_52 = 0
_Iyear_53 = 0
_Iyear_54 = 0
_Iyear_55 = 0
F( 54,
160) =
Prob > F =

1.96
0.0007

Prob > F = 0.0000

*testeo si los residuos estan correlacionados entre entidades .3187803 sigma_u sigma_e rho 3. . .91 -7. **************** .2707 overall = 0.267732 .9563 between = 0.17.27 P>|t| 0. *usar los errores estandar robustos *de xtscc "Driscoll andKraaystandard errors" .598. pesaran abs Pesaran´s test of cross sectional independence = 1.318828 .1190 corr(u_i.0293479 .209884 -. 214) = 16680. xtreg logm1 loggdp l_rate .000 F(3.0016958 -2.000 0.690476 Prob > F = 0.0000 .0015951 .9985883 (fraction of variance due to u_i) F test that all u_i=0: Std.fe Fixed-effects (within) regression Group variable: code Number of obs Number of groups = = 220 4 R-sq: Obs per group: min = avg = max = 55 55.1190 .7496 logm1 Coef.0 55 within = 0. t 43. *10mo PASO .0 55 2340.fe Fixed-effects (within) regression Group variable: code Number of obs Number of groups = = 220 4 R-sq: Obs per group: min avg max F(2. *Testing heteroscedasticidad .0014483 -2.11407446 . .34 0.947179 1. Interval] 1. *El modelo debe incluir time effects .214) Prob > F = = = = = 55 55. xtcsd.0000 within = 0.2707 overall = 0. xtreg logm1 loggdp l_rate . loggdp l_rate _cons 1. Pr = 0.365 0. Err.219 *No hay dependencia entre cada unidada transversal *Si hubiera problema de autocorrelacion o ht entre entidad. Modelos de Datos de Panel Est´aticos 351 .0045924 -1.20 0.1101 Average absolute value of the off-diagonal elements = . **************** . *9no PASO .32558 . findit xtcsd . Xb) = -0.38 [95 % Conf. 0.0339649 .9563 between = 0.

0000 . . _Iyear_1 omitted) Fixed-effects (within) regression Group variable: code Number of obs Number of groups = = 220 4 R-sq: Obs per group: min = avg = max = 55 55. *Se rechaza la hipotesis nula y existe ht .year. Err.690476 Prob > F = 0. Comparaci´on de Modelos corr(u_i. **************** .0339649 . *Tomando en cuenta los problemas encontrados.000 2340.318828 . Xb) = -0.352 17. Xb) F(2.9737 between = 0.209884 -. xi: xtreg logm1 loggdp l_rate i.267732 .6526 F(3. *Testing autocorrelacion .3187803 sigma_u sigma_e rho 3.0014483 -2.5.0000 [95 % Conf.0293479 .9985883 (fraction of variance due to u_i) F test that all u_i=0: Std.7496 logm1 Coef.fe vce(robust) i.000 0.27 P>|t| 0. .38 1.0000 . *No hay autocorrelation.214) Prob > F = -0.0016958 -2. *11vo PASO .0015951 . *Si no existe instalar: findit xttest3 .2674 overall = 0.11407446 .91 -7. . 214) = 16680.0757 corr(u_i.91 Prob>chi2 = 0. no se rechaza la hipotesis nula . 3) = 0. Interval] 1. *corregir con la opcion robust.20 0.947179 F(3. aqui se tiene el mejor modelo .0045924 -1. loggdp l_rate _cons 1. xttest3 Modified Wald test for groupwise heteroskedasticity in fixed effect regression model H0: sigma(i)^2 = sigma^2 for all i chi2 (4) = 82. xtserial logm1 loggdp l_rate Wooldridge test for autocorrelation in panel data H0: no first-order autocorrelation F( 1. t = = 43.7703 .year _Iyear_1-55 (naturally coded.102 Prob > F = 0.32558 .365 0.3) Prob > F = = .34 0.0 55 within = 0.

2807861 .5252911 .035 0.23 4.1844437 .273 0.009 0.4260404 .1406868 .1674338 .32 4.5415413 .1105153 .1659424 .0887808 .9003747 1.1315727 .066 0.99 5.1553118 .2373519 .1146978 .012647 1.2020726 -.2243885 .0573184 .3408118 .6873645 .25 4.1756659 .317447 .0671376 .6934502 .023 0.022 0.84 1.012 0.5376398 .0535684 -.231 1.51 2.026 0.6166061 .069274 .1495451 .0788259 .7042572 .35 0.2960265 .20 1.9390713 1.4522092 .1243715 .018 0.1695311 -.44 7.0066096 -.1252363 .9928962 .0751497 -.4964187 .0780447 .8417265 . loggdp l_rate _Iyear_2 _Iyear_3 _Iyear_4 _Iyear_5 _Iyear_6 _Iyear_7 _Iyear_8 _Iyear_9 _Iyear_10 _Iyear_11 _Iyear_12 _Iyear_13 _Iyear_14 _Iyear_15 _Iyear_16 _Iyear_17 _Iyear_18 _Iyear_19 _Iyear_20 _Iyear_21 _Iyear_22 _Iyear_23 _Iyear_24 _Iyear_25 _Iyear_26 _Iyear_27 _Iyear_28 _Iyear_29 _Iyear_30 _Iyear_31 _Iyear_32 _Iyear_33 _Iyear_34 _Iyear_35 _Iyear_36 _Iyear_37 _Iyear_38 _Iyear_39 _Iyear_40 _Iyear_41 _Iyear_42 _Iyear_43 _Iyear_44 _Iyear_45 _Iyear_46 _Iyear_47 _Iyear_48 _Iyear_49 _Iyear_50 _Iyear_51 _Iyear_52 _Iyear_53 _Iyear_54 _Iyear_55 _cons .4946224 .439563 .3635176 .0931123 .6090269 .23 4.119718 .4678318 .137 0.176 0.1280535 .1272317 .0398506 -.013 0.8992307 .3057774 -.506074 .038 0.66 4.0787774 .1168066 .7001898 .1150806 -.6731842 .2261649 .26339 -.1514211 .7553567 .028 0.03 4.092525 1.073017 .3112534 .033 0.0587909 .62 2.77 4.1260949 .81 1.74 5.0022614 .7305238 .2106659 .9051113 .49 6.4442867 .0111323 .0922517 .1302598 .022 0.11 1.1423951 .41 2.060 0.201337 .1569907 .013 0.4189348 .02 1.9711009 .8178081 . Modelos de Datos de Panel Est´aticos 353 (Std.4490152 .016 0.006 0.022 0.7394147 .1383828 .12 5.98 2.5193787 . adjusted for 4 clusters in code) logm1 Coef.005 0.1454709 .22101 1.69 5.1426512 .34 5.4689264 .4285727 .182914 -.094433 1.2028327 .201 0.015 0.63 2.5873623 .6867391 .14 5.20 0.0264708 -.030 0.0979449 .0402324 -.49 0.0244641 .8395918 .7300899 .6492392 .096 0.7607721 .17.1748851 .1208804 -.0350672 .8663896 .1226731 .089 0.6683116 .4491913 .5674104 .7434157 .115 0.058 0.056735 t 4.5283993 .95 2.9041342 .1776623 .079 0.079267 .1200072 -.065 0.6500232 .4452123 .057257 1.4943226 .2223255 .0305915 .0998065 -.2356534 .0342798 .0891606 .6792777 .1778678 .021 0.1572253 .8941145 Robust Std.085 0.83 5.175 0.074895 .54 2.023 0.003 0.5931801 .33 4.1193485 .3742054 .8093063 .3203846 .7790024 . Err.172345 1.688161 .6856295 .11 4.97931 .24 3.026 0.1231619 .3236612 .045829 .31 6. Interval] .64 2.187717 7.76 4.8703006 .2176794 .0686025 .1577677 2.2965809 .1036726 .166793 .014 0.0446591 .43 P>|t| 0.6112433 .1239071 .1693799 .033585 -.1168944 .544878 .1072274 .6032773 . Err.0907533 -.2152593 .1199835 .34 2.073733 -.94 8.118232 1.76 1.00 5.7294782 .3345421 .477 0.2510923 .048 0.1647555 .015 0.014 0.83 3.315 0.176 0.4598856 .20 4.591606 .7504283 .014 0.5482038 .6530727 .1646855 .1187517 .0736948 .1523003 .125 0.2887031 .1287391 .1166043 .2477937 .0894145 .009 0.9135514 .85 2.99 3.019 0.693 [95 % Conf.0798912 .0653147 .31 4.6995092 .1271968 .1388305 .413 0.6269295 .7023233 .82 3.2343011 -.0893206 .4251446 . .1108744 .1518297 .0027875 .031 0.0306879 .4752478 .89 3.18 15.55 3.0423186 .0203292 .2475885 .00 3.9685408 .1903158 .3312363 .2542177 .651334 1.2239919 .87 3.001 0.030 0.1492974 .0987511 .4602026 .3306046 .3830794 .039 0.4317114 .024 0.7427429 .1835421 -5.40 2.24 6.6884868 .013 0.26 4.2170709 .0099349 .6183196 .025 0.40 4.

csv se tiene informaci´on anual 1997-2009 para las siguientes provincias: Lambayeque. escoger el mejor modelo y corregir si existe problemas de autocorrelaci´on y/o heteroscedasticidad.10231141 . Ejercicio Propuesto sigma_u sigma_e rho 17. las variables que se usar´an son: pd (producci´on de arroz en TM). pr (precio real en soles/TM). sc (superficie cosechada en ha.). 2.6.354 17.99858435 (fraction of variance due to u_i) Ejercicio Propuesto En el archivo prod arroz. tambien se le agreg´o sus t´erminos cuadr´aticos de estas u ´ltimas variables.6. El modelo a estimar ser´ıa el siguiente: pdit = β1 + β2scit + β3prit + β4tmin + β5tmin2it + β6ppit + β7pp2it + uit El objetivo de este ejercicio es estimar los tres tipos de modelos panel. .7173076 . tmin y pp son la temperatura m´ınima (◦ C) y la precipitaci´on (mm) respectivamente. El objetivo es estimar una funci´on de producci´on para el arroz usando un modelo panel. Chiclayo y Ferre˜ nafe.