subtitlecat.com

All language subtitles for gis-capstone - 16 - Data Quality (Review from Data Formats, Design, & Quality).es

Afrikaans

Albanian

Amharic

Arabic Download

Armenian

Azerbaijani

Basque

Belarusian

Bengali

Bosnian

Bulgarian

Catalan

Cebuano

Chichewa

Chinese (Simplified)

Chinese (Traditional)

Corsican

Croatian

Czech

Danish

Dutch

English

Esperanto

Estonian

Filipino

Finnish

French

Frisian

Galician

Georgian

German

Greek

Gujarati

Haitian Creole

Hausa

Hawaiian

Hebrew

Hindi

Hmong

Hungarian

Icelandic

Igbo

Indonesian

Irish

Italian

Japanese

Javanese

Kannada

Kazakh

Khmer

Korean

Kurdish (Kurmanji)

Kyrgyz

Lao

Latin

Latvian

Lithuanian

Luxembourgish

Macedonian

Malagasy

Malay

Malayalam

Maltese

Maori

Marathi

Mongolian

Myanmar (Burmese)

Nepali

Norwegian

Pashto

Persian

Polish

Portuguese

Punjabi

Romanian

Russian

Samoan

Scots Gaelic

Serbian

Sesotho

Shona

Sindhi

Sinhala

Slovak

Slovenian

Somali

Spanish

Sundanese

Swahili

Swedish

Tajik

Tamil

Telugu

Thai

Turkish

Ukrainian

Urdu

Uzbek

Vietnamese

Welsh

Xhosa

Yiddish

Yoruba

Zulu

Odia (Oriya)

Kinyarwanda

Turkmen

Tatar

Uyghur

Would you like to inspect the original subtitles? These are the user uploaded subtitles that are being translated: 1 00:00:00,000 --> 00:00:07,964 [MÚSICA] 2 00:00:07,964 --> 00:00:09,730 Hola de nuevo y bienvenido de nuevo. 3 00:00:09,730 --> 00:00:14,004 En esta conferencia, continuaremos donde lo dejamos en la última conferencia discutiendo los 4 00:00:14,004 --> 00:00:16,652 tipos de incertidumbre que afectan nuestro análisis, y 5 00:00:16,652 --> 00:00:20,445 cómo podemos considerarlos cuando diseñamos nuestros estudios espaciales. 6 00:00:20,445 --> 00:00:23,835 En esta conferencia, cubriremos la incertidumbre de nuestros dispositivos de medición, la 7 00:00:23,835 --> 00:00:26,890 incertidumbre de cómo representamos y almacenamos nuestros datos, y 8 00:00:26,890 --> 00:00:29,010 luego la incertidumbre de cómo analizamos nuestros datos. 9 00:00:30,070 --> 00:00:32,790 El primer tipo de incertidumbre, la incertidumbre de la medición, 10 00:00:32,790 --> 00:00:36,060 es probablemente el tipo más fácil de entender intuitivamente. 11 00:00:36,060 --> 00:00:39,960 Esta es la área que se introduce debido a los límites de nuestros dispositivos de detección, 12 00:00:39,960 --> 00:00:43,220 o debido a las condiciones en las que estábamos recopilando nuestros datos. 13 00:00:43,220 --> 00:00:47,900 Por ejemplo, algunos GPS sólo tienen una precisión de unos ocho metros aproximadamente. 14 00:00:47,900 --> 00:00:51,060 Dentro de esa área, no podemos decir con certeza que las coordenadas que tenemos 15 00:00:51,060 --> 00:00:54,690 son las coordenadas exactas, si están aquí o si están aquí. 16 00:00:54,690 --> 00:00:56,520 Pero sabemos que estamos cerca. 17 00:00:56,520 --> 00:00:59,675 Para una colección de mediciones que están más separadas del margen de error, 18 00:00:59,675 --> 00:01:01,105 esto suele estar bien. 19 00:01:01,105 --> 00:01:04,605 Pero al tratar de analizar las distancias entre puntos que están dentro 20 00:01:04,605 --> 00:01:07,065 del margen de error del dispositivo de detección, 21 00:01:07,065 --> 00:01:10,945 entonces necesitamos entender las limitaciones que esto impone a nuestro análisis. 22 00:01:12,125 --> 00:01:16,055 También podemos poner límites de error en nuestro análisis y decir cosas como el Monte Everest 23 00:01:16,055 --> 00:01:21,650 mide 8.850 metros de altura, más o menos unos cinco metros. 24 00:01:21,650 --> 00:01:25,790 En realidad no sabemos la altura exacta, podría ser 8.855, o 25 00:01:25,790 --> 00:01:30,270 podría ser 8.845, o en cualquier lugar intermedio. 26 00:01:30,270 --> 00:01:33,580 Una vez más, puede que no importe porque nuestro análisis podría no 27 00:01:33,580 --> 00:01:35,830 depender de ese alto nivel de precisión, pero 28 00:01:35,830 --> 00:01:38,259 hay muchas situaciones que podría necesitar tenerlo en cuenta. 29 00:01:39,420 --> 00:01:42,590 Además, es importante recordar que la tierra está cambiando y 30 00:01:42,590 --> 00:01:46,400 es un sistema dinámico, y esto puede afectar las mediciones que hemos tomado previamente 31 00:01:46,400 --> 00:01:49,210 y cómo trabajamos con ellas con mediciones que tomaremos en el futuro. 32 00:01:50,560 --> 00:01:54,370 De vuelta en la oficina, si estuviéramos creando datos a través del proceso de digitalización, 33 00:01:54,370 --> 00:01:55,970 como lo hicimos en este curso, 34 00:01:55,970 --> 00:02:00,190 necesitamos entender cómo podemos introducir errores en nuestros datos en el proceso. 35 00:02:00,190 --> 00:02:04,420 Lo discutimos un poco cuando aprendimos acerca de la digitalización, pero sabemos que a veces 36 00:02:04,420 --> 00:02:08,070 es posible que no se alinee correctamente con los datos originales que está digitalizando. 37 00:02:08,070 --> 00:02:11,900 Estarás fuera un poco a un lado, o puedes terminarlo demasiado pronto, o 38 00:02:11,900 --> 00:02:13,190 un poco demasiado tarde. 39 00:02:13,190 --> 00:02:16,880 Así que estamos insertando pequeños fragmentos de error en nuestros datos. 40 00:02:16,880 --> 00:02:21,020 Aquí es donde es importante saber en qué escala se digitalizaron los datos para que 41 00:02:21,020 --> 00:02:23,110 pueda conocer los límites del análisis. 42 00:02:23,110 --> 00:02:26,460 A una escala más refinada, verás que esos errores empiezan a entrar. 43 00:02:27,730 --> 00:02:31,830 Esta incertidumbre también se extiende a diferentes linajes de datos. 44 00:02:31,830 --> 00:02:35,170 Durante un tiempo en California hubo múltiples conjuntos de datos competitivos para la 45 00:02:35,170 --> 00:02:36,690 información fluvial. 46 00:02:36,690 --> 00:02:40,730 Si quisiera analizar datos construidos para uno de aquellos con datos construidos en el otro 47 00:02:40,730 --> 00:02:44,810 conjunto de datos, necesitaría tomar algún tipo de medida correctiva que tenga en cuenta 48 00:02:44,810 --> 00:02:47,379 que estos datos se generaron a partir de diferentes fuentes. 49 00:02:48,740 --> 00:02:53,610 La siguiente fuente importante de incertidumbre es la incertidumbre en cómo representamos nuestros datos. 50 00:02:53,610 --> 00:02:58,600 El ejemplo clásico de esto es, un píxel ráster mixto donde las entidades subyacentes 51 00:02:58,600 --> 00:03:02,500 no necesariamente se alinean perfectamente con los límites del píxel ráster. 52 00:03:02,500 --> 00:03:06,030 Esto es similar a los problemas de regionalización que discutimos en la 53 00:03:06,030 --> 00:03:08,830 conferencia anterior, pero ligeramente diferente. 54 00:03:08,830 --> 00:03:13,880 Nuestra elección del tipo de datos y parámetros, necesariamente generaliza nuestros datos aquí. 55 00:03:13,880 --> 00:03:18,990 Donde el mundo real es muy detallado, un ráster contiene solo el único valor. 56 00:03:18,990 --> 00:03:22,910 Nuestro método para elegir el valor en el ráster contiene basado en el mundo real 57 00:03:22,910 --> 00:03:27,320 puede afectar significativamente nuestro análisis de datos porque las clasificaciones completas de la 58 00:03:27,320 --> 00:03:30,050 información pueden desaparecer según la elección. 59 00:03:30,050 --> 00:03:33,320 ¿ Clasificamos nuestros datos en función de cuál es el más dominante dentro 60 00:03:33,320 --> 00:03:34,460 de la celda ráster? 61 00:03:34,460 --> 00:03:36,900 ¿ O elegimos cuál está en el centro de la celda ráster? 62 00:03:36,900 --> 00:03:38,120 ¿ O usamos otros criterios? 63 00:03:39,280 --> 00:03:43,370 Un problema similar ocurre si tratamos de agregar información en los datos de puntos 64 00:03:43,370 --> 00:03:44,960 en los datos del polígono. 65 00:03:44,960 --> 00:03:47,840 Algunos polígonos sólo pueden contener un puñado de puntos, 66 00:03:47,840 --> 00:03:50,960 mientras que otros tienen información detallada en muchos puntos. 67 00:03:50,960 --> 00:03:56,150 Estos polígonos con pocas muestras de datos tal vez sesgados en relación con los otros polígonos. 68 00:03:56,150 --> 00:04:00,280 Si estamos agregando polígonos que no fueron dibujados en base a algún tema compartido 69 00:04:00,280 --> 00:04:05,080 en los puntos, entonces tal vez los límites de polígonos estén sesgando nuestra agregación. 70 00:04:05,080 --> 00:04:08,500 Es decir, la forma de las entidades poligonales se eligió en función de 71 00:04:08,500 --> 00:04:10,670 otros criterios distintos a los que elegimos agregar. 72 00:04:11,750 --> 00:04:15,850 Del mismo modo, tal vez algunos polígonos solo tengan puntos en una esquina, 73 00:04:15,850 --> 00:04:18,880 lo que significa que el polígono está sesgado por la falta de información 74 00:04:18,880 --> 00:04:20,750 del resto de las ubicaciones dentro del polígono. 75 00:04:21,970 --> 00:04:25,480 Imagina que tenemos puntos que representan incidentes criminales en una ciudad. 76 00:04:25,480 --> 00:04:28,550 Podríamos agregar estadísticas de estos incidentes a 77 00:04:28,550 --> 00:04:30,420 distritos policiales de la ciudad. 78 00:04:30,420 --> 00:04:33,150 Pero podríamos ver patrones diferentes haciendo eso que si nos 79 00:04:33,150 --> 00:04:37,390 agregáramos a distritos electorales o distritos de servicios públicos, etc. 80 00:04:37,390 --> 00:04:39,400 Cada uno de estos podría ser informativo, pero 81 00:04:39,400 --> 00:04:42,410 cuando los límites no significan nada para los datos originales, y a 82 00:04:42,410 --> 00:04:45,960 veces incluso cuando lo hacen, es posible que obtengas artefactos en su resultado. 83 00:04:45,960 --> 00:04:49,520 Tendrá que evaluar si las tendencias que ve son reales, o 84 00:04:49,520 --> 00:04:52,650 el resultado de una agregación mal elegida y mal alineada. 85 00:04:54,150 --> 00:04:57,955 Un caso más general de esto es el problema de la unidad de área modificable, o 86 00:04:57,955 --> 00:05:03,225 el MAUP, que básicamente dice que cuando estamos creando zonas de análisis o polígonos, 87 00:05:03,225 --> 00:05:08,295 el número, tamaño y forma de estas zonas pueden afectar drásticamente el análisis. 88 00:05:08,295 --> 00:05:10,715 Si duplicara el tamaño de las zonas de análisis para el 89 00:05:10,715 --> 00:05:11,829 análisis de salud pública, por ejemplo, 90 00:05:12,960 --> 00:05:17,440 podría obtener resultados muy diferentes a los de las zonas más pequeñas originales. 91 00:05:17,440 --> 00:05:21,110 Elegir entre ellos no es simple, y puede que no haya un conjunto objetivo de 92 00:05:21,110 --> 00:05:24,460 criterios para tomar la decisión de qué tamaño y forma debe ser su zona. 93 00:05:26,040 --> 00:05:29,870 Una consideración final es algo que llamamos la falacia ecológica. 94 00:05:29,870 --> 00:05:33,040 La falacia ecológica es una falacia lógica que trata de 95 00:05:33,040 --> 00:05:37,620 si una característica de una zona o polígono es en realidad una característica 96 00:05:37,620 --> 00:05:40,790 de las ubicaciones o individuos dentro de esa zona. Si 97 00:05:40,790 --> 00:05:43,470 bien tratamos los datos como si fuera así, 98 00:05:43,470 --> 00:05:45,990 sabemos por experiencia que a menudo no lo son. 99 00:05:45,990 --> 00:05:48,240 Si nuestros datos tienen un nivel de ingreso medio para 100 00:05:48,240 --> 00:05:52,320 un polígono, no es que todos dentro de esa zona ganen esa cantidad de dinero. 101 00:05:52,320 --> 00:05:56,160 Podría haber gente ganando sustancialmente menos o sustancialmente más. 102 00:05:56,160 --> 00:06:00,630 Del mismo modo, si hacemos inferencias basadas en estos datos, necesitamos entender que 103 00:06:00,630 --> 00:06:05,630 tal vez no se aplique, y probablemente no lo hará, precisamente a los individuos del grupo. 104 00:06:05,630 --> 00:06:07,020 Cuando estamos construyendo nuestros datos, 105 00:06:07,020 --> 00:06:10,830 es importante que comprendamos la variabilidad como esta que descartamos 106 00:06:10,830 --> 00:06:12,559 en la búsqueda de datos que satisfagan nuestras necesidades. 107 00:06:14,060 --> 00:06:16,460 Vale, eso es todo para esta conferencia. 108 00:06:16,460 --> 00:06:18,530 En esta conferencia, discutimos las fuentes de error de 109 00:06:18,530 --> 00:06:22,110 nuestras herramientas de medición, así como de cómo representamos los datos. 110 00:06:22,110 --> 00:06:25,400 También discutimos el problema de la unidad de área modificable y 111 00:06:25,400 --> 00:06:28,550 cómo puede distorsionar nuestros resultados, y la falacia ecológica y 112 00:06:28,550 --> 00:06:32,540 cómo podemos aplicar incorrectamente resultados válidos a una situación inválida 113 00:06:32,540 --> 00:06:35,730 aplicando inferencias de un grupo o área a un individuo. 114 00:06:37,060 --> 00:06:39,980 A continuación, vamos a hablar de topología. 115 00:06:39,980 --> 00:06:40,906 Nos vemos la próxima vez.11739