por Cody Steele

En esta época, no es raro que los errores en las entradas de datos se produzcan en conjuntos de datos tan grandes que no sea práctico buscar y corregir los errores a mano. Afortunadamente, Minitab LLCluye herramientas que facilitan la configuración de los datos, para que se puedan obtener las respuestas que se necesiten.

Digamos, por ejemplo, que se va a mirar en la base de datos Global Wood Density Database. Es una obra muy interesante si te conciernen las densidades de las maderas. Chave et al. lo llamaron "la mayor compilación de datos de densidad de madera hasta la fecha, que abarca 8412 taxones, 1683 géneros y 191 familias" (2009). Amablemente, sin embargo, la proporcionan en datadryad.org como un archivo Excel.

Pero resulta que hay un pequeño error en la columna Region (al menos en el momento de escribir este artículo). Es probable que apenas lo haya notado, pero hay una discrepancia entre mayúsculas y minúsculas. A un total de 4182 filas se les asigna la región de América del Sur (tropical), mientras que a 9 filas del conjunto de datos se les asigna la región de América del Sur (Tropical). Este es el tipo de desajuste que puede causar problemas en su análisis. Si sospecha que existe tal error, o simplemente quiere verificar que no existe, sería una tarea tediosa analizar 4191 filas de datos en busca de desajustes.

Afortunadamente, pueden encontrarse haciendo un recuento rápido en Minitab.

Encuéntralo

  1. Seleccione Estadísticas> Tablas> cuenta de variables individuales
  2. En Variables, ingrese Region. Haga clic en Aceptar.

En la tabla de salida, puede detectar la falta de coincidencia de mayúsculas/minúsculas en la parte inferior.

Arréglalo

Reparar los desajustes de mayúsculas es muye fácil en Minitab. Pruebe esto:

  1. Elija Datos> Recodificar> A texto.
  2. En Recodificar valores en las siguientes columnas, ingrese Region.
  3. En Método, seleccione Recodificar valores individuales.
  4. En la tabla que aparece, desplácese hacia abajo para encontrar la discrepancia entre mayúsculas y minúsculas. Luego, en la columna Valor recodificado, cambie South America (Tropical) para que use una t minúscula.
  5. En Ubicación de almacenamiento para las columnas recodificadas, seleccione En las columnas originales. Haga clic en Aceptar.

El resumen le mostrará las 9 instancias que fueron modificadas.

Arreglarlo antes de que sea un problema

Si está abriendo un archivo Excel, Minitab puede solucionar los desajustes entre mayúsculas y minúsculas incluso antes de que sepa que son un problema. Si tiene guardada la base de datos Global Wood Density Database y la abre, en Minitab, se le presentarán opciones para abrir un archivo Excel. Prueba esto:

  1. Elija Archivo>Abrir y seleccione el archivo Excel de su sistema de archivos.
  2. Haga clic en la pestaña titulada Data, el nombre de la hoja con los datos en el archivo original de Excel.
  3. Seleccionar Los datos tienen nombres de columna.
  4. Haga clic en Opciones.
  5. En Columnas de texto, seleccione Corregir desajustes de casos. Haga clic en Aceptar dos veces.

Si cuenta en la columna de regiones ahora, la corrección en la columna ya está hecha.

Envolver

Para obtener las respuestas necesarias de los datos, los datos deben estar lo suficientemente limpios para poder ser analizados. Minitab proporciona una serie de herramientas que se pueden utilizar para preparar los datos más rápidamente, y poder obtener información.

Referencias

Chave J, Coomes DA, Jansen S, Lewis SL, Swenson NG, Zanne AE (2009). Hacia un espectro mundial de la economía de la madera. Ecology Letters 12 (4): 351-366. http://dx.doi.org/10.1111/j.1461-0248.2009.01285.x

Zanne AE, Lopez-Gonzalez G, Coomes DA, Ilic J, Jansen S, Lewis SL, Miller RB, Swenson NG, Wiemann MC, Chave J (2009). Datos de: Hacia un espectro mundial de la economía de la madera. Repositorio Digital Dryad. http://dx.doi.org/10.5061/dryad.234