Knowledge center Programación Entornos de programación

El uso de índices con MongoDB

En este enlace puedes descargarte un fichero JSON comprimido formado por 10 millones de personas ficticias, generadas aleatoriamente a partir de la distribución de nombres y apellidos del INE.

El fichero ocupa 159Mb comprimido y 1.1Gb descomprimido.

Vamos a realizar algunas consultas con una colección que crearemos con estos datos, antes y después de crear índices y comprobaremos la diferencia.

Para realizar estos ejemplos puedes usar MongoDB Compass o Studio 3T. En el vídeo del final yo uso la antigua consola mongo, pero el ejemplo te va a funcionar igual en cualquiera de las dos interfaces gráficas que ya conoces.

1. Importación de los datos

Una vez descargado el fichero y descomprimido, deberás importar los datos en una colección que llamaremos poblacion. Para ello usaremos el comando mongoimport. Aquí dividimos el comando en varias líneas, pero tú puedes dejar todo en la misma línea:

  C:\~\bin> mongoimport.exe ^
  --db curso ^
  --collection poblacion ^
  --drop ^
  --file tmp\personas-10m.json
connected to: mongodb://localhost/
dropping: curso.poblacion
[........................] curso.poblacion      7.87MB/1.11GB (0.7%)
...
[########################] curso.poblacion      1.11GB/1.11GB (100.0%)
10000000 document(s) imported successfully. 0 document(s) failed to import.

La importación tardará alrededor de 10 minutos. Verificamos la carga contando el número de documentos:

  > db.poblacion.count()
10000000

2. Consulta sin índice

Ahora vamos a buscar todas las personas que se llamen PEDRO GARCIA FERNANDEZ. En vez de obtener los resultados vamos a concatenar explain() para obtener las estadísticas de la consulta:

  > db.poblacion.find( {
    nombre: "PEDRO",
    apellido1: "GARCIA",
    apellido2: "FERNANDEZ"
}).explain("executionStats")

La consulta la hemos hecho sin ningún tipo de índice. La salida resumida es la siguiente:

  {...
    "executionStats" : {
      "executionSuccess" : true,
      "nReturned" : 37,
      "executionTimeMillis" : 22395,
      "totalKeysExamined" : 0,
      "totalDocsExamined" : 10000000,
...}

Hemos obtenido 37 resultados en algo más de 22 segundos, para lo cual hemos tenido que recorrer los 10 millones de documentos de la colección (collection scan).

3. Creación de índices simples

Vamos a crear varios índices para mejorar esta consulta. Vamos a indexar los tres campos de la consulta por separado:

  > db.poblacion.createIndex( { "nombre": 1 } )
{
    "createdCollectionAutomatically" : false,
    "numIndexesBefore" : 1,
    "numIndexesAfter" : 2,
    "ok" : 1
}
> db.poblacion.createIndex( { "apellido1": 1 } )
...
> db.poblacion.createIndex( { "apellido2": 1 } )
...

La creación de los índices tardará unos 2 minutos por cada uno. Tras ello verificamos que se han creado con getIndexes():

  > db.poblacion.getIndexes()
[
    { "v" : 2, "key" : { "_id" : 1 }, "name" : "_id_" },
    { "v" : 2, "key" : { "nombre" : 1 }, "name" : "nombre_1" },
    { "v" : 2, "key" : { "apellido1" : 1 }, "name" : "apellido1_1" },
    { "v" : 2, "key" : { "apellido2" : 1 }, "name" : "apellido2_1" }
]

4. Consulta con los índices simples

Repetimos nuestra consulta de prueba, pero ya con los índices creados:

  > db.poblacion.find( {
    nombre: "PEDRO",
    apellido1: "GARCIA",
    apellido2: "FERNANDEZ"
} ).explain("executionStats")
{...
    "executionStats" : {
    "executionSuccess" : true,
    "nReturned" : 37,
    "executionTimeMillis" : 4529,
    "totalKeysExamined" : 50856,
    "totalDocsExamined" : 50856,
...}

Observamos que el tiempo de respuesta ha mejorado bastante, pasando a algo más de 4 segundos. Si la volvemos a ejecutar este tiempo bajará algo más, ya que la primera vez MongoDB realiza una competición entre los distintos planes de ejecución en función de los índices existentes, y las posteriores veces recuerda el plan ganador.

Al final la mejor opción ha sido la búsqueda del nombre por su índice, y tras ello recorre más de 50.000 documentos filtrando por los apellidos. No está mal, pero lo ¡podemos hacer mejor!

5. Creación de un índice compuesto

Ahora creamos un nuevo índice compuesto por los tres campos de la consulta:

  > db.poblacion.createIndex( { "nombre": 1, "apellido1": 1, "apellido2": 1 } )
{
    "createdCollectionAutomatically" : false,
    "numIndexesBefore" : 4,
    "numIndexesAfter" : 5,
    "ok" : 1
}

La duración de la creación de este índice es similar a los de los anteriores.

6. Consulta con el índice compuesto

Con el nuevo índice compuesto creado volvemos a ejecutar nuestra consulta de prueba:

  > db.poblacion.find( {
    nombre: "PEDRO",
    apellido1: "GARCIA",
    apellido2: "FERNANDEZ"
} ).explain("executionStats")

{...
  "executionStats" : {
    "executionSuccess" : true,
    "nReturned" : 37,
    "executionTimeMillis" : 68,
    "totalKeysExamined" : 37,
    "totalDocsExamined" : 37
...}

La consulta ahora sí que es rápida. Solo 68 milisegundos para obtener los mismos resultados que antes. Ha mejorado más de 300 veces el rendimiento de la primera consulta sin índices. Como puedes observar los índices se deben adaptar a nuestras consultas. Solo se han recorrido las entradas del índice que corresponden a los documentos devueltos. A la hora de crear índices lo ideal es que los valores de nReturned y totalDocsExamined coincidan.

Como ejercicio, prueba con distintas combinaciones de nombre y apellidos y comprueba los resultados. Puedes probar con tu propio nombre y apellidos para comprobar si se ha generado por probabilidad. Recuerda que la base de datos es ficticia.

En este vídeo puedes ver lo mismo que te acabo de explicar. En él las operaciones las hago con la antigua consola, pero tú puedes hacerlas con MongoDB Compass o Studio 3T.

Aprovecha lo que ya has aprendido y completa tu formación en el curso de Introducción a MongoDB

El uso de índices con MongoDB

¿Te gusta el contenido de esta píldora de conocimiento?

Curso de Introducción a MongoDB