Kitabı oku: «Ciencia de datos», sayfa 3

Yazı tipi:

Un tercer mito de la ciencia de datos es que el software moderno de ciencia de datos es fácil de usar, por lo que la ciencia de datos es fácil de hacer. Es cierto que el software de ciencia de datos se ha vuelto más fácil de usar. Sin embargo, esta facilidad de uso puede ocultar el hecho de que hacer ciencia de datos correctamente requiere tanto el conocimiento de dominio apropiado como la experiencia con respecto a las propiedades de los datos y los supuestos que sustentan los diferentes algoritmos de aprendizaje automático. De hecho, nunca ha sido tan fácil hacer mal la ciencia de datos. Como todo lo demás en la vida, si no comprendes lo que haces cuando haces ciencia de datos, cometerás errores. El peligro con la ciencia de datos es que la tecnología puede intimidar a las personas y hacerlos confiar en cualquier resultado que el software les presente. Sin embargo, pueden haber enmarcado el problema mal, haber ingresado los datos incorrectos o haber utilizado técnicas de análisis con suposiciones inapropiadas. Por lo tanto, es probable que los resultados que presenta el software sean la respuesta a la pregunta incorrecta o que se basen en los datos incorrectos o en un cálculo incorrecto.

El último mito sobre la ciencia de datos que queremos mencionar aquí es la creencia de que la ciencia de datos se amortiza rápidamente. La verdad de esta creencia depende del contexto de la organización. La adopción de la ciencia de datos puede requerir una inversión significativa en términos de desarrollo de infraestructura de datos y contratación de personal con experiencia en ciencia de datos. Además, la ciencia de datos no dará resultados positivos en cada proyecto. A veces no hay una gema oculta de conocimiento en los datos, y a veces la organización no está en condiciones de actuar sobre el conocimiento revelado por el análisis. Sin embargo, en contextos donde hay un problema comercial bien entendido y los datos apropiados y la experiencia humana están disponibles, entonces la ciencia de datos puede (a menudo) proporcionar una visión procesable que le da a una organización la ventaja competitiva que necesita para tener éxito.

CAPÍTULO 2

¿Qué son los datos y qué es un conjunto de datos?

Como su nombre lo indica, la ciencia de datos depende fundamentalmente de los datos. En su forma más básica, un dato o una pieza de información es una abstracción de una entidad del mundo real (persona, objeto o evento). Los términos variable, característica y atributo a menudo se usan indistintamente para denotar una abstracción individual. Cada entidad se describe típicamente por una serie de atributos. Por ejemplo, un libro puede tener los siguientes atributos: autor, título, tema, género, editorial, precio, fecha de publicación, número de palabras, número de capítulos, número de páginas, edición, ISBN, etc.

Un conjunto de datos consiste en los datos relacionados con una colección de entidades, con cada entidad descrita en términos de un conjunto de atributos. En su forma más básica, un conjunto de datos está organizado en una matriz de datos n * m llamada registro analítico, donde n es el número de entidades (filas) y m es el número de atributos (columnas)1. En ciencia de datos, los términos conjunto de datos y registro de análisis a menudo se usan indistintamente, siendo el registro de análisis una representación particular de un conjunto de datos. La Tabla 1 ilustra un registro analítico para un conjunto de datos de libros clásicos. Cada fila de la tabla describe un libro. Los términos instancia, ejemplo, entidad, objeto, caso, individuo y registro se usan en la literatura de ciencia de datos para referirse a una fila. Por lo tanto, un conjunto de datos contiene un conjunto de instancias, y cada instancia se describe mediante un conjunto de atributos.

La construcción del registro analítico es un requisito previo para hacer ciencia de datos. De hecho, la mayor parte del tiempo y esfuerzo en proyectos de ciencia de datos se dedica a crear, limpiar y actualizar el registro analítico. El registro analítico a menudo se construye combinando información de muchas fuentes diferentes: los datos pueden tener que extraerse de múltiples bases de datos, almacenes de datos o archivos de computadora en diferentes formatos (por ejemplo, hojas de cálculo o archivos csv) o de la web o las redes sociales.

Tabla 1. Un conjunto de datos de libros clásicos.

Identificación	Título	Autor	Año	Cubierta	Edición	Precio
1	Emma	Austen	1815	Libro de bolsillo	Vigésima	5,75 dólares
2	Drácula	Stoker	1897	Tapadura	Quinceava	12 dólares
3	Ivanhoe	Scott	1820	Tapadura	Octava	25 dólares
4	Secuestrado	Stevenson	1886	Libro de bolsillo	Onceava	5 dólares

Se enumeran cuatro libros en el conjunto de datos de la Tabla 1. Excluyendo el atributo de identificación, que es simplemente una etiqueta para cada fila y, por lo tanto, no es útil para el análisis, cada libro se describe con seis atributos: título, autor, año, cubierta, edición y precio. Podríamos haber incluido muchos más atributos para cada libro, pero, como es típico de los proyectos de ciencia de datos, necesitábamos tomar una decisión cuando estábamos diseñando el conjunto de datos. En este caso, estábamos limitados por el tamaño de la página y la cantidad de atributos que podíamos incluir. Sin embargo, en la mayoría de los proyectos de ciencia de datos, las restricciones se relacionan con los atributos que realmente podemos reunir y los atributos que creemos, basados en nuestro conocimiento del dominio, son relevantes para el problema que estamos tratando de resolver. La inclusión de atributos adicionales en un conjunto de datos no tiene costo. Primero, existe el tiempo y el esfuerzo adicionales para recopilar y verificar la calidad de la información de los atributos para cada instancia en el conjunto de datos e integrar estos datos en el registro analítico. En segundo lugar, incluir atributos irrelevantes o redundantes puede tener un efecto negativo en el rendimiento de muchos de los algoritmos utilizados para analizar datos. La inclusión de muchos atributos en un conjunto de datos aumenta la probabilidad de que un algoritmo encuentre patrones irrelevantes o falsos en los datos que parecen ser estadísticamente significativos solo debido a la muestra particular de instancias en el conjunto de datos. El problema de cómo elegir el o los atributos correctos es un desafío que enfrentan todos los proyectos de ciencia de datos, y a veces se trata de un proceso iterativo de experimentos de prueba y error donde cada iteración verifica los resultados logrados usando diferentes subconjuntos de atributos.

Hay muchos tipos diferentes de atributos, y para cada tipo de atributo son apropiados diferentes tipos de análisis. Por lo tanto, comprender y reconocer diferentes tipos de atributos es una habilidad fundamental para un científico de datos. Los tipos estándar son numéricos, nominales y ordinales. Los atributos numéricos describen cantidades mensurables que se representan utilizando valores enteros o reales. Los atributos numéricos se pueden medir en una escala de intervalo o en una escala de razón. Los atributos de intervalo se miden en una escala con un intervalo fijo pero arbitrario y un origen arbitrario, por ejemplo, mediciones de fecha y hora. Es apropiado aplicar operaciones de ordenación y sustracción a los atributos de intervalo, pero otras operaciones aritméticas (como la multiplicación y la división) no son apropiadas. Las escalas de razón son similares a las escalas de intervalo, pero la escala de medición posee un origen de cero verdadero. Un valor de cero indica que no se está midiendo ninguna cantidad. Una consecuencia de una escala de razón que tiene un origen de cero verdadero es que podemos describir un valor en una escala de razón como un múltiplo (o razón) de otro valor. La temperatura es un ejemplo útil para distinguir entre escalas de intervalo y razón.2 Una medición de temperatura en la escala Celsius o Fahrenheit es una medición de intervalo porque un valor 0 en cualquiera de estas escalas no indica cero calor. Entonces, aunque podemos calcular las diferencias entre las temperaturas en estas escalas y comparar estas diferencias, no podemos decir que una temperatura de 20° Celsius sea dos veces más cálida que 10° Celsius. Por el contrario, una medición de temperatura en Kelvin está en una escala de relación porque 0 K (cero absoluto) es la temperatura a la que cesa todo movimiento térmico. Otros ejemplos comunes de mediciones de escala de razón incluyen cantidades de dinero, peso, altura y marcas en una hoja de examen (escala 0–100). En la Tabla 1, el atributo “año” es un ejemplo de un atributo de escala de intervalo, y el atributo “precio” es un ejemplo de un atributo de escala de razón.

Los atributos nominales (también conocidos como categóricos) toman valores de un conjunto finito. Estos valores son nombres (por lo tanto, “nominales”) para categorías, clases o estados de cosas. Los ejemplos de atributos nominales incluyen el estado civil (soltero, casado, divorciado) y el tipo de cerveza (ale, pale ale, pils, porter, stout, etc.). Un atributo binario es un caso especial de un atributo nominal donde el conjunto de valores posibles está restringido a solo dos valores. Por ejemplo, podríamos tener el atributo binario “correo no deseado” (o spam), que describe si un correo electrónico es spam (verdadero) o no es spam (falso), o el atributo binario “fumador”, que describe si un individuo es (verdadero) o no (falso) fumador. Los atributos nominales no pueden tener operaciones de orden o aritméticas aplicadas a ellos. Ten en cuenta que un atributo nominal se puede ordenar alfabéticamente, pero la alfabetización es una operación distinta de la ordenación. En la Tabla 1, “autor” y “título” son ejemplos de atributos nominales.

Los atributos ordinales son similares a los atributos nominales, con la diferencia de que es posible aplicar un orden de clasificación sobre las categorías de atributos ordinales. Por ejemplo, un atributo que describe la respuesta a una pregunta de la encuesta puede tomar valores del dominio “me desagrada mucho, me desagrada, no me importa, me gusta y me gusta mucho”. Existe una order natural sobre estos valores de “me desagrada mucho” a “me gusta mucho” (o viceversa, según la convención que se utilice). Sin embargo, una característica importante de los datos ordinales es que no existe una noción de igual distancia entre estos valores. Por ejemplo, la distancia cognitiva entre “me desagrada” y “no me importa” puede ser diferente de la distancia entre “me gusta” y “me gusta mucho”. Como resultado, no es apropiado aplicar operaciones aritméticas (como el promedio) en atributos ordinales. En la Tabla 1, el atributo “edición” es un ejemplo de un atributo ordinal. La distinción entre datos nominales y ordinales no siempre es clara. Por ejemplo, considere un atributo que describe el clima y que puede tomar los valores “soleado”, “lluvioso”, “nublado”. Una persona podría ver este atributo como nominal, sin un orden natural sobre los valores, mientras que otra persona podría argumentar que el atributo es ordinal, con “nublado” siendo tratado como un valor intermedio entre “soleado” y “lluvioso” (Hall, Witten y Frank 2011).

El tipo de datos de un atributo (numérico, ordinal, nominal) afecta los métodos que podemos usar para analizar y comprender los datos, incluidas las estadísticas básicas que podemos usar para describir la distribución de valores que toma un atributo y los algoritmos más complejos que utilizamos para identificar los patrones de relaciones entre atributos.

El tipo de datos de un atributo (numérico, ordinal, nominal) afecta los métodos que podemos usar para analizar y comprender los datos.

En el nivel de análisis más básico, los atributos numéricos permiten operaciones aritméticas, y el análisis estadístico típico aplicado a los atributos numéricos es medir la tendencia central (usando el valor medio del atributo) y la dispersión de los valores de los atributos (usando la varianza o estadísticas de desviación estándar). Sin embargo, no tiene sentido aplicar operaciones aritméticas a atributos nominales u ordinales. Entonces, el análisis básico de estos tipos de atributos implica contar el número de veces que cada uno de los valores ocurre en el conjunto de datos o calcular la proporción de ocurrencia de cada valor o ambos.

Los datos se generan a través de un proceso de abstracción, por lo que cualquier dato es el resultado de decisiones y elecciones humanas. Para cada abstracción, alguien (o algún conjunto de personas) habrá tomado decisiones con respecto a qué abstraer y qué categorías o medidas utilizar en la representación abstraída. La implicación es que los datos nunca son una descripción objetiva del mundo. En cambio, siempre son parciales y sesgados. Como ha observado Alfred Korzybski, “Un mapa no es el territorio que representa, pero, si es correcto, tiene una estructura similar al territorio, lo que explica su utilidad» (1996, 58).

En otras palabras, los datos que utilizamos para la ciencia de datos no son una representación perfecta de las entidades y procesos del mundo real que estamos tratando de entender, pero si tenemos cuidado en cómo diseñamos y reunimos los datos que utilizamos, entonces los resultados de nuestro análisis proporcionarán información útil sobre nuestros problemas del mundo real. La historia de Moneyball presentada en el capítulo 1 es un gran ejemplo de cómo el determinante del éxito en muchos proyectos de ciencia de datos es descubrir las abstracciones (atributos) correctas para usar en un dominio dado. Recuerda que la clave de la historia de Moneyball fue que Oakland Athletics descubrió que el porcentaje en base y el porcentaje de poder de un bateador son mejores atributos para predecir el éxito ofensivo de un jugador que las estadísticas tradicionales de béisbol como el promedio de bateo. El uso de diferentes atributos para describir a los jugadores le dio a Oakland Athletics un modelo de béisbol diferente y mejor que el de los otros equipos, lo que le permitió identificar a los jugadores infravalorados y competir con franquicias más grandes utilizando un presupuesto más pequeño.

La historia de Moneyball ilustra que el viejo adagio de ciencias de la computación “basura dentro, basura afuera” es cierto para la ciencia de datos: si las entradas a un proceso computacional son incorrectas, entonces las salidas del proceso serán incorrectas. De hecho, dos características de la ciencia de datos no se pueden dejar de destacar: (a) para que la ciencia de datos tenga éxito, debemos prestar mucha atención a cómo creamos nuestros datos (en términos de las elecciones que hacemos al diseñar las abstracciones de datos y la calidad de los datos capturados por nuestros procesos de abstracción), y (b) también necesitamos “verificar la precisión” de los resultados de un proceso de ciencia de datos, es decir, debemos entender que no porque la computadora identifique un patrón en los datos, significa que esté identificando una percepción real de los procesos que estamos tratando de analizar; el patrón puede basarse simplemente en los sesgos en nuestro diseño y captura de datos.

Perspectivas sobre los datos

Además del tipo de datos (numéricos, nominales y ordinales), se pueden hacer otras distinciones útiles con respecto a los datos. Una de esas distinciones es entre datos estructurados y no estructurados. Los datos estructurados son datos que se pueden almacenar en una tabla, y cada instancia en la tabla tiene la misma estructura (es decir, un conjunto de atributos). Como ejemplo, considere los datos demográficos de una población, donde cada fila de la tabla describe a una persona y consta del mismo conjunto de atributos demográficos (nombre, edad, fecha de nacimiento, dirección, sexo, nivel educativo, situación laboral, etc.). Los datos estructurados se pueden almacenar, organizar, buscar, reordenar y combinar fácilmente con otros datos estructurados. Es relativamente fácil aplicar la ciencia de datos a datos estructurados porque, por definición, ya están en un formato adecuado para la integración en un registro analítico. Los datos no estructurados son datos en los que cada instancia del conjunto de datos puede tener su propia estructura interna, y esta estructura no es necesariamente la misma en todas las instancias. Por ejemplo, imagina un conjunto de datos de páginas web, cada página web tiene una estructura pero esta estructura difiere de una página web a otra. Los datos no estructurados son mucho más comunes que los datos estructurados. Por ejemplo, las colecciones de texto humano (correos electrónicos, tweets, mensajes de texto, publicaciones, novelas, etc.) pueden considerarse datos no estructurados, al igual que las colecciones de archivos de sonido, imagen, música, video y multimedia. La variación en la estructura entre los diferentes elementos significa que es difícil analizar datos no estructurados en su forma bruta. A menudo podemos extraer datos estructurados de datos no estructurados utilizando técnicas de inteligencia artificial (como procesamiento de lenguaje natural y aprendizaje automático), procesamiento de señal digital y visión por computadora. Sin embargo, implementar y probar estos procesos de transformación de datos es costoso y requiere mucho tiempo y puede agregar una sobrecarga financiera y demoras de tiempo significativas en un proyecto de ciencia de datos.

A veces, los atributos son abstracciones brutas de un evento u objeto, por ejemplo, la altura de una persona, la cantidad de palabras en un correo electrónico, la temperatura en una habitación, la hora o la ubicación de un evento. Pero los datos también pueden derivarse de otros datos. Considera el salario promedio en una empresa o la variación en la temperatura de una habitación durante un período de tiempo. En ambos ejemplos, los datos resultantes se derivan de un conjunto original de datos mediante la aplicación de una función a los datos brutos originales (salarios individuales o lecturas de temperatura). Con frecuencia, el valor real de un proyecto de ciencia de datos es la identificación de uno o más atributos derivados importantes que brindan información sobre un problema.

Con frecuencia, el valor real de un proyecto de ciencia de datos es la identificación de uno o más atributos derivados importantes que brindan información sobre un problema.

Imagina que estamos tratando de comprender mejor la obesidad dentro de una población y los atributos de un individuo que se ha identificado como obeso. Comenzaríamos examinando los atributos brutos de los individuos, como su altura y peso, pero después de estudiar el problema durante algún tiempo, podríamos terminar diseñando un atributo derivado más informativo como el Índice de Masa Corporal (IMC). El IMC es la relación entre la masa y la altura de una persona. Reconocer que la interacción entre los atributos brutos “masa” y “altura” proporciona más información sobre la obesidad que cualquiera de estos dos atributos cuando se examinan de forma independiente nos ayudará a identificar a las personas en la población que están en riesgo de obesidad. Obviamente, el IMC es un ejemplo simple que usamos aquí para ilustrar la importancia de los atributos derivados. Pero considera situaciones en las que la información sobre el problema se proporciona a través de múltiples atributos derivados, donde cada atributo involucra dos (o potencialmente más) atributos adicionales. Es en contextos donde múltiples atributos interactúan entre sí que la ciencia de datos nos brinda beneficios reales porque los algoritmos que utilizamos pueden, en algunos casos, aprender los atributos derivados de los datos brutos.

Generalmente hay dos términos para los datos brutos recopilados: datos capturados y datos de escape (Kitchin 2014a). Los datos capturados se recopilan a través de una medición directa u observación diseñada para recopilar los datos. Por ejemplo, el objetivo principal de las encuestas y experimentos es reunir datos específicos sobre un tema de interés particular. Por el contrario, los datos de escape son un subproducto de un proceso cuyo propósito principal es algo más que la captura de datos. Por ejemplo, el propósito principal de muchas tecnologías de redes sociales es permitir que los usuarios se conecten con otras personas. Sin embargo, por cada imagen compartida, blog publicado, tuit retweeteado o publicación gustada, se genera un rango de datos de escape: quién compartió, quién vio, qué dispositivo se usó, a qué hora del día, cuántas personas lo vieron/ les gustó/ lo retwittearon, y así sucesivamente. Del mismo modo, el objetivo principal del sitio web de Amazon es permitir a los usuarios realizar compras desde el sitio. Sin embargo, cada compra genera volúmenes de datos de escape: qué artículos puso el usuario en su cesta, cuánto tiempo permaneció en el sitio, qué otros artículos vio, etc.

Uno de los tipos más comunes de datos de escape son los metadatos, es decir, datos que describen otros datos. Cuando Edward Snowden publicó documentos sobre el programa de vigilancia PRISM de la Agencia de Seguridad Nacional de EE.UU., reveló que la agencia estaba recopilando una gran cantidad de metadatos sobre las llamadas telefónicas de las personas. Esto significaba que la agencia en realidad no estaba grabando el contenido de las llamadas telefónicas de las personas (no estaba haciendo escuchas telefónicas) sino que estaba recopilando los datos sobre las llamadas, como cuándo se realizó la llamada, quién era el destinatario, cuánto tiempo duró la llamada, y así sucesivamente (Pomerantz 2015). Este tipo de recopilación de datos puede no parecer ominoso, pero el estudio MetaPhone realizado en Stanford destacó los tipos de información sensible que los metadatos de las llamadas telefónicas pueden revelar sobre un individuo (Mayer y Mutchler 2014). El hecho de que muchas organizaciones tengan propósitos muy específicos hace que sea relativamente fácil inferir información confidencial sobre una persona en función de sus llamadas telefónicas a estas organizaciones. Por ejemplo, algunas de las personas en el estudio MetaPhone hicieron llamadas a Alcohólicos Anónimos, abogados de divorcios y clínicas médicas especializadas en enfermedades de transmisión sexual. Los patrones en las llamadas también pueden ser reveladores. El análisis de patrones del estudio mostró cómo los patrones de llamadas revelan información potencialmente sensible:

El participante A se comunicó con múltiples grupos locales de neurología, una farmacia especializada, un servicio de gestión de afecciones poco frecuentes y una línea directa para un producto farmacéutico utilizado únicamente para tratar la esclerosis múltiple recurrente. En un lapso de tres semanas, el participante D contactó a una tienda de mejoras para el hogar, cerrajeros, un distribuidor de hidroponía y una tienda principal. (Mayer y Mutchler 2014)

La ciencia de datos se ha centrado tradicionalmente en los datos capturados. Sin embargo, como muestra el estudio de MetaPhone, los datos de escape se pueden usar para revelar una visión oculta de las situaciones. En los últimos años, los datos de escape se han vuelto cada vez más útiles, particularmente en el ámbito de la captación de clientes, donde la vinculación de diferentes conjuntos de datos de escape tiene el potencial de proporcionar a un negocio un perfil más rico de clientes individuales, lo que permite que el negocio apunte sus servicios y mercadeo a ciertos clientes. De hecho, uno de los factores que impulsan el crecimiento de la ciencia de datos en los negocios de hoy es el reconocimiento del valor de los datos de escape y el potencial que tiene la ciencia de datos para desbloquear este valor para las empresas.

Los datos se acumulan, ¡la sabiduría no!

El objetivo de la ciencia de datos es utilizar los datos para obtener información y comprensión. La Biblia nos insta a alcanzar el entendimiento buscando sabiduría: “La sabiduría es lo principal, por lo tanto, adquiere sabiduría y con todo lo que obtengas, adquiere entendimiento” (Proverbios 4: 7 [King James]). Este consejo es razonable, pero plantea la cuestión de cómo se debe buscar la sabiduría. Las siguientes líneas del poema de T. S. Eliot “El primer coro de la roca” describen una jerarquía de sabiduría, conocimiento e información:

¿Dónde está la sabiduría que hemos perdido en conocimiento? ¿Dónde está el conocimiento que hemos perdido en información? (Eliot 1934, 96).

La jerarquía de Eliot refleja el modelo estándar de las relaciones estructurales entre la sabiduría, el conocimiento, la información y los datos conocidos como la jerarquía DIKW (véase la Figura 2). En la jerarquía DIKW, los datos preceden a la información, que precede al conocimiento, que precede a la sabiduría. Aunque generalmente hay acuerdo el orden de las capas en la jerarquía, las distinciones entre las capas y los procesos requeridos para pasar de una capa a la siguiente a menudo se cuestionan. Sin embargo, en términos generales:

• Los datos se crean a través de abstracciones o mediciones tomadas del mundo.

• La información son datos que han sido procesados, estructurados o contextualizados para que sean significativos para los humanos.

Figura 2. La jerarquía DIKW (adaptada de Kitchin 2014a).

• El conocimiento es información que ha sido interpretada y entendida por un humano para que pueda actuar sobre ella si es necesario.

• La sabiduría está actuando sobre el conocimiento de manera apropiada.

Las actividades en el proceso de ciencia de datos también se pueden representar utilizando una jerarquía piramidal similar en la que el ancho de la pirámide representa la cantidad de datos que se procesan en cada nivel: cuanto más alta es la capa en la pirámide, más informativos son los resultados de las actividades para la toma de decisiones. La Figura 3 ilustra la jerarquía de las actividades de ciencia de datos desde la captura y generación de datos a través del preprocesamiento y agregación de datos, la comprensión y exploración de datos, el descubrimiento de patrones y la creación de modelos mediante aprendizaje automático y el soporte de decisiones a través de modelos basados en datos implementados en el contexto comercial.

El proceso CRISP-DM

Muchas personas y empresas regularmente presentan sugerencias sobre el mejor proceso a seguir para escalar la pirámide de la ciencia de datos. El proceso más utilizado es el proceso estándar de la industria cruzada para la minería de datos (CRISPDM).

Figura 3. Pirámide de ciencia de datos (adaptada de Han, Kamber y Pei 2011).

De hecho, el CRISP-DM se ha mantenido en primer lugar en varias encuestas de la industria durante varios años. La principal ventaja de CRISP-DM, la razón principal de su amplio uso, es que está diseñado para ser independiente de cualquier software, proveedor o técnica de análisis de datos.

CRISP-DM fue desarrollado originalmente por un consorcio de organizaciones compuesto por proveedores líderes de ciencia de datos, usuarios finales, empresas de consultoría e investigadores. El proyecto original CRISP-DM fue patrocinado en parte por la Comisión Europea bajo el Programa ESPRIT, y el proceso se presentó por primera vez en un taller en 1999. Desde entonces, se han realizado varios intentos para actualizar el proceso, pero la versión original todavía está predominantemente en uso. Durante muchos años, hubo un sitio web dedicado a CRISP-DM, pero en los últimos años este sitio web ya no está disponible, y en ocasiones puede ser redirigido al sitio web de SPSS por IBM, que fue uno de los contribuyentes originales del proyecto. El consorcio original publicó una guía paso a paso (76 páginas) pero legible del proceso que está disponible gratuitamente en línea (véase Chapman et al. 1999), pero la estructura y las principales tareas del proceso se pueden resumir en unas pocas páginas.

El ciclo de vida CRISP-DM consta de seis etapas: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue, como se muestra en la Figura 4. Los datos están en el centro de todas las actividades de ciencia de datos, y es por eso que el diagrama CRISP-DM tiene datos en su centro. Las flechas entre las etapas indican la dirección típica del proceso. El proceso está semiestructurado, lo que significa que un científico de datos no siempre se mueve a través de estas seis etapas de manera lineal. Dependiendo del resultado de una etapa en particular, un científico de datos puede volver a una de las etapas anteriores, rehacer la etapa actual o pasar a la etapa siguiente.

En las dos primeras etapas, comprensión del negocio y comprensión de los datos, el científico de datos está tratando de definir los objetivos del proyecto mediante la comprensión de las necesidades comerciales y los datos que la empresa tiene a su disposición. En las primeras etapas de un proyecto, un científico de datos a menudo iterará entre enfocarse en el negocio y explorar qué datos están disponibles. Esta iteración generalmente implica identificar un problema comercial y luego explorar si los datos apropiados están disponibles para desarrollar una solución al problema basada en datos. Si los datos están disponibles, el proyecto puede continuar; de lo contrario, el científico de datos tendrá que identificar un problema alternativo para abordar. Durante esta etapa de un proyecto, un científico de datos pasará una gran cantidad de tiempo en reuniones con colegas en los departamentos centrados en el negocio (por ejemplo, ventas, marketing, operaciones) para comprender sus problemas y con los administradores de la base de datos para comprender qué datos están disponibles.