Kitabı oku: «Introducción al Machine Learning con MATLAB», sayfa 4

Yazı tipi:

2.2.2.3 Probabilidad condicional

Definimos la probabilidad condicional de un evento E, dado que un evento F es cierto, como:


Sabiendo que F ocurrió, el espacio de muestras se reduce a F, y la parte de este donde E también ocurre en E ∩ F Cabe mencionar que la expresión 2.3 es definida solo cuando P(F) > 0.. Dado que ∩ es conmutativo, tenemos que:


Lo que nos resulta en la fórmula de Bayes:


Cuando los elementos Fi son mutuamente excluyentes y exclusivos, como :


La fórmula de Bayes nos permite escribir:


Si E y F son independientes, tenemos que P(E|F) = P(E); por lo tanto:


Ejemplo numérico: probabilidad condicional

Para mantener la congruencia con el ejemplo anterior, consideraremos las mismas probabilidades para llevar a cabo el ejemplo de la probabilidad condicional. Para esto, nos preguntamos: ¿cuál será la probabilidad de que un participante sea alérgico al medicamento B, dado que mostró alergia al medicamento A? Esto se representa como P(B|A), y encarna la probabilidad de que suceda el evento B, dado que A fue cierto. Tomaremos los valores del ejemplo anterior y, utilizando la fórmula 2.3, diremos que:


Lo que nos indica que existe una probabilidad de 0.57 de que un participante sea alérgico al medicamento B, dado que mostró reacción alérgica al medicamento A.

2.2.3. Algunas distribuciones comunes

En este subapartado se abordan algunas de las distribuciones discretas paramétricas más comunes.

2.2.3.1 Distribución binomial y Bernoulli

Suponiendo que tenemos una moneda que se arroja n número de veces, definimos X ∈ {0,...,n} como el número de veces que saldrá cara al lanzar la moneda. Si la probabilidad de que salga cara es θ, podemos decir que X tiene distribución binomial, la cual definimos como X = Bin(n,θ), por lo que la pmf se define como:


donde:


La expresión 2.10 es el número de maneras de elegir k números a partir de n (conocido como «coeficiente binomial»). En la figura 2.2 se muestra gráficamente la distribución binomial.

Suponiendo ahora que lanzamos la moneda solamente una vez, el resultado es binario X ∈ {0,1}, con la probabilidad de cara o cruz de θ. En este caso, decimos que X tiene una distribución Bernoulli y definimos su pmf como:


O también:


Obviamente, este solamente es un caso especial de una distribución binomial con n = 1.


Figura 2.2. Distribución binomial con n = 10 y θ = 0.4.

2.2.3.2 Distribución multinomial

La distribución multinomial puede ser representada como una generalización de Bernoulli donde, en lugar de tener dos estados, el resultado es uno de k estados mutuamente exclusivos y exhaustivos. Cada uno de estos tiene una probabilidad de ocurrir de pi tal que . Suponiendo que un número N de ensayos se llevan a cabo, donde el resultado i sucede Ni ocasiones con , entonces la distribución conjunta de N1,N2,..., Nk es multimodal:


Ahora consideremos un caso específico con N = 1, donde entonces Ni puede obtener valores de 0 y 1; para este caso, la expresión 2.13 puede ser reescrita como:


2.2.3.3 Distribución de Poisson

Decimos que X ∈ {1,2,...,n} tiene una distribución de Poisson con parámetros λ > 0 y X = Poi(λ); entonces la definimos como:


Donde el primer término solamente es una constante de normalización, la cual es necesaria para asegurar que la suma de la distribución sea igual a 1. Las distribuciones de Poisson son utilizadas para el decaimiento radiactivo o los accidentes de tránsito. En la figura 2.3 se puede apreciar un ejemplo ilustrativo de la distribución de Poisson.


Figura 2.3. Distribución de Poisson con λ = 8.

2.2.3.4 Distribución uniforme

Para esta distribución X se encuentra uniformemente distribuida en el intervalo [a, b], por lo que su función de densidad es dada por:


Para un mejor entendimiento, la figura 2.4 muestra una distribución uniforme para cuatro muestras diferentes.


Figura 2.4. Distribución uniforme para cuatro muestras.

2.2.3.5 Distribución normal (gaussiana)

La distribución más utilizada en las técnicas de aprendizaje máquina es la distribución normal o gaussiana, la cual tiene una media μ y varianza σ2, que se denota como N(μ,σ2) y su función de densidad se define como:


En la fórmula 2.17, la expresión denota la constante de normalización, la cual es requerida para asegurar que la integral de la densidad sea igual a 1. En la figura 2.5, se observa la gráfica de una distribución gaussiana, donde se observa el típico aspecto curvo con forma de campana. Respecto a la distribución gaussiana, hablamos de precisión en lo referente al inverso de la varianza λ = 1/σ2. Una mayor precisión significa que existe una menor varianza centrada en μ.


Figura 2.5. Distribución normal (gaussiana) con μ = 5 y σ2 = 1.

2.3 Estadística

Una de las herramientas matemáticas fundamentales en la aplicación del aprendizaje máquina es la estadística. De manera general, definiremos la estadística como una rama de las matemáticas encargada de la recolección, el procesamiento y el análisis de datos [4-5]. Los objetivos principales de la estadística es la interpretación de datos, la inferencia de parámetros y la toma de decisiones basadas en el estudio de los datos; a manera de ejemplo, considere las siguientes situaciones: mediante el uso de la estadística, un laboratorio farmacéutico podría determinar si un medicamento requiere ser reformulado de acuerdo con la respuesta de los pacientes; un consejo universitario docente evalúa nuevas estrategias para la enseñanza a distancia basadas en los resultados de los alumnos en un periodo escolar y una institución bancaria es capaz de detectar un fraude en las tarjetas de crédito analizando el histórico de transacciones. Y, así como en estos ejemplos, la estadística puede ser aplicada a cualquier área de conocimiento o proceso que involucre el estudio de datos.

La aplicación de la estadística resulta muy amplia, debido a que prácticamente cualquier proceso, actividad o fenómeno involucra datos. De acuerdo con los objetivos de estudio, la estadística se clasifica principalmente en dos tipos: la descriptiva y la inferencial.

Por un lado, la estadística descriptiva, como su nombre lo sugiere, describe las características básicas de un conjunto de datos. Se utilizan, así, medidas de tendencia central, de variabilidad y métodos gráficos como herramientas principales para la descripción de los datos. Cuando se utiliza la estadística descriptiva, cabe señalar que las medidas y las observaciones son solo válidas para el conjunto de datos con el que se está trabajando.

Por su parte, la estadística inferencial tiene por objetivo encontrar conclusiones sobre un conjunto de datos denominado «población», a partir de uno o varios conjuntos de datos más pequeños denominados «muestras». Un ejemplo de la estadística inferencial se da cuando se acercan las elecciones presidenciales de un país; se suelen realizar, entonces, encuestas a un sector de la población (muestra) para conocer con qué candidato tiene más afinidad, y, con base en los resultados, se estima qué candidato será el favorito para ganar la contienda.

Los datos son el elemento principal de la estadística, los cuales pueden obtenerse por la observación de algún fenómeno o mediante experimentos en un ambiente controlado. Sea cual sea la manera de generarlos, se suelen clasificar en dos tipos: cualitativos y cuantitativos. Los datos cualitativos son datos de tipo categórico, que representan ciertos rasgos de una variable, como el género de una persona o las marcas de automóviles. Los datos cualitativos se pueden subclasificar, a su vez, en nominales y ordinales. Los nominales son categorías en las cuales sus elementos no resultan ordenables, como las marcas de coches o las estaciones del año, por mencionar algunos. Por otro lado, los datos ordinales son aquellos que se pueden ordenar, como la calificación de una película o la calidad de un servicio de ventas por Internet (excelente, buena, regular, mala, pésima…). Por otro lado, los datos cuantitativos son datos numéricos que pueden resultar discretos, como el número de alumnos graduados por semestre en la carrera de Informática, o continuos, como la altura de cada uno de los estudiantes graduados.

Otros dos conceptos fundamentales dentro de la estadística son población y muestra. Se entiende como «población» a todos los elementos involucrados en el experimento u observación. Considere el siguiente ejemplo: conocer las preferencias de los votantes referentes a los candidatos presidenciales; en este caso, la población la compondrían todos los votantes del país. Conseguir las opiniones de todos los posibles votantes para realizar una estimación sobre el favoritismo de los candidatos sería extremadamente costoso; por tal motivo, en lugar de trabajar con poblaciones, se utilizan muestras que sean representativas de la población. Una muestra se define como un subconjunto de la población seleccionada, de tal manera que las conclusiones obtenidas de analizar la muestra sean válidas para la población.

Un modo de obtener información de algún objeto se apoya en la medición y, para el caso de los datos, no representa una excepción. Existen diversas herramientas, tanto numéricas como gráficas, para la comprensión de los datos. Dentro de los métodos de medición principales, se encuentran los de tendencia central y de variabilidad, mientras que los gráficos de líneas, barras e histogramas son algunos ejemplos para la visualización de los datos.

2.3.1. Medidas de tendencia central

Las medidas de tendencia central son un conjunto de medidas que, como su nombre indica, tienden al centro de los datos, cuya finalidad radica en resumir, en una sola cantidad, cierta característica del conjunto de datos. Las principales medidas de este tipo son la media aritmética, la mediana y la moda.

2.3.1.1 Media aritmética

La media aritmética, promedio o simplemente media, es una de las medidas más populares en estadística, y se define como la suma de todos los elementos del conjunto de datos dividida entre el total de los datos. Se expresa de forma matemática con la siguiente ecuación:


donde es la media, xi es el i-ésimo elemento de los datos, y n corresponde al tamaño de los datos.

2.3.1.2 Mediana

La mediana es un valor estadístico que divide el conjunto de datos en dos partes iguales. Para el cálculo de la mediana, el conjunto de datos debe estar ordenado de forma ascendente, y, en función de si el número total de observaciones del conjunto de datos es par o impar, se aplica una de las siguientes ecuaciones:


donde Me(X) es la mediada de los datos y X = x1, x2,..., xn es un conjunto de datos ordenados de manera ascendente, es decir, x1 ≤ x2 ≤... ≤ xn. Una característica interesante de la mediana reside en que no se ve afectada, en gran medida, por la presencia de valores atípicos de los datos, a diferencia de la media, la cual se muestra más susceptible a dichos valores. Los valores atípicos (en inglés, outliers) suelen ser comunes que aparezcan en una base de datos y se originan, generalmente, por error humano, o debido a eventos aislados del fenómeno o experimento observado. No obstante, existen técnicas de preprocesamiento que permiten minimizar los efectos de este tipo de situaciones, y que se abordan más adelante en el libro.

2.3.1.3 Moda

La moda estadística es como el elemento dentro del conjunto de datos que presenta la mayor frecuencia absoluta, es decir, el valor que más se repite. A diferencia de la media y mediana, únicas dentro de un conjunto de datos, la moda puede tener una o varias. Cuando existe solo una moda, se dice que el conjunto de datos es «unimodal», y, cuando existen dos o más, se lo conoce como «multimodal».

En la figura 2.6 se ubican las medidas de tendencia central en distribuciones de ciertos conjuntos de datos, con la finalidad de destacar sus características y hacer una comparación entre ellas. En la figura 2.6(a) se muestra una distribución normal en la cual la media, la mediana y la moda coinciden en el mismo punto. La influencia de los valores atípicos en la media se muestra en las figuras 2.6(b) y 2.6(c), donde se presentan distribuciones asimétricas positivas y negativas, respectivamente. Esta asimetría hace que la mediana tienda a los valores atípicos, mientras que la mediana no presenta gran fluctuación por dichos valores. Para la moda, la asimetría no le afecta; siempre destaca el valor más repetido. Por último, se expone una distribución con múltiples modas: figura 2.6(d).


Figura 2.6. Medidas de tendencia central.

Ejemplo numérico: medidas de tendencia central

Con el siguiente conjunto de datos, que corresponden a una muestra de calificaciones de alumnos de Ingeniería:

X = 70, 50, 40, 70, 80, 70, 60, 90, 70, 70, 100, 80, 60,70, 80, 60

Calcule:

A) La media, la mediana y la moda.

B) Suponga que, al capturar la calificación, se cometió un error y, en lugar de poner 100, se captura el valor 300. Calcule entonces la media, la mediana y la moda, además de ver el efecto del nuevo valor en los resultados.

A)

Media:

Para obtener la media, utilizamos la ecuación 2.18, donde n = 16. Sustituyendo, tenemos que:


Mediana:

Para la mediana, antes de utilizar la ecuación 2.19, se tienen que ordenar los datos de manera ascendente y determinar si el tamaño es par o impar:

X = 40, 50, 60, 60, 60, 70, 70, 70, 70, 70, 70, 80, 80, 80, 90, 100

Una vez ordenado, ubicamos las posiciones de los dos valores centrales, ya que nuestros datos son de tamaño par n = 16:


Donde el valor en la posición x8 = 70 y x9 = 70. Con estos datos, sustituimos en la ecuación:


Moda:

Para la moda, buscamos el valor que más se repita en nuestros datos. Para este ejemplo, es el 70; por tanto, Mo(X) = 70.

Dado que las tres medidas de tendencia central tienen el mismo valor, podemos concluir que nuestros datos presentan una distribución normal.

B)

Modificamos los datos, cambiando el 100 por 300, y repetimos los pasos del inciso A). Obtenemos entonces los siguientes resultados:


La herramienta MATLAB® integra funciones para el cálculo de forma sencilla, con la siguiente sintaxis:

Mo = mode(datos);

x = mean(datos);

Mo = mode(datos);

El código de implementación en MATLAB se muestra a continuación:

% Se cargan los datos

X = [70,50,40,70,80,70,60,90,70,70,100,80,60,70,80,60];


% Cálculos inciso A)

x_A = mean(X);

Me_A = median(X);

Mo_A = mode(X);


% Cálculos inciso B)

X2 = [70,50,40,70,80,70,60,90,70,70,300,80,60,70,80,60];

x_B = mean(X2);

Me_B = median(X2);

Mo_B = mode(X2);


% Resultados

R = [x_A Me_A Mo_A; x_B Me_B Mo_B];

medidas = {'Media','Mediana','Moda’};

T = array2table(R,'VariableNames',medidas,'RowNames',{'A)','B)'});

disp.(T)

----------------------------------------------------------------

RESULTADO

----------------------------------------------------------------

Media Mediana Moda

_____ _______ ____


A) 70 70 70

B) 82.5 70 70

Algoritmo 2.1. Medidas de tendencia central.

2.3.2. Medidas de variabilidad

Las medidas de tendencia central dan una idea sobre la directriz de los datos hacia un valor específico; sin embargo, esta información no resulta suficiente, ya que pueden existir dos conjuntos de datos distintos, con alguna medida central igual. Con la finalidad de describir de una mejor manera los datos, se utilizan las medidas de variabilidad. Las medidas de variabilidad, como su nombre indica, definen si existe una gran dispersión en el conjunto de los datos respecto a la media. Dentro de las principales se encuentran la varianza, la desviación estándar y el rango, las cuales se describen a continuación.

2.3.2.1 Varianza

La varianza es un valor estadístico usado para medir la variabilidad o dispersión de los datos respecto a la media; dicho de otra manera, indica cómo de juntos o separados se encuentran los datos de la media. Cuanto más grande sea el valor de la varianza, existirá mayor dispersión en los datos, y, cuanto más cercano a cero, menor variabilidad; por tanto, el valor de la varianza siempre es mayor o igual a cero. Existen dos alternativas para el cálculo de la varianza, dependiendo de si los datos corresponden a la población o si son muestras de una población. Ambas ecuaciones se describen de la siguiente manera:



donde σ2 y S2 corresponden a la varianza de la población y de la muestra respectivamente, n es el tamaño de los datos, xi el i-ésimo valor, μ es la media de la población y es la media de la muestra. Las unidades resultantes de la varianza constituyen las unidades de los datos al cuadrado; por ejemplo, si los datos están expresados en metros (m), la varianza tendrá valor de metros al cuadrado (m2).

2.3.2.2 Desviación estándar

La desviación estándar es una medida muy similar a la varianza en términos de la información, que proporciona qué es la dispersión de los datos. La diferencia principal radica en que las unidades de la desviación estándar son las mismas unidades que tienen los datos; es decir, si los datos están en metros (m), la unidad de la desviación estándar es en metros (m). Por esa característica, se suele utilizar, con mayor frecuencia, la desviación estándar que la varianza, ya que permite una relación directa entre el valor obtenido y la dispersión de los datos. Para calcular la desviación estándar, basta con obtener la raíz cuadrada de la varianza, como se muestra a continuación:



donde σ y s son la desviación estándar de la población y la muestra, respectivamente.

2.3.2.3 Rango

El rango es un concepto sencillo dentro de las medidas de variabilidad, y corresponde a la diferencia entre el valor máximo y mínimo del conjunto de datos. Dicho de otra manera:


donde R representa el rango, mientras que máx (X) y mín (X) corresponden al valor máximo y mínimo dentro de los datos X.

En la figura 2.7 se muestra el efecto que tiene la desviación estándar en un conjunto de datos. En las figuras 2.7(a) y 2.7(b) se plantean dos distribuciones normales con la misma media, pero con distinto valor de desviación estándar. La primera tiene un valor pequeño, por lo que la distribución se encuentra más cerca de la media; en cambio, resulta aproximadamente el triple de desviación estándar y, por consiguiente, se halla más alejada de la media. Para el caso de las figuras 2.7(c) y 2.7(d), son gráficos de dispersión en los que se observa de mejor manera el efecto de variabilidad en los datos al modificar la desviación estándar.

Ejemplo numérico: medidas de variabilidad

Utilice los datos del ejemplo de medidas de tendencia central del inciso A) para calcular la varianza, la desviación estándar y el rango.

Ücretsiz ön izlemeyi tamamladınız.

Türler ve etiketler

Yaş sınırı:
0+
Hacim:
595 s. 576 illüstrasyon
ISBN:
9788426733542
Yayıncı:
Telif hakkı:
Bookwire
İndirme biçimi:
Metin
Ortalama puan 0, 0 oylamaya göre