Skip to content

Files

Latest commit

2159575 · Jun 1, 2020

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
May 3, 2020
Jun 1, 2020
May 3, 2020

Estadística y análisis de datos

  • Análisis de datos con Python

Tabla de Contenido

Practicas

Introducción

https://www.youtube.com/user/arturoerdely/playlists

Estadística

  • Estadística en papel, spreadsheets
  • Estadística en open source: big data y capacidad de cómputo, memoria ram, procesador, ambientes virtuales (paralelización - spark/apache)

Conceptos clave de estadística

  1. Tipos de datos:
    • Númericos
      • Continuos, porcentajes, enteros
    • Categóricos
      • Categóricas ordinales(¡fechas!) y clases sin sentido ordinal (Países, colores)
  2. Variables determinísticas vs aleatorias
    • Determinista: Asume un valor puntual
    • Incertidumbre
    • Aleatoriedad: Puede tomar una serie de valores, asume que podemos conocer todos esos valores posibles

Experimento de Bernoulli

Distribución binomial

Suma de n elementos independientes de Bernouli

Distribución de probabilidad

Algunos valores van a tener mayor probabilidad que otros dentro de la distribución

Caraterizar información a traves de análisis exploratorio

Medidas de tendencia central

  • Medidas de tendencia
    • Media o promedio geométrico y aritmético
    • Mediana
    • Moda
    • Error típico o desviación estándar
  • Criterios de aplicación
    • Según el tipo de variables y susceptibilidad a valores extremos

Estadística descriptiva (Diagramas de frecuencia)

Histogramas

Son una representación categórica y númerica de la distribución de los datos

  • Variables categóricas: Tablas de frecuencia
  • Variables númericas: Percentiles, Deciles, Quintiles y Quartiles, Outliers o valores extremos

Teorema de bayes

Funciones de distribución continua y discreta

Distribución de probabilidad discreta

Distribuciones discretas de mayor aplicación

  • Distribución de Bernoulli (Experimento binario asociado a Éxito(1) o fracaso(0))
  • Distribución Binomial (Número de éxitos x en N ensayos)
  • Distribución Geométrica: Número de ensayos x hasta 1 éxito
  • Distribución Binomial negativa: Número de ensayos x hasta el k-ésimo éxito
  • Distribución de Poisson: Número de llegadas(eventos) en N a una longitud de tiempo t

Distribuciones continuas de mayor aplicación

  • Distribución Exponencial (tiempo en llegar a un evento)
  • Distribución Normal (campana)
  • Distribución Uniforme (distribución de eventos on una misma probabilidad)

Estandarización de covarianza y correlación

Estandarzación o tipificación de variables

  • Estandarizar una variable implica centrar y reducir.
    • Centrar: Al restat cada valor con respecto a la media, los valores quedan centralizado con respecto a ésta.
    • Reducir: El valor centralizado es normalizado con respecto a la desviación estándar, es decir, la diferencia del valor y la media es después dividida entre la desviación estándar.

El resultado es una variable aleatoria adimensional (llamada generalmente Z), que tendrá como valor esperado (media) 0 y una varianza y desviación estándar de 1.

Conceptos estadísticos análiticos

Estimadores

Criterios para elegir un estimador

Una variable aleatoria que viene de una población puede ser muestreada y calculada utilizando una pequeña porción de la misma.

Estimadores de máxima verosimilitud

https://www.youtube.com/watch?v=1uW3qMFA9Ho&list=PLUl4u3cNGP60hI9ATjSFgLZpbNJ7myAg6

Distribuciones muestrales

Teorema de límite central

Inferencia estadística a través de una hipótesis

Errores estadísticos

Intervalos de confianza

Modelos estadísticos y de predicción

Regresión líneal

Regresión lógistica

Árboles de decisión

pip install graphviz

Proyecto estádistico

https://www.kaggle.com/c/titanic/data