- Introducción
- Code
- Conectar colab con Google Drive
- Formatos para guardar información
- Funcionalidades especiales de pandas
Es la librería más utilizada por todos los cientificos de datos.
El término pandas proviene de paneles de datos.
Un panel de datos es una estructura de datos organizado por categorías dónde podemos tener cadenas, números, booleanos que podemos utilizar
Inventada en el 2008 para analizar los mercados financieros
Pandas
https://pandas.pydata.org/docs/
- Reduce las líneas de código
- Diseñada especialmente para análisis
- API fácil y consisa
- Multiples funciones
- Incompatibilidad con matrices 3D (numpy)
- Curva de aprendizaje lenta
Disponible en los archivos de la sección desde Jupyter
- Texto plano
- SQL
Pandas cuenta con una funcionalidad que facilita el acceso a tus bases de datos tipo SQL, para ello te mostrare algunos ejemplos:
Valida que tengas la librería psycopg2 usando el comando import. Si no está instalada en tu ambiente, usa el comando !pip install psycopg2
en la terminal de python para instalarlo.
Comenzamos cargando las librerías:
import pandas as pd
import psycopg2
Luego creamos el elemento de conexión con el siguieente código:
conn_sql = psycopg2.connect(user = "user_name",
password = "password",
host = "xxx.xxx.xxx.xxx",
port = "5432",
database = "postgres_db_name")
Seguido simplemente definimos nuestra query en SQL:
query_sql = '''
select *
from table_name
limit 10
'''
Y creamos nuestro dataframe:
df = pd.read_sql(query_sql, sql_conn)
df.head(5)
Valida que tengas la librería sqlalchemy usando el comando import, si no está instalada en tu ambiente, usa el comando !pip install sqlalchemy
en la terminal de python para instalarlo.
Comenzamos cargando las librerías:
import pandas as pd
import sqlalchemy as sql
Escogemos nuestra base de datos, Oracle, MySql o la de tu preferencia:
database_type = 'mysql'
database_type = 'oracle'
Luego creamos el elemento de conexión con el siguiente código:
user = 'user_name'
password = 'password'
host = 'xxx.xxx.xxx.xxx:port'
database = 'database_name'
conn_string = '{}://{}:{}@{}/{}'.format(
database_type, user, password, host, database)
sql_conn = sql.create_engine(conn_string)
Seguido simplemente definimos nuestra query en SQL:
query_sql = '''
select *
from table_name
limit 10
'''
Y creamos nuestro dataframe con:
df = pd.read_sql(query_sql, sql_conn)
df.head(5)
La libreria sqlalchemy también soporta PostgreSQL y otras fuentes de datos.
https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html
Si categorizamos las variables
Tiempo de carga y lectura
En cuanto a consumo de memoria RAM
https://datasetsearch.research.google.com/
Base de datos de la NASA
https://data.nasa.gov/Space-Science/Meteorite-Landings/gh4g-9sfh
https://www.kaggle.com/hmavrodiev/london-bike-sharing-dataset
https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset?select=covid_19_data.csv
https://matematica.laguia2000.com/general/interpolacion-lineal