¿Empezando aquí? Esta lección es parte de un tutorial completo sobre el uso de SQL para análisis de datos. Vea el principio.
En esta lección, cubriremos:
- Combinaciones externas
- El conjunto de datos de Crunchbase
Combinaciones externas
Al realizar una combinación interna, las filas de cualquiera de las tablas que no coinciden en la otra tabla no se devuelven. En una combinación externa, se pueden devolver filas sin coincidencia en una o ambas tablas. Hay algunos tipos de combinaciones externas:
-
LEFT JOIN
devuelve solo filas no coincidentes de la tabla de la izquierda. -
RIGHT JOIN
devuelve solo filas no coincidentes de la tabla de la derecha. -
FULL OUTER JOIN
devuelve filas no coincidentes de ambas tablas.
Mientras trabaja en las siguientes lecciones sobre combinaciones externas, puede ser útil consultar esta visualización JOIN de Patrik Spathon.
El conjunto de datos de Crunchbase
Los datos de las siguientes lecciones se obtuvieron de Crunchbase, un índice de colaboración colectiva de empresas emergentes, fundadores, inversores y las actividades de todos Tres. Se recopiló el 5 de febrero de 2014, y grandes porciones de ambas tablas se eliminaron al azar por el bien de esta lección. La primera tabla enumera una gran parte de las empresas en la base de datos; una fila por empresa. El campo permalink
es un identificador único para cada fila y también muestra la dirección web. Para cada empresa de la tabla, puede ver su perfil de Crunchbase en línea copiando / pegando su enlace permanente después del dominio web de Crunchbase. Por ejemplo, la tercera empresa de la tabla, «.Club Domains», tiene el enlace permanente «/ company / club-domains», por lo que su dirección de perfil sería http://www.crunchbase.com/company/club-domains. Los campos con «financiación» en el nombre tienen que ver con la cantidad de inversión externa (en USD) que ha realizado cada empresa. El resto de los campos se explican por sí mismos.
La segunda tabla enumera las adquisiciones: una fila por adquisición. company_permalink
en esta tabla se asigna al campo permalink
en tutorial.crunchbase_companies
como se describe en la lección anterior . Unir estos dos campos agregará información sobre la empresa que se está adquiriendo.
Notará que también hay un campo separado llamado acquirer_permalink
. Esto también puede ser asignado al permalink
campo tutorial.crunchbase_companies
para agregar información adicional sobre la empresa adquirente.
La clave externa que use para unir estas dos tablas dependerá completamente de si está buscando agregar información sobre la empresa adquirente o la empresa que fue adquirida.
Vale la pena teniendo en cuenta que este tipo de estructura es común. Por ejemplo, una tabla que muestre una lista de correos electrónicos enviados podría incluir un sender_email_address
y un recipient_email_address
, ambos se asignan a una tabla que enumera las direcciones de correo electrónico y los nombres de sus propietarios.