Vous commencez ici? Cette leçon fait partie d’un didacticiel complet sur l’utilisation de SQL pour l’analyse de données. Vérifiez le début.
Dans cette leçon, nous allons couvrir:
- Jointures externes
- Le jeu de données Crunchbase
Jointures externes
Lors de l’exécution d’une jointure interne, les lignes de l’une ou l’autre des tables qui ne correspondent pas dans l’autre table ne sont pas renvoyées. Dans une jointure externe, les lignes sans correspondance dans une ou les deux tables peuvent être renvoyées. sont quelques types de jointures externes:
-
LEFT JOIN
renvoie uniquement les lignes sans correspondance de la table de gauche. -
RIGHT JOIN
renvoie uniquement les lignes sans correspondance de la table de droite. -
FULL OUTER JOIN
renvoie les lignes sans correspondance des deux tables.
Lorsque vous étudiez les leçons suivantes sur les jointures externes, il peut être utile de vous référer à cette visualisation JOIN de Patrik Spathon.
L’ensemble de données Crunchbase
Les données des leçons suivantes ont été tirées de Crunchbase, un index crowdsourced des startups, des fondateurs, des investisseurs et des activités de tous Trois. Il a été collecté le 5 février 2014 et de grandes parties des deux tables ont été supprimées au hasard pour le bien de cette leçon. Le premier tableau répertorie une grande partie des entreprises dans la base de données; une ligne par entreprise. Le champ permalink
est un identifiant unique pour chaque ligne et affiche également l’adresse Web. Pour chaque entreprise du tableau, vous pouvez afficher son profil Crunchbase en ligne en copiant / collant son lien permanent après le domaine Web de Crunchbase. Par exemple, la troisième société du tableau, « .Club Domains », a le lien permanent « / company / club-domains », donc son adresse de profil serait http://www.crunchbase.com/company/club-domains. Les champs avec «financement» dans le nom ont à voir avec le montant d’investissement extérieur (en USD) que chaque entreprise a engagé. Les autres champs sont explicites.
Le deuxième tableau répertorie les acquisitions – une ligne par acquisition. company_permalink
dans ce tableau correspond au champ permalink
dans tutorial.crunchbase_companies
comme décrit dans la leçon précédente . Joindre ces deux champs ajoutera des informations sur la société en cours d’acquisition.
Vous remarquerez qu’il existe également un champ distinct appelé acquirer_permalink
. Cela peut également être mappé au champ permalink
tutorial.crunchbase_companies
pour ajouter des informations supplémentaires sur la société acquéreuse.
La clé étrangère que vous utilisez pour joindre ces deux tables dépendra entièrement du fait que vous « cherchez à ajouter des informations sur la société acquérante ou sur la société acquise.
Cela vaut la peine notez que ce type de structure est courant. Par exemple, un tableau affichant une liste des e-mails envoyés peut inclure un sender_email_address
et un recipient_email_address
, qui correspondent tous deux à un tableau répertoriant les adresses e-mail et les noms de leurs propriétaires.