Hier beginnen? Deze les maakt deel uit van een volledige tutorial over het gebruik van SQL voor gegevensanalyse. Bekijk het begin.
In deze les behandelen we:
- Outer joins
- De Crunchbase-dataset
Outer joins
Bij het uitvoeren van een inner join, worden rijen van beide tabellen die niet overeenkomen in de andere tabel niet geretourneerd. In een outer join kunnen niet-overeenkomende rijen in een of beide tabellen worden geretourneerd. zijn een paar typen outer joins:
-
LEFT JOIN
retourneert alleen niet-overeenkomende rijen uit de linkertabel. -
RIGHT JOIN
retourneert alleen niet-overeenkomende rijen uit de rechtertabel. -
FULL OUTER JOIN
retourneert niet-overeenkomende rijen uit beide tabellen.
Terwijl je de volgende lessen over outer joins doorloopt, kan het nuttig zijn om naar deze JOIN-visualisatie van Patrik Spathon te verwijzen.
De Crunchbase-dataset
De gegevens voor de volgende lessen zijn gehaald uit Crunchbase, een crowdsourced-index van startups, oprichters, investeerders en de activiteiten van alle drie. Het werd verzameld op 5 februari 2014 en grote delen van beide tafels werden willekeurig weggelaten omwille van deze les. De eerste tabel toont een groot deel van de bedrijven in de database; één rij per bedrijf. Het veld permalink
is een unieke identificatie voor elke rij en toont ook het webadres. Voor elk bedrijf in de tabel kunt u het online Crunchbase-profiel bekijken door de permalink te kopiëren / plakken naar het webdomein van Crunchbase. Het derde bedrijf in de tabel, “.Club-domeinen”, heeft bijvoorbeeld de permalink “/ company / club-domains”, dus het profieladres is http://www.crunchbase.com/company/club-domains. De velden met “financiering” in de naam hebben te maken met hoeveel externe investeringen (in USD) elk bedrijf heeft aangenomen. De rest van de velden spreken voor zich.
De tweede tabel geeft een overzicht van acquisities – één rij per acquisitie. company_permalink
in deze tabel verwijst naar het permalink
veld in tutorial.crunchbase_companies
zoals beschreven in de vorige les . Door deze twee velden samen te voegen, wordt informatie toegevoegd over het bedrijf dat wordt overgenomen.
U zult zien dat er ook een apart veld is met de naam acquirer_permalink
. Dit kan ook zijn toegewezen aan het permalink
veld tutorial.crunchbase_companies
om aanvullende informatie over het overnemende bedrijf toe te voegen.
De externe sleutel die u gebruikt om aan deze twee tafels deel te nemen, hangt volledig af van of u informatie wilt toevoegen over het overnemende bedrijf of het bedrijf dat is overgenomen.
Het is de moeite waard opmerkend dat dit soort structuur gebruikelijk is. Een tabel met een lijst met verzonden e-mails kan bijvoorbeeld een sender_email_address
en een recipient_email_address
bevatten, die beide verwijzen naar een tabel met e-mailadressen en de namen van hun eigenaren.