Začínáte zde? Tato lekce je součástí úplného kurzu používání SQL pro analýzu dat. Podívejte se na začátek.
V této lekci pojednáme:
- Vnější spojení
- Datová sada Crunchbase
Vnější spojení
Při provádění vnitřního spojení se nevrací řádky z jedné tabulky, které v jiné tabulce neodpovídají. Ve vnějším spojení lze vracet nepřidružené řádky v jedné nebo obou tabulkách. existuje několik typů vnějších spojení:
-
LEFT JOIN
vrací pouze nesrovnatelné řádky z levé tabulky. -
RIGHT JOIN
vrací pouze nepřiřazené řádky z pravé tabulky. -
FULL OUTER JOIN
vrací nepřiřazené řádky z obou tabulek.
Při procházení následujících lekcí o vnějších spojeních může být užitečné odkázat na tuto vizualizaci JOIN od Patrika Spathona.
Datová sada Crunchbase
Data pro následující lekce byla získána z Crunchbase, crowdsourcingového indexu startupů, zakladatelů, investorů a aktivit všech tři. Bylo shromážděno 5. února 2014 a velké části obou tabulek byly kvůli této lekci náhodně vyřazeny. První tabulka uvádí velkou část společností v databázi; jeden řádek na společnost. Pole permalink
je jedinečný identifikátor pro každý řádek a zobrazuje také webovou adresu. U každé společnosti v tabulce můžete zobrazit její online profil Crunchbase zkopírováním / vložením jeho trvalého odkazu za webovou doménu Crunchbase. Například třetí společnost v tabulce „.Club Domains“ má permalink „/ company / club-domains“, takže její profilová adresa bude http://www.crunchbase.com/company/club-domains. Pole s „financováním“ v názvu souvisí s tím, kolik vnějších investic (v USD) každá společnost přijala. Zbývající pole jsou vysvětlující.
Druhá tabulka uvádí akvizice – jeden řádek na akvizici. company_permalink
v této tabulce mapuje na pole permalink
v tutorial.crunchbase_companies
, jak je popsáno v předchozí lekci . Spojením těchto dvou polí přidáte informace o získávané společnosti.
Všimnete si, že existuje také samostatné pole s názvem acquirer_permalink
. Může to být také namapováno na permalink
pole tutorial.crunchbase_companies
a přidat další informace o nabývající společnosti.
Cizí klíč, který použijete ke spojení těchto dvou tabulek, bude zcela záviset na tom, zda hledáte přidání informací o nabývající společnosti nebo společnosti, která byla získána.
Stojí to za to konstatuje, že tento druh struktury je běžný. Například tabulka se seznamem odeslaných e-mailů může obsahovat sender_email_address
a recipient_email_address
, oba mapují na tabulku se seznamem e-mailových adres a jmen jejich vlastníků.