Ab hier? Diese Lektion ist Teil eines ausführlichen Lernprogramms zur Verwendung von SQL für die Datenanalyse. Schauen Sie sich den Anfang an.
In dieser Lektion werden wir Folgendes behandeln:
- Äußere Verknüpfungen
- Der Crunchbase-Datensatz
Äußere Verknüpfungen
Wenn Sie eine innere Verknüpfung ausführen, werden Zeilen aus beiden Tabellen, die in der anderen Tabelle nicht übereinstimmen, nicht zurückgegeben. In einer äußeren Verknüpfung können nicht übereinstimmende Zeilen in einer oder beiden Tabellen zurückgegeben werden Es gibt einige Arten von äußeren Verknüpfungen:
-
LEFT JOIN
gibt nur nicht übereinstimmende Zeilen aus der linken Tabelle zurück. -
RIGHT JOIN
gibt nur nicht übereinstimmende Zeilen aus der rechten Tabelle zurück. -
FULL OUTER JOIN
gibt nicht übereinstimmende Zeilen aus beiden Tabellen zurück.
Während Sie die folgenden Lektionen über äußere Verknüpfungen durcharbeiten, kann es hilfreich sein, auf diese JOIN-Visualisierung von Patrik Spathon zu verweisen.
Der Crunchbase-Datensatz
Die Daten für die folgenden Lektionen stammen aus Crunchbase, einem Crowdsourcing-Index von Startups, Gründern, Investoren und den Aktivitäten aller drei. Es wurde am 5. Februar 2014 gesammelt und große Teile beider Tische wurden für diese Lektion zufällig fallen gelassen. In der ersten Tabelle ist ein großer Teil der Unternehmen in der Datenbank aufgeführt. eine Reihe pro Firma. Das Feld permalink
ist eine eindeutige Kennung für jede Zeile und zeigt auch die Webadresse an. Für jedes Unternehmen in der Tabelle können Sie das Online-Crunchbase-Profil anzeigen, indem Sie den Permalink nach der Crunchbase-Webdomain kopieren / einfügen. Beispielsweise hat die dritte Firma in der Tabelle „.Club-Domänen“ den Permalink „/ Firma / Club-Domänen“, sodass ihre Profiladresse http://www.crunchbase.com/company/club-domains lautet. Die Felder mit dem Namen „Finanzierung“ haben damit zu tun, wie viel Fremdinvestition (in USD) jedes Unternehmen übernommen hat. Die restlichen Felder sind selbsterklärend.
In der zweiten Tabelle sind die Erfassungen aufgeführt – eine Zeile pro Erfassung. company_permalink
in dieser Tabelle ist dem Feld permalink
in tutorial.crunchbase_companies
zugeordnet, wie in der vorherigen Lektion beschrieben . Wenn Sie diese beiden Felder verbinden, werden Informationen über das erworbene Unternehmen hinzugefügt.
Sie werden feststellen, dass es auch ein separates Feld mit dem Namen acquirer_permalink
gibt. Dies kann auch sein dem Feld permalink
tutorial.crunchbase_companies
zugeordnet, um zusätzliche Informationen über das übernehmende Unternehmen hinzuzufügen.
Der Fremdschlüssel, den Sie zum Verknüpfen dieser beiden Tabellen verwenden, hängt ganz davon ab, ob Sie Informationen über das erwerbende Unternehmen oder das erworbene Unternehmen hinzufügen möchten.
Es lohnt sich Beachten Sie, dass diese Art von Struktur häufig vorkommt. Beispielsweise kann eine Tabelle mit einer Liste der gesendeten E-Mails eine sender_email_address
und eine recipient_email_address
enthalten. Beide werden einer Tabelle zugeordnet, in der die E-Mail-Adressen und die Namen ihrer Eigentümer aufgeführt sind.