Was ist Data Science?

von Daniela Meier

Was ist Data Science?
Data Science ist das Fachgebiet, das Fachwissen, Programmierkenntnisse und Kenntnisse in Mathematik und Statistik kombiniert, um sinnvolle Erkenntnisse aus Daten zu gewinnen.
 
Ein Artikel der Harvard Business Review aus dem Jahr 2012 bezeichnete Data Science als "The Sexiest Job of the 21st Century". Jahrhunderts". Das wirft die Frage auf, warum Data Science auf einmal so "sexy" ist.
 

Wieso “Data Science”?


Grafik: Was ist Data Science
Die Menge an Daten und Informationen, die seit Beginn des 21. Jahrhunderts erstellt, erfasst, kopiert und konsumiert werden, ist exponentiell gewachsen. Es wird erwartet, dass bis zum Jahr 2025 etwa 175 Zettabytes an Daten erzeugt werden, ausgehend von 2 Zettabytes im Jahr 2010.
 
Wenn du versuchen würdest, 175 Zettabytes mit der durchschnittlichen aktuellen Internetverbindungsgeschwindigkeit herunterzuladen, würdest du dafür 1,8 Milliarden Jahre benötigen. Selbst wenn du jeden Menschen auf der Welt anheuern würdest, um beim Download zu helfen, würde es immer noch 81 Tage dauern.
 
Wenn du 175 Zettabyte auf DVDs speichern würdest, wäre dein DVD-Stapel lang genug, um die Erde 222 Mal zu umrunden.
 
Das sind eine Menge Daten!

Stelle dir nur einmal vor, wie viele Fotos, Videos und andere Inhalte jede Sekunde erstellt werden. Im Jahr 2018 in einer Minute:
  • Twitter-Nutzer schickten 473.400 Tweets
  • Snapchat-Nutzer teilten 2 Millionen Fotos
  • Instagram-Nutzer posteten 49.380 Bilder
  • LinkedIn gewann 120 neue Nutzer

Ausserdem:
  • Google verarbeitet mehr als 40.000 Suchanfragen pro Sekunde, das sind 3,5 Milliarden Suchanfragen pro Tag.
  • 1,5 Milliarden Menschen sind jeden Tag auf Facebook aktiv. Das ist ein Fünftel der Weltbevölkerung.
  • Zwei Drittel der Weltbevölkerung besitzen mittlerweile ein Mobiltelefon.
  • Im Jahr 2020 werden von jedem Menschen jede Sekunde 1,7 MB an Daten erzeugt.
  • Allein in den letzten zwei Jahren wurden erstaunliche 90 % der weltweiten Daten erzeugt.
 
Mit Zettabytes an Daten, die herumliegen, und dem anhaltenden exponentiellen Wachstum von Daten, hat dies zu einem Mangel an Personen geführt, die diese Daten analysieren können. Daten können verborgenes Gold für ein Unternehmen oder eine Regierung etc. sein und liefern nützliche Erkenntnisse und Beweise, um wichtige Entscheidungen zu treffen.

Datenkompetenz wird im Laufe der Zeit immer wichtiger werden. Deshalb ist es der Beruf der Zukunft.
 

Was ist “Data Science”?

Komponenten Data Science
Es gibt eine Reihe von verschiedenen Bereichen oder Disziplinen innerhalb von Data Science.

Im Grossen und Ganzen kann Data Science jedoch als eine Schnittmenge zwischen betrachtet werden:
  • Informatik
  • Mathematik und Statistik
  • Domänenwissen (Wissen über die Branche, aus der die Daten oder Informationen stammen)
 
Wir sagen "im Grossen und Ganzen", da Data Scientists heutzutage mehr Fähigkeiten abdecken als die drei oben genannten. In Wirklichkeit gibt es viel mehr zu Data Science.

Hier sind einige technische Fähigkeiten und Know-how, die von Data Scientists benötigt werden:
  • Data Mining
  • Programmierung
  • Statistik
  • Visualisierungen
  • Datenbanken
  • Datentechnik
  • Big Data
  • Daten-Prozesse
  • Maschinelles Lernen
  • Mustererkennung 
  • Pattern Recognition
  • Computer Vision
  • Versuchsplanung
 
Ein wichtiger Aspekt für Data Scientists sind ausserdem Soft Skills, um anderen ihre Erkenntnisse über die geleistete Arbeit zu vermitteln:
  • Kommunizieren
  • Präsentieren
  • Domänenwissen
 

Data Science und Programmierung

Die Programmierung, einer der wichtigsten Aspekte der Data Science, ist mit vielen der oben genannten technischen Fähigkeiten verbunden und ermöglicht es, Datenherausforderungen, Fragen und Aufgaben schnell, einfach und automatisiert anzugehen.
 
Python gibt es schon seit vielen Jahren und ist die Hauptwaffe eines Data Scientists, um komplizierte Datenanalysen anzugehen. Einer der Hauptgründe dafür ist die grosse Anzahl von Community-getriebenen Paketen, die für datenspezifische Aufgaben in Python erstellt wurden.
 
Was ist eine Bibliothek? Eine Bibliothek ist eine Sammlung von gespeichertem Code, den jemand anderes für dich geschrieben hat. Du kannst verschiedene Teile des Codes aus einer Bibliothek importieren, um eine bestimmte Aufgabe zu erledigen, so dass du nicht alles von Grund auf neu schreiben musst.
 

Data Science vs. Datenanalyse? 

Bei der Datenanalyse geht es um die Beantwortung von Fragen, die für eine bessere geschäftliche Entscheidungsfindung generiert werden. Sie nutzt vorhandene Informationen, um umsetzbare Daten aufzudecken. Datenanalytik konzentriert sich auf bestimmte Bereiche mit bestimmten Zielen.
 
Data Science ist das Fachgebiet, das Fachwissen, Programmierkenntnisse und Kenntnisse in Mathematik und Statistik kombiniert, um sinnvolle Erkenntnisse aus Daten zu gewinnen. Sie konzentriert sich auf die Entdeckung neuer Fragen, von denen Sie vielleicht noch nicht wussten, dass sie beantwortet werden müssen, um Innovationen voranzutreiben.
 

Der Werkzeugkasten für Datenwissenschaften

Einige typische Werkzeuge und Technologien, die ein Data Scientist kennen sollte, sind: 
  • Programmiersprachen wie Python, R, SQL, Java, Julia und Scala
  • Für Statistik, Mathematik, Algorithmen, Modellierung und Datenvisualisierung verwenden Data Scientists in der Regel bereits existierende Pakete und Bibliotheken, darunter: Scikit-learn, TensorFlow, PyTorch, Pandas, Numpy und Matplotlib.
  • Für reproduzierbare Forschung und Berichterstattung verwenden Data Scientists in der Regel Notebooks und Frameworks wie Jupyter und JupyterLab. 
  • Für den Zugriff und die Abfrage vieler der führenden RDBMS-, NoSQL- und NewSQL-Datenbankmanagementsysteme: MySQL, PostgreSQL, Redshift, Snowflake, MongoDB, Redis, Hadoop und HBase.
  • Cloud-Dienstanbieter: Amazon Web Services (AWS), Microsoft Azure und Google Cloud Compute (GCP).
 

Warum ein Data Scientist werden? 

Wie in der Einleitung erwähnt, nannte ein Artikel der Harvard Business Review aus dem Jahr 2012 Data Science "The Sexiest Job of the 21st Century" und es gibt noch immer keine Anzeichen dafür, dass der Bedarf an Data Scientists in den kommenden Jahren abnehmen wird. Da immer mehr Daten zugänglich werden, sind die grossen Tech-Unternehmen nicht mehr die einzigen, die Data Scientists benötigen. Die wachsende Nachfrage nach Data Science-Profis in allen Branchen, ob gross oder klein, wird durch einen Mangel an qualifizierten Kandidaten herausgefordert, die zur Verfügung stehen, um die offenen Positionen zu besetzen.
 
Wenn du mehr über Data Science erfahren und deine Karriere in einem Bereich dieses vielversprechenden Feldes starten möchtest, besuche unsere Website, um mehr über unser Data Science Bootcamp zu erfahren, in dem du alle notwendigen Tools und Technologien in nur 12 Wochen erlernen wirst.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog