Alle Artikel mit dem Schlagwort: data scientist

Statistik für Data Scientists

Ein Buch für Data Scientists, die ihr Wissen über Statistik auf ein neues Level bringen wollen: Praktische Statistik für Data Scientists, kürzlich bei uns erschienen. Was reden wir doch seit vergangenem Frühjahr über Daten: Über Anstiege und Rückgänge, über Zielwerte und Höchstwerte, über Wahrscheinlichkeiten und über, ihr ahnt es, den besonderen Charakter des exponentiellen Anstiegs. Statistikwissen war und ist gefragt – unter Politikerinnen, Wissenschaftlern, Ärzten, Informatikerinnen. Tatsächlich unter uns allen. Entsprechend mussten wir alle uns “Wissen draufschaffen”. Nach außen sichtbar wird diese Kompetenz im Falle von Medien: Zeitschriften und Zeitungen, Nachrichtenmagazine und Newsportale, Podcasts und Blogs berichten nicht nur durch Textbeiträge, sondern eben auch durch Grafiken und Tabellen, häufig interaktiv. Nicht gerade trivial: Daten analysieren, darstellen, deuten Data Scientists, die bislang eine Informatik-Laufbahn absolviert haben oder deren beruflicher Hintergrund in der Programmierung liegt, benötigen die entsprechende Statistik- und Mathematik-Kompetenz ebenfalls. Übrigens nicht erst seit einigen Monaten, faktisch diskutieren Fachleute schon seit Jahren, über welche Fertigkeiten und Fähigkeiten Data Scientists verfügen sollten. Allerdings gehört eine formale statistische Ausbildung nicht zwingend zu den Skills, die Data Scientists …

E-Book-Deal: Konzepte des Data Engineering

Nur diese Woche reduzieren wir das E-Book von “Datenintensive Anwendungen designen” von Martin Kleppmann um 50 %. Das verlustfreie, effiziente und jederzeit zugängliche Speichern großer Datenmengen kann ich mir gut am Modell des Kinderzimmers meiner Tochter vorstellen: Ich muss versuchen, all die unterschiedlichen Objekte – Murmeln, Hausaufgabenblätter, Legosteine, Wasserfarben sowie diverse für mich nicht klar definierbare, aber ultrawichtige Kleinteile – zu erfassen, zu sortieren und so abzulegen, dass sie alles sofort findet und frei miteinander kombinieren (=wieder wild durchmischen) kann. Durch das schwierige Terrain großer Datenmengen Wer jetzt Erziehungstipps geben mag: don’t! Denn tatsächlich sieht die Arbeitsteilung nun mal vor, dass ich als “Kinderzimmer Engineer” für das Systemdesign zuständig bin, wenigstens ein paar Jahre lang und zu meiner eigenen Nervenschonung zu periodisch wiederkehrenden Zeitpunkten. Der Schwierigkeitsgrad jedoch steigt mit der Menge und Diversität an Kram. Ganz wie bei Daten. Und dieser Umstand setzt wiederum ein brauchbares Konzept für ein zuverlässiges, skalierbares und gut zu wartendes System voraus. Um ehrlich zu sein, aktuell gelingt es mir nicht, ein solches für das Kinderzimmer nachhaltig aufzusetzen. Wir haben …

Von Gründern, Büchern, Punks und Viren – eine ganz persönliche Dataviz-Lovestory

Außerdem: Werbung für ein Grundlagenbuch von Claus O. Wilke. Im Spätsommer 2004 stand ich vor einem Problem: Ich war mit der Uni fertig, wusste aber nicht so richtig, was ich arbeiten sollte. Also beschloss ich, mein Lieblingshobby – die Organisation von Punk- und Indiekonzerten – zumindest vorübergehend zum Beruf zu machen. Dafür brauchte ich eine kleine Agentur. Für deren Gründung brauchte ich Fördergelder. Und um die zu bekommen: einen Businessplan. Dessen Erfolg bei der Auswahlkommission wäre, so hörte ich, unter anderem davon abhängig, wie überzeugend darin Marktanalysen (oh!) und Umsatzprognosen (ah!) dargestellt würden. Heißt also: Das Ding brauchte solide Diagramme, Schaubilder, Datenvisualisierungen. Datenvisualisierung, Europa-Tour und Schönheit der Information Blöderweise hatte ich damals keine Ahnung, wie dieser Dataviz-Kram funktionierte, wurde aber zum Glück von einem Freund gerettet (natürlich Wirtschaftswissenschaftler und Informatiker). Nach ein paar Stunden Excel-Magic war alles fertig, der Plan wurde eingereicht, bekam großes Lob – und ich konnte für ein paar Jahre Bands quer durch Europa schicken (was eine andere Geschichte ist). Datenvisualisierung hatte erst mal keine größere Bedeutung mehr in meinem Leben. Fast …

Datenintensive Anwendungen designen, Datenanalyse mit Python

Geburtstag: “Datenintensive Anwendungen designen” und “Datenanalyse mit Python”

Mit “Datenintensive Anwendungen designen” und “Datenanalyse mit Python” holten wir zwei Schwergewichte für Softwarearchitekten und Datenanalysten in unser Programm. Und heute feiern wir ihren Geburtstag! (Inklusive Verlosung ;)) Verraten wir mal eine schöne Routine: Einmal monatlich kommen wir alle – Lektorat, Marketing, Vertrieb, Herstellung und Geschäftsführung – in einem großen Meeting zusammen. Wir stellen einander neue Projekte vor, berichten von Konferenzen, die wir besucht haben und: wir stoßen auf unsere Geburtstagskinder an. Nicht auf die der Kollegen. Sondern auf die Jubilare aus Papier, Druckfarbe und Leim. (Ja, und natürlich auch auf ihre elektronischen Äquivalente.) Und worum ging es im Oktober? Um diese beiden: Was die Bücher auszeichnet? Das erzähle ich euch jetzt. :) Datenintensive Anwendungen designen Dieses umfassende Buch zum datenbasierten Systemdesign erschien zunächst in englischer Sprache – und wurde hochgelobt (wenn ihr beispielsweise mal zu Amazon rüber schauen möchtet).  Der Softwarearchitekt und Forscher Martin Kleppmann hat es für O’Reilly USA geschrieben, unser Übersetzer Frank Langenau hat das Manuskript wiederum ins Deutsche übertragen. Und dann? Hat sich Martin Kleppmann für uns noch einmal dran gesetzt und einige …

Data, Data, Data: Berlin Buzzwords 2016

Die Berlin Buzzwords begleiten wir inzwischen schon seit der ersten Ausgabe im Jahr 2010. Nun steht – wie immer Anfang Juni – schon die siebte Ausgabe der (Big-)Data-Konferenz vor der Tür, auf die wir Euch gerne wieder hinweisen möchten. (Und Tickets verlosen.) Die Keynotes Als Keynotespeaker erwarten Euch in diesem Jahr  Diane Mueller-Klingspor und Neha Narkhede: Diane Mueller-Klingspor ist eine langjährige “Pythonista” und Open Source-Verfechterin. Momentan arbeitet sie als Community Lead bei Red Hat an der Application-Platform OpenShift Origin. Diane engagiert sich zudem in der Maker-Community und ist Gründerin von GetMakered Labs, einer mobilen Makerspace-Kollaboration, die Kinder aller Altersstufen inspirieren und ermutigen soll, sich mit neuen Technologien auseinanderzusetzen. Ihre Keynote findet am 6. Juni statt und trägt den Titel: “Inspiring the Next Generation to Run Away and Join Our Software Circus”. Neha Narkhede ist Mitgründerin und CTO von Confluent. Zuvor war sie für die Petabyte Scale Streaming Infrastruktur von LinkedIn zuständig, die mehrere Millionen Datenvorgänge unterstützt. Zudem ist sie eine der EntwicklerInnen von Apache Kafka, PMC Mitglied und Projekt-Comitterin. Neha startet Tag 2 der Buzzwords unter dem Titel: “Application development …