Alle Artikel mit dem Schlagwort: data scientist

E-Book-Deal: Konzepte des Data Engineering

Nur diese Woche reduzieren wir das E-Book von „Datenintensive Anwendungen designen“ von Martin Kleppmann um 50 %. Das verlustfreie, effiziente und jederzeit zugängliche Speichern großer Datenmengen kann ich mir gut am Modell des Kinderzimmers meiner Tochter vorstellen: Ich muss versuchen, all die unterschiedlichen Objekte – Murmeln, Hausaufgabenblätter, Legosteine, Wasserfarben sowie diverse für mich nicht klar definierbare, aber ultrawichtige Kleinteile – zu erfassen, zu sortieren und so abzulegen, dass sie alles sofort findet und frei miteinander kombinieren (=wieder wild durchmischen) kann. Durch das schwierige Terrain großer Datenmengen Wer jetzt Erziehungstipps geben mag: don’t! Denn tatsächlich sieht die Arbeitsteilung nun mal vor, dass ich als „Kinderzimmer Engineer“ für das Systemdesign zuständig bin, wenigstens ein paar Jahre lang und zu meiner eigenen Nervenschonung zu periodisch wiederkehrenden Zeitpunkten. Der Schwierigkeitsgrad jedoch steigt mit der Menge und Diversität an Kram. Ganz wie bei Daten. Und dieser Umstand setzt wiederum ein brauchbares Konzept für ein zuverlässiges, skalierbares und gut zu wartendes System voraus. Um ehrlich zu sein, aktuell gelingt es mir nicht, ein solches für das Kinderzimmer nachhaltig aufzusetzen. Wir haben …

Von Gründern, Büchern, Punks und Viren – eine ganz persönliche Dataviz-Lovestory

Außerdem: Werbung für ein Grundlagenbuch von Claus O. Wilke. Im Spätsommer 2004 stand ich vor einem Problem: Ich war mit der Uni fertig, wusste aber nicht so richtig, was ich arbeiten sollte. Also beschloss ich, mein Lieblingshobby – die Organisation von Punk- und Indiekonzerten – zumindest vorübergehend zum Beruf zu machen. Dafür brauchte ich eine kleine Agentur. Für deren Gründung brauchte ich Fördergelder. Und um die zu bekommen: einen Businessplan. Dessen Erfolg bei der Auswahlkommission wäre, so hörte ich, unter anderem davon abhängig, wie überzeugend darin Marktanalysen (oh!) und Umsatzprognosen (ah!) dargestellt würden. Heißt also: Das Ding brauchte solide Diagramme, Schaubilder, Datenvisualisierungen. Datenvisualisierung, Europa-Tour und Schönheit der Information Blöderweise hatte ich damals keine Ahnung, wie dieser Dataviz-Kram funktionierte, wurde aber zum Glück von einem Freund gerettet (natürlich Wirtschaftswissenschaftler und Informatiker). Nach ein paar Stunden Excel-Magic war alles fertig, der Plan wurde eingereicht, bekam großes Lob – und ich konnte für ein paar Jahre Bands quer durch Europa schicken (was eine andere Geschichte ist). Datenvisualisierung hatte erst mal keine größere Bedeutung mehr in meinem Leben. Fast …

Datenintensive Anwendungen designen, Datenanalyse mit Python

Geburtstag: „Datenintensive Anwendungen designen“ und „Datenanalyse mit Python“

Mit „Datenintensive Anwendungen designen“ und „Datenanalyse mit Python“ holten wir zwei Schwergewichte für Softwarearchitekten und Datenanalysten in unser Programm. Und heute feiern wir ihren Geburtstag! (Inklusive Verlosung ;)) Verraten wir mal eine schöne Routine: Einmal monatlich kommen wir alle – Lektorat, Marketing, Vertrieb, Herstellung und Geschäftsführung – in einem großen Meeting zusammen. Wir stellen einander neue Projekte vor, berichten von Konferenzen, die wir besucht haben und: wir stoßen auf unsere Geburtstagskinder an. Nicht auf die der Kollegen. Sondern auf die Jubilare aus Papier, Druckfarbe und Leim. (Ja, und natürlich auch auf ihre elektronischen Äquivalente.) Und worum ging es im Oktober? Um diese beiden: Was die Bücher auszeichnet? Das erzähle ich euch jetzt. :) Datenintensive Anwendungen designen Dieses umfassende Buch zum datenbasierten Systemdesign erschien zunächst in englischer Sprache – und wurde hochgelobt (wenn ihr beispielsweise mal zu Amazon rüber schauen möchtet).  Der Softwarearchitekt und Forscher Martin Kleppmann hat es für O’Reilly USA geschrieben, unser Übersetzer Frank Langenau hat das Manuskript wiederum ins Deutsche übertragen. Und dann? Hat sich Martin Kleppmann für uns noch einmal dran gesetzt und einige …

Data, Data, Data: Berlin Buzzwords 2016

Die Berlin Buzzwords begleiten wir inzwischen schon seit der ersten Ausgabe im Jahr 2010. Nun steht – wie immer Anfang Juni – schon die siebte Ausgabe der (Big-)Data-Konferenz vor der Tür, auf die wir Euch gerne wieder hinweisen möchten. (Und Tickets verlosen.) Die Keynotes Als Keynotespeaker erwarten Euch in diesem Jahr  Diane Mueller-Klingspor und Neha Narkhede: Diane Mueller-Klingspor ist eine langjährige „Pythonista“ und Open Source-Verfechterin. Momentan arbeitet sie als Community Lead bei Red Hat an der Application-Platform OpenShift Origin. Diane engagiert sich zudem in der Maker-Community und ist Gründerin von GetMakered Labs, einer mobilen Makerspace-Kollaboration, die Kinder aller Altersstufen inspirieren und ermutigen soll, sich mit neuen Technologien auseinanderzusetzen. Ihre Keynote findet am 6. Juni statt und trägt den Titel: „Inspiring the Next Generation to Run Away and Join Our Software Circus“. Neha Narkhede ist Mitgründerin und CTO von Confluent. Zuvor war sie für die Petabyte Scale Streaming Infrastruktur von LinkedIn zuständig, die mehrere Millionen Datenvorgänge unterstützt. Zudem ist sie eine der EntwicklerInnen von Apache Kafka, PMC Mitglied und Projekt-Comitterin. Neha startet Tag 2 der Buzzwords unter dem Titel: „Application development …

Der Jahrgang 2016 – Teil 3

Wie versprochen gibt es neuen Lesestoff. Heute etwas für alle, die sich gerne durch riesige Datenberge ackern möchten: Einführung in Data Science „Der beste Weg, hacken zu lernen, ist, Dinge zu hacken“, schreibt der Google-Entwickler Joel Grus im Vorwort seines aktuellen Buchs Einführung in Data Science. Darin führt er Euch mit Hilfe von Python in die Welt der Datenanalyse ein – und das erklärtermaßen nicht nur mit Praxisbezug, sondern auch mit der Lust am Spiel mit dem Grundstoff Daten. Voraussetzungen Alles, was Ihr braucht, sind erste Programmierkenntnisse, wobei das Buch auch mit einer kleinen Python-Einführung startet. Und: Eure Kenntnisse aus Stochastik, Statistik und linearer Algebra sollten nicht ganz verschüttet sein. In Bezug auf Data Science selbst fängt Joel Grus bewusst ganz von vorne an, Ihr müsst keinerlei Techniken oder Tools vorab kennen. Diese führt der Autor erst im Laufe des Buches nach und nach ein, und zwar erst dann, wenn Ihr die Grundlagen verstanden habt. Alle Codebeispiele liegen übrigens auf GitHub, sowohl für Python 2.7 als auch für Python 3.x. Und warum sollte man sich durch Mathematik und Python-Code …