Alle Artikel mit dem Schlagwort: Hadoop

datascience process model

Das Data Science Process Model – Leitfaden zur Realisierung von Big Data-Produkten

Ein Gastbeitrag von Klaas Bollhoefer. Das Data Science Process Model ist ein Vorgehensmodell, das den Prozess zur Entwicklung von Big Data-Produkten in sechs definierte Phasen organisiert und die einzelnen Akteure und ihr Zusammenspiel darin darstellt. Kern des Modells ist das harmonische Wechselspiel der Akteure Data Scientist und Machine Intelligence, die nahtlose Verknüpfung menschlicher und maschineller Intelligenz im Rahmen explorativer und automatisierter Big Data-Analysen. Das Data Science Process Model ist international eines der ersten, aus der Praxis hervorgegangenen Vorgehensmodelle  -vielleicht sogar die erste theoretische Darstellung überhaupt – und soll einen Beitrag zur weiteren Standardisierung der Disziplin leisten. Als Leitfaden kann es der individuellen Planung und Aufwandskalkulation bei der Realisierung von Big Data-Produkten dienen. Entwickelt habe ich das Modell bei The unbelievable Machine Company. Es basiert auf den Erkenntnissen und Erfahrungen aus einer Vielzahl von Big Data-Projekten für unterschiedliche Branchen und Fachdomänen aus den Jahren 2011-2013. Schematische Darstellung Zur Vergrößerung Grafik anklicken: Beschreibung der einzelnen Phasen Das Data Science Process Model besteht aus sechs aufeinander folgenden Phasen und beschreibt damit den Gesamtprozess zur Entwicklung von Big Data- Lösungen – …

Aus dem Leben eines Datenforschers

Ein Gastbeitrag von Klaas Bollhoefer. Ich bin Data Scientist. Ein Datenforscher. Jemand, der Probebohrungen im wieder entdeckten Rohstoff Daten vornimmt. Und damit Mitglied dieser sagenumwobenen Gruppe von Experten, über die im Umfeld von Big Data aktuell so viele reden. Hilary Mason, Chief Data Scientist bei bit.ly und Popstar dieser neuen Disziplin, hat Data Science einmal als Schnittstellenkompetenz beschrieben. Data Science liegt da, wo Computerwissenschaften, Statistik und Mathematik, Ingenieurskunst und “Hacking” (hier: der neugierige, kreative Umgang mit Computern), Design und Algorithmen zusammentreffen. Data Science ist ein multidisziplinärer Raum, in dem neue Ideen und Lösungen entstehen. Hilary Mason nennt die Menschen, die diesen Raum bewohnen, “awesome nerds” (zu Deutsch: fantastische Computerfreaks) oder, businesstauglicher: “Data Scientists”. Diese Definition erscheint mir nicht vollständig, fehlt ihr doch der entscheidende Produkt- bzw. Geschäftsbezug. Neben dem “Was” (was für Daten habe ich?) und dem “Wie” (wie kreiere ich neues Wissen aus diesen Daten mit all den Big-Data- Technologien und künstlichen Intelligenzen?) ist noch eine andere Frage auschlaggebend, nämlich die nach dem Sinn und Zweck des Unterfangens. Welches Problem möchte ich lösen? Welche Potenziale …

BUZZWORDS Berlin (Hadoop World) im Juni 2010

Am 7. und 8. Juni 2010 findet erstmals die BUZZWORDS in Berlin-Friedrichshain statt. Diese neue Konferenz bildet das breite Themenspektrum rund um skalierbare Suche, NoSQL Datenbanken und die verteilte Verarbeitung großer Datenmengen ab. Die Konferenzinhalte erstrecken sich von aktuellen Entwicklungen im Apache Projekt Hadoop über offene Suchmaschinen wie Lucene, katta und Solr bis hin zu NoSQL Projekten wie CouchDB, HBase und MongoDB. Die Konferenz bietet Keynotes, Vorträge und Workshops. Die Präsentationen richten sich besonders an Entwickler im High-Scalability Bereich. Hier werden einerseits Mitglieder der einzelnen Projekte über aktuelle Entwicklungen berichten, andererseits aber auch Anwender Applikationen im High Scalability Bereich vorstellen. Für die Keynotes konnten namhafte Referenten wie zum Beispiel Grant Ingersoll (PMC Chair Lucene, Co-Founder Lucid Imagination) gewonnen werden. Ebenfalls als Referent dabei ist auch Jan Lehnhardt, unser Autor von CouchDB – The Definitive Guide. Die Veranstalter rechnen mit ca. 300 Teilnehmern. Der Ausstellerbereich bietet Besuchern die Möglichkeit, sowohl mit Entwicklern hinter den Projekten als auch mit kommerziellen Nutzern ins Gespräch zu kommen. Anmeldung, Tickets und weitere Informationen können über die Webseite der Berlin Buzzwords …