Alle Artikel mit dem Schlagwort: data mining

Data, Data, Data: Berlin Buzzwords 2016

Die Berlin Buzzwords begleiten wir inzwischen schon seit der ersten Ausgabe im Jahr 2010. Nun steht – wie immer Anfang Juni – schon die siebte Ausgabe der (Big-)Data-Konferenz vor der Tür, auf die wir Euch gerne wieder hinweisen möchten. (Und Tickets verlosen.) Die Keynotes Als Keynotespeaker erwarten Euch in diesem Jahr  Diane Mueller-Klingspor und Neha Narkhede: Diane Mueller-Klingspor ist eine langjährige “Pythonista” und Open Source-Verfechterin. Momentan arbeitet sie als Community Lead bei Red Hat an der Application-Platform OpenShift Origin. Diane engagiert sich zudem in der Maker-Community und ist Gründerin von GetMakered Labs, einer mobilen Makerspace-Kollaboration, die Kinder aller Altersstufen inspirieren und ermutigen soll, sich mit neuen Technologien auseinanderzusetzen. Ihre Keynote findet am 6. Juni statt und trägt den Titel: “Inspiring the Next Generation to Run Away and Join Our Software Circus”. Neha Narkhede ist Mitgründerin und CTO von Confluent. Zuvor war sie für die Petabyte Scale Streaming Infrastruktur von LinkedIn zuständig, die mehrere Millionen Datenvorgänge unterstützt. Zudem ist sie eine der EntwicklerInnen von Apache Kafka, PMC Mitglied und Projekt-Comitterin. Neha startet Tag 2 der Buzzwords unter dem Titel: “Application development …

Interview: Mit weniger Daten mehr erreichen

Big Data, Data Mining, datenbasiertes Marketing: In den Ohren der Wirtschaft klingen diese Buzzwords verheißungsvoll, in den Ohren der Kunden nervig bis beängstigend. Und die Erfolgsaussichten? Wir haben uns mit Thomas Ramge, Technologie-Korrespondent des Magazins brand eins, Buchautor von “Smart Data” und Keynotespeaker der Konferenz data2day unterhalten. oreillyblog: Herr Ramge, in den vorangegangenen Gesprächen, die wir u.a. hier im oreillyblog zu Big Data führten, wurde immer deutlich: Das Schlagwort Big Data hat nicht nur eine Dimension. Wie definieren Sie es? Die Gartner-Definition mit ihren drei (oder erweitert vier oder fünf) Dimensionen, an denen wir uns alle seit fünf Jahren abarbeiten, ist ja nicht falsch. Rasch wachsende Datenvolumen, Verarbeitungsgeschwindigkeit und Varianz erlauben der Massendaten-Analyse, die Vergangenheit und Gegenwart besser zu verstehen, Prozesse zu optimieren und in die Zukunft gerichtete Management-Entscheidungen auf der Grundlage von besseren Prognosen zu treffen. Das Problem am Begriff Big Data ist, dass er durch das “Big” die Dimension der Größe zu stark betont. Im Kern geht es ja im Business-Kontext darum, Daten zu nutzen, um Wertschöpfung zu verbessern. Es gibt natürlich Unternehmen, für …

oreillyblog 2013: politisch, geekig, gut

Das WordPress-Backend ist entrümpelt, die letzten Arbeitstage vor Silvester lassen sich an einer Hand abzählen, die Weihnachtsmate steht im Kühlschrank. Höchste Zeit für den #oreillyblog-Jahresrückblick. Zunächst wieder ein bisschen Statistik: Bis zu 1300 Unique Visitors und 4900 Page Views am Tag, über 100 Beiträge, erneut viele Gastautoren (ihr seid großartig!) – und dieses Mal kein Award, aber das macht gar nix. Massig Kommentare (nämlich 73!) konnten wir bei der Koop-Aktion Blogger schenken Lesefreude zum Welttag des Buches im April verzeichnen (immer ein Highlight), massig Soc-Med-Schaltflächen-Aktivität (115 Interaktionen!) erst vor knapp zwei Wochen, als wir an dieser Stelle einen exklusiven Auszug aus dem lang erwarteten Passig/Janders-Buch Weniger schlecht programmieren publizieren durften. Dieser Beitrag gehört auch insgesamt zu den erfolgreichsten und generierte weit über 2000 Klicks in knapp 24 Stunden. Ja, vierstellig, wir sind (noch) nicht das Blog von Heise oder t3n. ;-) Davon abgesehen: Noch mehr als über tolle Zugriffszahlen haben wir uns darüber gefreut, gleich fünf der wichtigsten IT-Themen des Jahres zumindest ein Stück weit im #oreillyblog abbilden und begleiten zu können: Da wäre zunächst das große DIY-, Minicomputer- …

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (4/4)

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Wie bereits angekündigt wollen wir uns im letzen Teil dieser Blogreihe der Frage widmen, unter welchen Voraussetzungen, mit welchen Werkzeugen und welcher Literatur man selber zum Data Miner avancieren kann. Oder anders formuliert: Wie man am Privatrechner auf den Spuren der Großkonzerne und Geheimdienste dieser Welt wandelt. Für alle, die die bisherigen Posts verpasst haben: Hier noch mal die Links zu Teil 1 (Data-Mining 101, Data-Mining-Arten, Lernarten), Teil 2 (Hallo Wortvektor, hallo Spam!) und Teil 3 (Die 99%ige Sicherheit und der “auffällige” Bürger). Teil 4: Wie werde ich Data Miner? Um selber ein Data-Mining- und Machine-Learning-Projekt zu starten, sind zumindest Grundkenntnisse im Bereich Programmierung notwendig. Prinzipiell kann man jede Sprache benutzen, einige empfehlen sich allerdings besonders, weil es bereits effiziente Frameworks und Bibliotheken sowie viele Anwendungsbeispiele in der einschlägigen Fachliteratur gibt: R R ist eine Skriptsprache mit einem besonderen Fokus auf Statistik und Datenauswertung, was sie natürlich für Data Mining prädestiniert. Besonders geeignet ist R für Prototyping und für Einmalanalysen, bei denen die Geschwindigkeit nicht kritisch …

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (3/4)

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Der Buzzword-Reigen ist entzaubert (Data-Mining 101, Data-Mining-Arten, Lernarten), ein konkreter Anwendungsfall ausführlich skizziert (Hallo Wortvektor, hallo Spam!) – Zeit für die philosophisch-politischen Überlegungen in dieser Blogreihe. Teil 3: Die 99%ige Sicherheit und der “auffällige” Bürger Von Recall und Precision Wie gut sind nun moderne Data-Mining-Verfahren und Machine-Learning-Algorithmen? Haben wir ein magisches Computerorakel, das perfekt alle Entscheidungen treffen kann? Offensichtlich nicht: wir würden sonst ausschließlich Mails erhalten, die wir auch wirklich wollen. Außerdem wären Ärzte überflüssig, weil automatisierte Entscheidungssysteme immer die perfekte Diagnose stellten – und dank der wohlmeinenden Totalüberwachung gäbe es auch keine Verbrechen mehr. Der Teufel steckt im Detail. Man muss, möchte man die Güte eines Verfahrens einschätzen, verschiedene Kriterien und Zusammenhänge beachten. Gerne werden Angaben in den Raum geworfen wie “zu 99% korrekt”. Aber 99% von was? Zunächst einmal gibt es vier absolute Kennzahlen für das Ergebnis einer Data-Mining-Aktion. Wir bleiben beim Beispiel des Spamfilters: True Positives: Zu Recht (true) als Spam (positive) erkannte Daten: Spam wird als Spam identifiziert False Positives: Zu Unrecht (false) als …