Alle Artikel mit dem Schlagwort: f-score

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (4/4)

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Wie bereits angekündigt wollen wir uns im letzen Teil dieser Blogreihe der Frage widmen, unter welchen Voraussetzungen, mit welchen Werkzeugen und welcher Literatur man selber zum Data Miner avancieren kann. Oder anders formuliert: Wie man am Privatrechner auf den Spuren der Großkonzerne und Geheimdienste dieser Welt wandelt. Für alle, die die bisherigen Posts verpasst haben: Hier noch mal die Links zu Teil 1 (Data-Mining 101, Data-Mining-Arten, Lernarten), Teil 2 (Hallo Wortvektor, hallo Spam!) und Teil 3 (Die 99%ige Sicherheit und der “auffällige” Bürger). Teil 4: Wie werde ich Data Miner? Um selber ein Data-Mining- und Machine-Learning-Projekt zu starten, sind zumindest Grundkenntnisse im Bereich Programmierung notwendig. Prinzipiell kann man jede Sprache benutzen, einige empfehlen sich allerdings besonders, weil es bereits effiziente Frameworks und Bibliotheken sowie viele Anwendungsbeispiele in der einschlägigen Fachliteratur gibt: R R ist eine Skriptsprache mit einem besonderen Fokus auf Statistik und Datenauswertung, was sie natürlich für Data Mining prädestiniert. Besonders geeignet ist R für Prototyping und für Einmalanalysen, bei denen die Geschwindigkeit nicht kritisch …

False Positive, na und? – Data Mining, Überwachungsstaat und der ganze Rest (3/4)

Ein Gastbeitrag von: Christoph Henkelmann (Firmenseite, Blog) Redaktion: AP Der Buzzword-Reigen ist entzaubert (Data-Mining 101, Data-Mining-Arten, Lernarten), ein konkreter Anwendungsfall ausführlich skizziert (Hallo Wortvektor, hallo Spam!) – Zeit für die philosophisch-politischen Überlegungen in dieser Blogreihe. Teil 3: Die 99%ige Sicherheit und der “auffällige” Bürger Von Recall und Precision Wie gut sind nun moderne Data-Mining-Verfahren und Machine-Learning-Algorithmen? Haben wir ein magisches Computerorakel, das perfekt alle Entscheidungen treffen kann? Offensichtlich nicht: wir würden sonst ausschließlich Mails erhalten, die wir auch wirklich wollen. Außerdem wären Ärzte überflüssig, weil automatisierte Entscheidungssysteme immer die perfekte Diagnose stellten – und dank der wohlmeinenden Totalüberwachung gäbe es auch keine Verbrechen mehr. Der Teufel steckt im Detail. Man muss, möchte man die Güte eines Verfahrens einschätzen, verschiedene Kriterien und Zusammenhänge beachten. Gerne werden Angaben in den Raum geworfen wie “zu 99% korrekt”. Aber 99% von was? Zunächst einmal gibt es vier absolute Kennzahlen für das Ergebnis einer Data-Mining-Aktion. Wir bleiben beim Beispiel des Spamfilters: True Positives: Zu Recht (true) als Spam (positive) erkannte Daten: Spam wird als Spam identifiziert False Positives: Zu Unrecht (false) als …