Alle Artikel mit dem Schlagwort: Datenanalyse

Ärmel hoch und rein in die Daten: Die Big Data Week in Berlin

Was ist Big Data, und welche Effekte ergeben sich für unser Leben? Anlässlich der nächste Woche unter anderem in Berlin stattfindenden Big Data Week sprach ich mit Data Scientist Klaas Bollhöfer. Klaas, Anfang Mai ist Berlin das Epizentrum aller digital arbeitenden Menschen: Neben re:publica und Linuxtag ist die Hauptstadt auch wieder eine von dreißig Locations weltweit, die sich an der Big Data Week beteiligen. Erzähl doch mal, was sich dahinter verbirgt. Die Big Data Week ist eine 2012 ins Leben gerufene Initiative mit dem Ziel, die Big Data Communities der Welt für eine Woche intensiv miteinander zu vernetzen, Hunderte von Events, Meetups, Konferenzen & Hackathons unter einem gemeinsamen Dach zu verorten und gemeinsam als zentrales Organ einer international agierenden Interessensgemeinschaft zu agieren. Die Big Data Week wird von London aus organisiert und umspannt alle Kontinente (mit Ausnahme Antarktis, zumindest noch :-)), mehr als 30 Städte und mehr als 200 Veranstaltungen. Es ist ein „Global Festival of Data“, das in diesem Jahr bereits zum 2. Mal auch in Berlin stattfindet – vom 5. bis 11. Mai. Wie …

Moderne Werkzeuge für die rechnergestützte Statistik, Teil 2

Statistische Datenauswertung lebt vom Zusammenspiel zahlreicher Kompetenzen, Werkzeuge und Hilfsmittel. In Teil 1 dieses Artikels habe ich skizziert, welchen Anforderungen sich eine Statistiksoftware aus meiner Sicht heute stellen muss. In Teil 2 nun stelle ich verschiedene textbasierte Formate vor, die als Datenquellen eine relevante Rolle spielen. Textbasierte Datenformate & Auszeichnungssprachen Daten müssen vor der Analyse in der Regel auf irgendeine Weise aufbereitet, umgeformt und in geeignete(re) Speicherformate überführt werden. Speicherformate spielen auch in den Ausnahmefällen eine Rolle, in denen der Analyst bereits auf die elektronische Erfassung Einfluss nehmen kann. Jeder Arbeitsschritt, der in Handarbeit erledigt werden muss, zieht typische und nur begrenzt kontrollierbare Probleme nach sich (die u.a. mit der Vigilanz, mit Figur-Grund-Problemen und mit sensomotorischen Fehlleistungen zusammenhängen). Bei solchen Aufgaben können wir uns heute allerdings von einer Vielzahl leistungsfähiger und oft kostengünstiger Werkzeuge und Technologien unterstützen lassen. Sobald Daten ins Spiel kommen, arbeite ich nach zwei einfachen Prinzipien: (1) Handarbeit im Umgang mit Daten ist auf ein absolutes Minimum zu reduzieren; (2) maschinelle Verarbeitung der Daten muss so früh einsetzen, wie es das jeweilige Szenario zulässt, und …

Moderne Werkzeuge für die rechnergestützte Statistik, Teil 1

Dieser Beitrag ist der erste in einer kleinen Serie locker zusammenhängender Artikel rund um die Themen Datenanalyse, rechnergestützte Statistik und die exzellente universelle Statistikumgebung R. Rückblick Es ist noch nicht so lange her, 10 oder 15 Jahre, da reichte es für die Durchführung einer gewöhnlichen Datenanalyse, Zugriff auf eine  Statistiksoftware zu haben und mit einer Textverarbeitung umgehen zu können. In der zweiten Hälfte der 90er Jahre hatten SPSS und SAS den Wechsel von den Großrechnern auf die Windows-Plattform vollzogen und sich dort gemütlich eingerichtet. Den Steuersprachen waren GUIs übergestülpt worden, was vor allem für Gelegenheitsanwender und Technophobe praktisch war, weil es sie von der Aufgabe befreite, syntaktisch korrekte Anweisungen schreiben zu müssen – nicht immer eine triviale Aufgabe, da in diesen Systemen neben eigentlich einfachen Syntaxregeln teils komplexe Einschränkungen und nicht immer intuitive Randbedingungen zu beachten sind. Mit Einführung der GUIs war damals dem Anschein nach viel gewonnen; auf jeden Fall aber war die Vertracktheit besagter Steuersprachen erfolgreich der Wahrnehmung der Anwender entzogen worden – Statistik ließ sich jetzt auf Knopfdruck betreiben. Mit der Frage, …

Berlin Buzzwords 2011 am 06./07. Juni

    Nach dem Erfolg des ersten Events im Jahr 2010 findet am 6. und 7. Juni wieder die Berlin Buzzwords 2011 statt. Organisiert wird die Veranstaltung von Newthinking Communications in Zusammenarbeit  mit Simon Willnauer (Apache Lucene/Solr), Jan Lehnardt (Apache CouchDB) und Isabel Drost (Apache Mahout). Wie im letzten Jahr dreht sich auch 2011 wieder alles um die Themen skalierbare Datenanalyse, Suche und NoSQL Datenbanken. An zwei Tagen wird in einer Vielzahl von Vorträgen unter anderem über „Apache projects Hadoop, Lucene and Solr, scaling search with katta or Elastic search, NoSQL databases such as Apache CouchDB, HBase and MongoDB” gesprochen. Wer mehr zum Ablauf  erfahren möchte, kann einen Blick in das Programm für den 06. Juni und den 07. Juni der Berlin Buzzwords 2011 werfen. Tickets für die Veranstaltung können hier online bestellt werden. Der O’Reilly Verlag unterstützt die Berlin Buzzwords 2011 mit einem Buchpaket. Wir wünschen allen Teilnehmern viel Spaß!

R im praktischen Einsatz: Interview mit Bruno Hopp, Teil 2

In Teil 1 unseres Gesprächs berichtete Bruno Hopp von den Anforderungen, die das Speichern und Nutzbarmachen von riesigen Datenmengen mit sich bringen. In der heutigen Fortsetzung sprechen wir über R, eine Datenbanksoftware, die in den letzten Jahren immer mehr begeisterte Anhänger fand. Die Open Source-Statistiksoftware und Programmiersprache R ist gerade dabei, den Markt für Statistiktools umzuwerfen. Sie nutzen R seit einigen Jahrent. Wie sind Ihre Erfahrungen? Das sind ganz hervorragende! Ich bin auf R aufmerksam geworden, als R noch bei Versionsnummer 1.10 herum dümpelte. Vor Jahren hatte ich für mich privat Linux als leistungs­starkes System entdeckt, aber es gab nur unbedeutende open-source Lösungen für empirischen Datenanalysen. Gretl gibt es für die Ökonometrie (Teil der Wirtschafts­wissenschaften), und Computer-Algebra Systeme wie Octave gibt es auch schon eine Weile. Leider sind sie in den Sozialwissenschaften bisher ungebräuchlich bis unbekannt. Unix und Linux wird oft von Menschen verwendet, die es nicht nur wegen seiner Offenheit schätzen (im Sinne von „kostenlos“), sondern die wirklich wissen, was sie da tun. Da hat man keine Angst, einen C-compiler, Perl oder Python zu …