PD Stefan Bosse
Universität Bremen - Fachbereich Mathematik und Informatik
SS2020
2020-04-24 sbosse@uni-bremen.de |
Schöpfung von Mehrwert: Quelle von Informationen mit Bereitstellung von Daten; Aber auch Bereitstellung von Arbeitsleistung; Sammlung von Gütern
Wahrnehmung von sensorischen Informationen
Wahrnehmung und Interpretation von sensorischen Informationen
Wandler die eine physikalische in eine andere physikalische Größe umwandeln (i.A. elektrisch oder digital)
Funktionen mit einer Eingangs- und Ausgangsschnittstelle zur Weiterverarbeitung und Fusion von Sensorsignalen
Bereitstellung von Arbeitsleistung durch eine größere Gruppe von Menschen die nicht unmittelbar organisiert (sozial verbunden) sind. Aktive Teilnahme an Umfragen kann dazu gehören (d.h. CWS ⊂ CWO)
Erhebung und Erfassung von sensorischen Informationen die durch eine größere Gruppe von Menschen, die nicht unmittelbar organisiert (sozial verbunden) sind, bereit gestellt werden.
CWS mit mobilen Geräten und beweglichen Nutzern → räumliche Veränderung und Ortskontext können eine wichtige Rolle spielen!
Die automatisierte Wahrnehmung sensorischer Informationen soll durch mobile Agenten implementiert werden
Diese Agenten können durch eine universelle Ausführungsplattform auf einer Vielzahl von Computern und mobile Geräten ausgeführt werden
Die Plattformen spannen ein virtuelles Netzwerk auf, dass es den Agenten ermöglicht verschiedene Geräte zu “besuchen”
Dabei sollen die Agenten mit Menschen und Maschinen interagieren
Die Agenten werden in lose gekoppelten Multiagentensystemen durch Divide-and-Conquer und Selbstorganisation ihre Aufgaben erfüllen
Mobile JAMApp
|
|
|
Data Mining ⇔ Knowledge discovery from data (KDD)
Schritte im Data Mining
|
[E] |
|
[www.panoply.io] |
Die Daten sind zentral gespeichert und nicht über viele verschiedene Systeme verteilt → erhöht Performance und den Ãœberblick.
Auch historische Daten, die für die Operativen Systeme meist bedeutungslos sind, werden in einem DW gespeichert, um den Analysen mehr Aussagekraft zu verleihen.
Mehrdimensionale Abfragen auf dem DW sind effizienter als einzelne Abfragen auf den Quellsystemen.
Das DW ist für viele Nutzer zugänglich.
Unabhängigkeit zwischen Datenquellen und Analysesystemen
Es gibt eine Reihe von Data Mining-Funktionen. Dazu gehören
Data Mining-Funktionen werden verwendet, um die Arten von Mustern anzugeben, die in Data Mining-Aufgaben zu finden sind.
Im Allgemeinen können solche Aufgaben in zwei Kategorien unterteilt werden:
Beschreibende Mining-Aufgaben charakterisieren die Eigenschaften der Daten in einem Zieldatensatz.
Vorhersagende Mining-Aufgaben führen eine Reduzierung der aktuellen Daten durch, um Vorhersagen zu treffen.
Die Datenverarbeitung kann klassifiziert werden nach Daten- und Instruktionsströmen (DS/IS)
Kann für netzwerkgekoppelte und verteilte Rechnersysteme adaptiert werden:
Klassischer Ansatz (1) : Zentrale Recheninstanz mit paralleler Datenverarbeitung
Klassischer Ansatz (2) : Verteilte Recheninstanzen (Cloud) mit paralleler Datenverarbeitung
Neuer Ansatz (z.B. Hadoop) : Verteilte Recheninstanzen (Cloud) mit paralleler Datenverarbeitung mit Datenkopplung
Großskalige Datenverarbeitung
Map-Reduce bietet:
function (f: ’a->’b, ’a list) -> ’b list
[a]
function (in_key,in_value) -> (out_key,intermediate_value) list
[a]
function (f:'a*'b->'b, x0:'b, lst;'a list) ->'b
[a]
function (out_key, intermediate_value list) -> out_value list
[a]
Daten werden verteilt im HDFS (Hadoop Distributed File System) abgelegt
Datenblöcke werden mehreren Mappern zugewiesen, die Schlüssel-Wert-Paare ausgeben, die parallel gemischt und sortiert werden.
Der Reduzierungsschritt gibt ein oder mehrere Paare (mit Daten die den gleichen Schlüssel haben) aus, wobei die Ergebnisse im HDFS gespeichert werden
Leistung
In der aktuellen Konfiguration unterstützt Hadoop nur Batch-Datenverarbeitungsjobs. Dies ist beabsichtigt, daher ist es keine Einschränkung für Hadoop selber.
Da jedoch immer mehr Anwendungen großvolumige Datensätze in Echtzeit verarbeiten, wächst die Community, die Map-Reduce für die Echtzeitverarbeitung verwendet, ständig weiter.
Die Unterstützung von Streaming oder Echtzeitdaten ist für Hadoop eindeutig ein Nachteil gegenüber anderen Implementierungen.
Cloud Computing bedeutet die lose Kopplung von Rechnern in einem Netzwerk (Internet) bei dem sich die Konfiguration (Art und Anzahl der Rechner) sowie die Vernetzung dynamisch ändern können
Eine Cloud kann Datenverarbeitungsdienste bereit stellen die über eine (evtl. käufliche) Schnittstelle nutzbar sind → Cloud Services.
Virtualisierung von Speicher und Berechnung spielt eine große Rolle beim Cloud Computing → Ziel: Mobile Agenten!
Beim Cloud Computing, welches auch beim Crowdsensing eingesetzt wird, unterscheidet man verschiedene Klassen:
Cloud Computing stellt Ressourcen und Services für Benutzer zur Verfügung. Die Ressourcen sind über mehrere Rechenzentren skalierbar.
Cloud-Schnittstellen sind ortsunabhängig und können von jedem durch etablierte Schnittstellen wie Webdienste und Internetbrowser genutzt werden.
Durch Cloud-Berechnungen kann QoS für Benutzer in Bezug auf Hardware / CPU, Leistung, Bandbreite und Speicherkapazität garantiert werden.
Die Cloud-Computing-Systeme sind autonom und transparent. Software und Daten in Clouds können jedoch je nach den Anforderungen des Benutzers automatisch rekonfiguriert und zu einer einfachen Plattform konsolidiert werden.
Cloud Computing erfordert keine Investitionen. Benutzer zahlen für Dienste und Kapazität, wenn sie benötigt werden.
Die Daten eines komplexen Datenbanksystems (wie eines digitalen Warenhauses) werden in der Regel durch eine mehrdimensionale Datenstruktur modelliert, die als Datenwürfel bezeichnet wird:
Ein Datenwürfel bietet eine mehrdimensionale Ansicht der Daten und ermöglicht die Vorberechnung und den schnellen Zugriff auf zusammengefasste Daten.
Es können verschiedene Ansichten des Würfels aus aggregierten Daten abgeleitet werden
Z.B. Smart Cities bestehen aus heterogenen Informations- und Kommunikationsarchitekturen und Technologien
Baumstruktur:
Existierende Smart Environments stellen eine Plattform für das Crowdsensing dar
Traditionelle Sensornetzwerke (die anwendungsspezifisch sind) und Crowdsensingsysteme (die eher geenrisch sind) sind ähnlich und können sich ergänzen (Sensordatenfusion)