Ein Überblick über Verfahren zur Dimensionreduktion
In vielen Bereichen der elektronischen Datenverarbeitung fallen hochdimensionale Daten an, aus denen Informationen gezogen werden sollen. Hierbei treten allerdings mehrere Probleme auf: Im Bereich der Knowledge Discovery und des maschinellen Lernens leiden solchen Daten bei Aufgaben wie Clustering unter dem "Fluch der Dimensionalität". Dieser sagt aus, dass für einen gegebenen Datensatz mit Dimensionalität d gilt, dass der relative Unterschied der maximalen und der minimalen Distanz mit steigendem d immer kleiner wird. Ein weiteres Problem besteht darin, dass hochdimensionale Daten sowohl bei der Speicherung als auch bei der Verarbeitung viel Platz verbrauchen. Ein Ansatz, diese Probleme zu lösen, besteht darin, eine Dimensionreduktion durchzuführen. Hierbei werden Dimensionen der ursprünglichen Daten nicht weiter in Betracht bezogen und so die Daten in einen niedrigerdimensionalen Raum projiziert. Dies soll in einer Art und Weise geschehen, in der möglichst keine wichtigen Informationen verloren gehen. Außerdem gibt es mehrere Varianten zur Reduktion der Dimensionalität. Eine mögliche Unterscheidung ist diejenige in Methoden, die wichtige Dimensionen auswählen (Feature Selection) und in Verfahren, die aus vorhandenen Dimensionen neue, aussagekräftigere berechnen (Feature Extraction). Eine weitere, wichtige Eigenschaft ist diejenige, ob die Verfahren annotierte Trainingsdaten brauchen oder ob sie selbstlernend sind. In dieser Bachelorarbeit sollen Verfahren aus den verschiedenen Kategorien miteinander verglichen werden und die Stärken und Schwächen der einzelnen Methoden herausgestellt werden. Insbesondere soll untersucht werden, welche Verfahren sich für welche Bereiche gut eigenen. Die Arbeit soll dabei die Auswahl und Implementierungen einiger typischer Verfahren der jeweiligen Bereiche umfassen.
Ansprechpartner: echo $arbeit[3]." ".$arbeit[4]?>
Bereich: