Improving Integration Quality for Heterogeneous Data Sources
full text: | |
author/s: | Evguenia Altareva |
type: | PHDThesis |
publisher: | Mathematisch–Naturwissenschaftliche Fakultät |
school: | Heinrich-Heine-Universität Düsseldorf |
month: | January |
year: | 2005 |
howpublished: | Online |
Diese Dissertation betrachtet das Problem der Integration von heterogenen semistrukturierten Datenquellen zwecks Bewertung der Integrationsqualität (IQ). Integration solcher Datenquellen führt zu Ergebnissen mit nicht absehbarer Zuverlässigkeit, und keine der vorhandenen Methoden ist in der Lage die Unsicherheiten zu berechnen, die sich in den aufeinanderfolgenden Integrationsschritten aggregieren und die Integrationsqualität beeinflussen. Um die Unsicherheiten zu berechnen, schlagen wir die Benutzung einer etablierten statistischen Methode, der Latent-Class-Analyse (LCA), vor. Diese Methode erlaubt uns, den Einfluss der latenten Faktoren zu analysieren, die mit den Real-Welt Entitäten assoziiert sind. Wir zeigen an Beispielen, wie das vorgeschlagene Framework für die Bewertung und die Verbesserung von IQ verwendet werden kann und gleichzeitig Anwendern, die für die Zuverlässigkeit von Daten zuständig sind, als ein wichtiges Werkzeug dienen kann.
This thesis considers a problem of integrating heterogeneous semi-structured data sources with the purpose of estimating integration quality (IQ). Integration of such data sources leads to results with unpredictable trustworthiness and none of the existing methods is capable of accounting for the uncertainty accumulated over all of the integration steps and affecting integration quality. To compute the uncertainties we suggest using a well-established statistical method Latent Class Analysis (LCA). This method allows to analyze the influence of the latent factors associated with the real-world entities on the set of data. We show on examples how the proposed approach can be used for evaluating and improving IQ giving an important tool to the users concerned with the data's trustworthiness.
This thesis considers a problem of integrating heterogeneous semi-structured data sources with the purpose of estimating integration quality (IQ). Integration of such data sources leads to results with unpredictable trustworthiness and none of the existing methods is capable of accounting for the uncertainty accumulated over all of the integration steps and affecting integration quality. To compute the uncertainties we suggest using a well-established statistical method Latent Class Analysis (LCA). This method allows to analyze the influence of the latent factors associated with the real-world entities on the set of data. We show on examples how the proposed approach can be used for evaluating and improving IQ giving an important tool to the users concerned with the data's trustworthiness.