Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Statistické zpracování vodohospodářských dat 6. Vícerozměrná klasifikace zdrojů pitné vody metodou hlavních komponent PCA a shluků CLU
Autoři: Meloun Milan
Rok: 2007
Druh publikace: článek v odborném periodiku
Název zdroje: Vodní hospodářství
Název nakladatele: Vodní hospodářství, spol. s r.o.,
Místo vydání: Praha
Strana od-do: 289-296
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Statistické zpracování vodohospodářských dat 6. Vícerozměrná klasifikace zdrojů pitné vody metodou hlavních komponent PCA a shluků CLU Vícerozměrná statistická analýza je založena na latentních proměnných, které jsou lineární kombinací původních proměnných, y = w1 x1+...+wm xm . Zdrojová matice dat obsahuje proměnné v m sloupcích a objekty v n řádcích. Data jsou před zpracováním škálována. Cílem je nalézt shluk jako množinu podobných objektů s podobnými proměnnými. Podobnost objektů posuzujeme na základě vzdálenosti (míry) objektů v m-rozměrném prostoru: čím je vzdálenost shluků či objektů větší, tím menší je jejich podobnost. Strukturu a vazby mezi proměnnými vystihují metody snížení dimensionality, metoda hlavních komponent (PCA). Důležitou pomůckou je rozptylový diagram, který zobrazuje objekty, rozptýlené v rovině prvních dvou hlavních komponent. Graf komponentních vah porovnává vzdálenosti mezi proměnnými xi a xj, kde krátká vzdálenost značí silnou korelaci. Dvojný graf pak kombinuje oba předchozí grafy. Objekty lze seskupovat do shluků hierarchicky dle předem zvoleného způsobu metriky (průměrově, centroidně, nejbližším sousedem, nejvzdálenějším sousedem, medianově, mezi těžišti a průměrnou vazbou) a nehierarchicky dle uživatelem vybraných objektů. Výsledkem je vývojový strom čili dendrogram. Metoda hlavních komponent a tvorba shluků je demonstrována na typické úloze klasifikace zdrojů pitné vody ve vodohospodářské kontrolní laboratoři. PCA, metoda hlavních komponent, Shluková analýza, Dendrogram, Pitná voda, Analýza vody, Graf komponentního skóre, Indexový graf vlastních čísel, Graf komponentních vah, Korelační matice.
eng Computer-Assisted Statistical Data Analysis. 6. Multivariate Classification of Various Sources of Drinkable Water using Principal Component Analysis and Cluster Analysis Multivariate statistical analysis is based on the latent variables which are formed as the linear combination of original variables y = w1 x1+...+wm xm . Data matrix contains objects in n rows and m columns. Before data treatment the data are scaled. Similarity of objects and variables is considered on base on Mahalonobis distance or Euclidean distance in the mdimensional space. The principal components analysis reduces dimensionality and presents objects in two or three dimensions. The plot of components weight shows hidden structure among variables while the scatterplot shows the hidden structure of objects. The cluster analysis leads to clusters which may be plotted in dendrogram. There are two dendrograms available, the dendrogram of variables and the dendrogram of objects. Both statistical techniques are demonstrated on the analysis and classification of various sources of a drinkable water. PCA, Principal Components Analysis, Cluster Analysis, Dendrogram, Drinkable Water, Water analysis, Potable water, Scatterplot, Scree Plot, Components Weight Plot, Correlation matrix.