Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Vícerozměrná analýza dat metodami PCA, FA a CLU
Autoři: Meloun Milan
Rok: 2015
Druh publikace: článek ve sborníku
Název zdroje: Zajištění kvality analytických výsledků: sborník příspěvků
Název nakladatele: Ing. Václav Helán - 2 THETA
Místo vydání: Český Těšín
Strana od-do: 45-66
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Vícerozměrná analýza dat metodami PCA, FA a CLU Vícerozměrná statistická analýza je založena na latentních proměnných, které jsou lineární kombinací původních proměnných. Zdrojová matice dat obsahuje proměnné v m sloupcích a objekty v n řádcích. Data jsou před zpracováním škálována. Cílem je nalézt shluk jako množinu podobných objektů s podobnými proměnnými. Podobnost objektů posuzujeme na základě vzdálenosti (míry) objektů v m-rozměrném prostoru: čím je vzdálenost shluků či objektů větší, tím menší je jejich podobnost. Strukturu a vazby mezi proměnnými vystihují metody snížení dimensionality, metoda hlavních komponent (PCA). Důležitou pomůckou je rozptylový diagram, který zobrazuje objekty, rozptýlené v rovině prvních dvou hlavních komponent. Graf komponentních vah porovnává vzdálenosti mezi proměnnými xi a xj, kde krátká vzdálenost značí silnou korelaci. Dvojný graf pak kombinuje oba předchozí grafy. Objekty lze seskupovat do shluků hierarchicky dle předem zvoleného způsobu metriky (průměrově, centroidně, nejbližším sousedem, nejvzdálenějším sousedem, medianově, mezi těžišti a průměrnou vazbou) a nehierarchicky dle uživatelem vybraných objektů. Výsledkem je vývojový strom čili dendrogram. Metoda hlavních komponent; Faktorová analýza; Analýza shluků
eng Multivariate data analysis methods PCA, FA and CLU Multivariate statistical analysis is based on the latent variables and are linear combinations of the original variables, y = wx + ... + w 1 x1. Source data matrix of vm columns contains variables and objects are in lines. Data are before processing scaled. The goal is to find a cluster as a set of similar objects with similar variables. The similarity of objects are evaluated on distance (degrees) objects in m-dimensional space: the distance of clusters or objects is larger, the greater is their dissimilarity. Structure and relationships between variables describe methods of dimensionality reduction, principal component (PCA). An important tool is a scatter diagram showing the objects, dispersed in the plane of the first two principal components. The graph compares the component weights distances between variables xi and xj, where a short distance indicates a strong correlation. Biplot plot then combines the two previous graphs. Objects can be grouped into clusters according to the hierarchical preselected manner metrics (diametrically, centroidal, nearest neighbor, the farthest neighbor, median, between the centroid and the average bond) and non-hierarchical according to user-selected objects. The result is dendrogram. Principal components; Factor analysis; Cluster analysis