Publikace detail

Statistické zpracování vodohospodářských dat 5. Výstavba regresního modelu diagnostikami regresního tripletu
Autoři: Meloun Milan
Rok: 2007
Druh publikace: článek v odborném periodiku
Název zdroje: Vodní hospodářství
Název nakladatele: Vodní hospodářství, spol. s r.o.,
Místo vydání: Praha
Strana od-do: 224-230
cze Statistické zpracování vodohospodářských dat 5. Výstavba regresního modelu diagnostikami regresního tripletu Postup hledání regresního modelu je popsán na dvou úlohách kontrolní laboratoře a obsahuje: 1. Návrh modelu začíná vždy od nejjednoduššího modelu, lineárního. 2. Předběžná analýza dat sleduje proměnlivost proměnných na rozptylových diagramech a indexových grafech. Vyšetřuje se multikolinearita, heteroskedasticita, autokorelace a vlivné body. 3. Odhadování parametrů se provádí klasickou metodou nejmenších čtverců, následované testem významnosti parametrů Studentovým t-testem. Střední kvadratická chyba predikce MEP a Akaikovo informační kritérium AIC představují rozhodčí kritéria při hledání nejlepšího regresního modelu. 4. Regresní diagnostika provádí identifikaci vlivných bodů a ověření předpokladů metody nejmenších čtverců. V případě více vysvětlujících proměnných se posoudí vhodnost jednotlivých proměnných pomoci parciálních regresních grafů a parciálních reziduálních grafů. 5. Parametry zpřesněného modelu jsou odhadovány s využitím (a) metody vážených nejmenších čtverců (MVN) při nekonstantnosti rozptylu, (b) metody zobecněných nejmenších čtverců (MZN) při autokorelaci, (c) metody podmínkových nejmenších čtverců (MPN) při omezení kladených na parametry, (d) metody racionálních hodností u multikolinearity, (e) metody rozšířených nejmenších čtverců (MRN) pro případ, že všechny proměnné jsou zatížené náhodnými chybami, a konečně (f) robustních metod pro jiná rozdělení než normální a data s vybočujícími hodnotami a extrémy. Regresní triplet, kritika dat, kritika modelu, kritika metody, regresní metoda, metoda nejmenších čtverců, regresní diagnostika, analýza reziduí, vlivné body, odlehlé body, extrémy, validace nové analytické metody, vícenásobná regresní analýza,
eng Computer-Assisted Statistical Data Analysis: 5. Regression Model Buiding and Testing Using Diagnostic of Regression Triplet Regression models are extremely useful devices for extracting and understanding the essential features of a set of data. These models, however, are nearly always approximate descriptions of more complicated processes. There are a number of common difficulties associated with real datasets. The main one involves the detection and elimination of outliers in the original data. A problem with outliers is that they can strongly influence the model, especially when using least squares criteria, so a several step procedure is required, first to identify whether there are any samples that are atypical of the dataset, then to remove them, and finally to reformulate the model. The method of least-squares LS ensures the acceptable regression model when all three components of regression triplet are fulfilled. When some assumptions are not fulfilled, the LS method is inconvenient. Regression diagnostics introduced in this paper represent the procedure for identification of (a) the data quality for a proposed model, (b) the model quality for a given set of data, and (c) fulfilment of all least-squares assumptions. The main difference between the use of regression diagnostics and classical statistical tests is that there is no necessity for an alternative hypothesis, but all types of deviations from an ideal regression triplet are discovered. Our concept of exploratory regression analysis is based on the fact that "the computer user knows more about the data than the computer". The personal computer serves us as an efficient tool for interactive diagnostics of data, model, and estimation method. The procedure of model building with the help of a PC involves interactive co-operation between the user and computer program. Therefore, formal models that do not have physical meaning should not be proposed and analysed. Generally, data quality has a strong influence on any proposed regression model. This paper describes a series of powerful general diagnostics for detecting observat Regression triplet, data, regression model, regression method, least-squares, regression diagnostics, residual analysis, influential points, outliers, high-leverages, validation of new method, multivariate regression analysis.