User Tools

Site Tools


anadat:cs:exercises:cv8

Cvičení 8 - Forward selection a úprava diagramu

Forward selection - postupný výběr prediktorů

Pokud jsme postaveni před problém výběru sady pro studované společenstvo nejdůležitějších prediktorů a nemáme a-priori stanovené hypotézy, obvykle se uchýlíme k postupnému výběru proměnných podle jejich “důležitosti”. Kritériem důležitosti je vysvětlená (adjustovaná) variabilita - R2 a efekt postupně přidávaných proměnných je testován permutačním testem. Klasický postupný výběr se zastaví ve chvíli, kdy již žádný z do modelu ještě nezahrnutých prediktorů není statisticky významný na předem zvolené hladině významnosti (obvykle 5%). Takový postup ale je znám jako příliš liberální, buď výběrem “významného” modelu i ve chvíli, kdy by žádný významný model neměl být nalezen (a tedy zvyšujícím chybu prvního řádu), vedoucí k výběru příliš mnoha prediktorů (a tedy nafukující vysvětlenou variabilitu) (Borcard et al. 2011).

Řešení tohoto problému navrhli Blanchet et al. (2008):

  • Pro zamezení nafouknutí chyby prvního řádu je nejprve otestován globální model se všemi vysvětlujícími proměnnými zahrnutými. Pouze pokud tento test je významný, pokračujeme postupným výběrem nejdůležitějších prediktorů.
  • Abychom omezili riziko, že by do modelu bylo zahrnuto příliš mnoho proměnných, spočítáme adjustovaný koeficient determinace (Adjusted R2) globálního modelu, které použijeme jako druhé kritérium pro zastavení výběru - postupný výběr zastavujeme buď ve chvíli, kdy už žádný další prediktor není významný, nebo pokud by zahrnutí další proměnné vedlo k překročení tohoto R2.

Váš úkol:

  1. Importujte ichtyologická druhová data z řeky Doubs spolu s proměnnými prostředí (listy spe a env).
  2. Na Hellingerově transformovaných druhových datech proveďte postupný výběr nejdůležitějších prediktorů pomocí RDA postupem, který doporučují Blanchet et al. Funkce v R

Úprava ordinačního diagramu

  1. Použijte ordinaci z předchozího úkolu a zobrazte diagram se vzorky, které budou spojeny čárou podle říčního kontinua - od první do poslední lokality. Pozor na lokalitu 8, na které nebyly zaznamenány žádné druhy. Ta z ordinace vypadla, proto také nesmí být v sérii.
  2. Experimentujte s grafy vlastností (attribute plots) a v grafu se vzorky nechejte pomocí velikosti symbolů promítnout abundance 3 vybraných dobře se fitujících druhů.
  3. Pomocí attribute plots zobrazte do ordinačního diagramu zobecněný aditivní model GAM fitu tří vybraných druhů. Použijte Poissonovo rozložení s korekcí pro overdispersion (“quasi přístup”) a nejlepší parsimonní model vyberte pomocí Akaikeho informačního kritéria AIC. Funkce v R
anadat/cs/exercises/cv8.txt · Last modified: 2017/04/18 18:39 by vitek