Learning from environmental data : methods for analysis of forest nutrition time series

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Faculty of Information and Natural Sciences | Doctoral thesis (article-based)
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2008-01-18
Major/Subject
Mcode
Degree programme
Language
en
Pages
52, [63]
Series
Dissertations in computer and information science. Report D, 24
Abstract
Data analysis methods play an important role in increasing our knowledge of the environment as the amount of data measured from the environment increases. This thesis fits under the scope of environmental informatics and environmental statistics. They are fields, in which data analysis methods are developed and applied for the analysis of environmental data. The environmental data studied in this thesis are time series of nutrient concentration measurements of pine and spruce needles. In addition, there are data of laboratory quality and related environmental factors, such as the weather and atmospheric depositions. The most important methods used for the analysis of the data are based on the self-organizing map and linear regression models. First, a new clustering algorithm of the self-organizing map is proposed. It is found to provide better results than two other methods for clustering of the self-organizing map. The algorithm is used to divide the nutrient concentration data into clusters, and the result is evaluated by environmental scientists. Based on the clustering, the temporal development of the forest nutrition is modeled and the effect of nitrogen and sulfur deposition on the foliar mineral composition is assessed. Second, regression models are used for studying how much environmental factors and properties of the needles affect the changes in the nutrient concentrations of the needles between their first and second year of existence. The aim is to build understandable models with good prediction capabilities. Sparse regression models are found to outperform more traditional regression models in this task. Third, fusion of laboratory quality data from different sources is performed to estimate the precisions of the analytical methods. Weighted regression models are used to quantify how much the precision of observations can affect the time needed to detect a trend in environmental time series. The results of power analysis show that improving the quality may decrease the time needed for detection of the trend by many years. The data analysis methods developed and applied in this thesis are found to produce results which are understandable for the environmental scientists. They are, therefore, useful for studying the condition of the environment and evaluating the possible causes for changes in it.

Data-analyysimenetelmät ovat tärkeässä osassa ympäristöä koskevan tiedon kartuttamisessa, kun ympäristöstä mitatun datan määrä kasvaa. Tämä väitöskirja kuuluu ympäristöinformatiikan ja ympäristötilastotieteen aloihin. Näillä tieteenaloilla data-analyysimenetelmiä kehitetään ja sovelletaan ympäristödatan analysointiin. Tässä väitöskirjassa tutkittu ympäristödata on aikasarjoja männyn- ja kuusenneulasten ravinnepitoisuusmittauksista. Lisäksi väitöskirjassa on käytetty laboratorioiden laadusta sekä aiheeseen liittyvistä ympäristötekijöistä kuten säästä ja laskeumista mitattua dataa. Tärkeimmät datan analysoinnissa käytetyt menetelmät perustuvat itseorganisoivaan karttaan ja lineaarisiin regressiomalleihin. Ensiksi esitellään uusi itseorganisoivan kartan ryvästysalgoritmi. Sen havaitaan tuottavan parempia tuloksia kuin kaksi muuta itseorganisoivan kartan ryvästysmenelmää. Algoritmia käytetään jakamaan ravinnepitoisuusdata ryppäisiin. Tämän jälkeen ympäristötieteilijät arvioivat tulosta. Ryvästyksen pohjalta mallitetaan metsien ravinteiden ajallista kehitystä ja arvioidaan typpi- ja rikkilaskeuman vaikutusta neulaston kivennäiskoostumukseen. Toiseksi regressiomalleja käytetään tutkimaan, kuinka paljon ympäristötekijät ja neulasten ominaisuudet vaikuttavat muutoksiin neulasten ravinnepitoisuuksissa niiden ensimmäisen ja toisen olemassaolovuoden välillä. Tavoitteena on rakentaa ymmärrettäviä malleja, joiden ennustuskyky on hyvä. Harvojen regressiomallien todetaan suoriutuvan tästä tehtävästä perinteisempiä regressiomalleja paremmin. Kolmanneksi eri lähteistä peräisin olevaa laboratorioiden laatua mittaavaa dataa yhdistetään, ja sen avulla lasketaan analyysimenetelmien tarkkuudet. Painotettuja regressiomalleja käytetään määrittämään, kuinka paljon laboratorioiden laatu voi vaikuttaa trendin havaitsemiseen ympäristöaikasarjoista. Voima-analyysin tulokset osoittavat, että laadun parantaminen voi vähentää havaitsemiseen tarvittavaa aikaa useilla vuosilla. Tässä väitöskirjassa kehitettyjen ja käytettyjen data-analyysimenetelmien todetaan tuottavan tuloksia, jotka ovat ymmärrettäviä ympäristötieteilijöille. Ne ovat siksi hyödyllisiä tutkittaessa ympäristön kuntoa ja arvioitaessa sen muutosten mahdollisia syitä.
Description
Keywords
data analysis, data mining, time series, forest, foliage, nutrient, environmental informatics, environmental statistics, environmental monitoring, clustering, self-organizing map, sparse regression, weighted regression, data-analyysi, tiedonlouhinta, aikasarja, metsä, neulasto, ravinne, ympäristöinformatiikka, ympäristötilastotiede, ympäristönseuranta, ryvästys, itseorganisoiva kartta, harva regressio, painotettu regressio
Other note
Parts
  • Juha Vesanto and Mika Sulkava (2002). Distance matrix based clustering of the Self-Organizing Map. In Dorronsoro, J. R., editor, Proceedings of the 12th International Conference on Artificial Neural Networks (ICANN 2002). Madrid, Spain, 27-30 August 2002. Lecture Notes in Computer Science, volume 2415, pages 951-956. [article1.pdf] © 2002 by authors and © 2002 Springer Science+Business Media. By permission.
  • Mika Sulkava and Jaakko Hollmén (2003). Finding profiles of forest nutrition by clustering of the Self-Organizing Map. In Proceedings of the 4th Workshop on Self-Organizing Maps (WSOM 2003). Kitakyushu, Japan, 11-14 September 2003, pages 243-248. [article2.pdf] © 2003 WSOM'03 Organizing Committee. By permission.
  • Sebastiaan Luyssaert, Mika Sulkava, Hannu Raitio, and Jaakko Hollmén (2004). Evaluation of forest nutrition based on large-scale foliar surveys: are nutrition profiles the way of the future? Journal of Environmental Monitoring, 6 (2): 160-167. [article3.pdf] © 2004 Royal Society of Chemistry. By permission.
  • Sebastiaan Luyssaert, Mika Sulkava, Hannu Raitio, and Jaakko Hollmén (2005). Are N and S deposition altering the mineral composition of Norway spruce and Scots pine needles in Finland? Environmental Pollution, 138 (1): 5-17.
  • Mika Sulkava, Jarkko Tikka, and Jaakko Hollmén (2006). Sparse regression for analyzing the development of foliar nutrient concentrations in coniferous trees. Ecological Modelling, 191 (1): 118-130.
  • Mika Sulkava, Pasi Rautio, and Jaakko Hollmén (2005). Combining measurement quality into monitoring trends in foliar nutrient concentrations. In Duch, W., Kacprzyk, J., Oja, E., and Zadrożny, S., editors, Artificial Neural Networks: Formal Models and Their Applications, Proceedings of the 15th International Conference on Artificial Neural Networks (ICANN 2005). Warsaw, Poland, 11-15 September 2005. Lecture Notes in Computer Science, Part II, volume 3697, pages 761-767. [a rticle6.pdf] © 2005 by authors and © 2005 Springer Science+Business Media. By permission.
  • Mika Sulkava, Sebastiaan Luyssaert, Pasi Rautio, Ivan A. Janssens, and Jaakko Hollmén (2007). Modeling the effects of varying data quality on trend detection in environmental monitoring. Ecological Informatics, 2 (2): 167-176.
Citation
Permanent link to this item
https://urn.fi/urn:nbn:fi:tkk-011176