prédication de la variabilité spatiale de la disponibilité ...résiduelle des unités de surface...
TRANSCRIPT
Prédiction de la variabilité spatiale de la disponibilité en biomasse résiduelle à l’aide de l’apprentissage
automatique
Mémoire
Rhita Ouliz
Maîtrise sur mesure en sciences forestières et informatique Maîtrise ès sciences (M. Sc.)
Québec, Canada
© Rhita Ouliz, 2017
Prédiction de la variabilité spatiale de la disponibilité en biomasse résiduelle à l’aide de l’apprentissage
automatique
Mémoire
Rhita Ouliz
Sous la direction de :
Frédéric Raulier, directeur de recherche
iii
Résumé
La biomasse forestière résiduelle correspond à la biomasse ligneuse laissée sur le parterre de la forêt après une coupe. Cette biomasse peut servir comme source d’énergie renouvelable, à un prix pouvant être, dans certaines conditions, compétitif relativement à d’autres sources d’énergie. Le succès de l’utilisation de ce type de biomasse tient en partie à une gestion efficace de son réseau d’approvisionnement. Ainsi, la gestion du risque de rupture d’approvisionnement de la biomasse forestière résiduelle est essentielle pour garantir le potentiel d’expansion d’un réseau de distribution aux clients.
Le présent mémoire vise à améliorer la rentabilité d’approvisionnement de la biomasse forestière résiduelle par le biais d’une gestion efficace des sources d’erreur relatives à l’estimation de la disponibilité en biomasse. Il s’agit d’estimer la variabilité spatiale de la biomasse résiduelle avec une précision acceptable en optant pour les techniques de l’apprentissage automatique (en anglais, machine learning). L’apprentissage automatique est une tentative pour reproduire la notion d’apprentissage. Il s’agit de concevoir des algorithmes capables d’apprendre à partir des exemples ou des échantillons, afin de prédire les valeurs des cibles.
Dans notre cas d’étude, la méthode KNN nous permettra d’estimer la quantité de la biomasse résiduelle des unités de surface cibles (polygones1) à partir des k placettes2-échantillons voisines. Pour ce faire, nous estimerons, dans un premier temps, la variabilité spatiale de la disponibilité en biomasse résiduelle en utilisant la méthode d’apprentissage automatique k-plus proches voisins (en anglais, k-nearest neighbors : KNN). Nous déterminerons ensuite l’erreur de notre estimation en utilisant la méthode bootstrap. Finalement, nous développerons une spatialisation de la quantité de biomasse forestière résiduelle en tenant compte de l’erreur d’estimation.
Les résultats d’estimation obtenus, dans le cadre de cette recherche, indiquent une précision allant de 59,5 % à 71 % et centrée autour de 65,4 %. Notre méthodologie a permis ainsi d’obtenir des résultats pertinents comparativement à l’étude de Bernier et al. (2010) qui ont estimés le volume de biomasse forestière avec la méthode KNN et ont eu comme résultat une précision d’estimation égale à 19 %. L’utilisation de cette méthode pourra aussi être pertinente pour l’estimation de la biomasse forestière marchande et pour la prédiction de la biomasse forestière totale par essence d’arbres.
1 Voir la définition d’un polygone à l’annexe 1 2 Voir la définition d’une placette à l’annexe 1
iv
Abstract
Residual forest biomass is the woody biomass left over on the forest floor after harvesting. This biomass can be used as a source of renewable energy, at a price that may be, under certain conditions, competitive relative to other energy sources. The success of the use of residual forest biomass depends in part on an effective management of its supply chain. Thus, the risk management of supply disruption of residual forest biomass is essential to ensure the potential for expansion of a customer’s distribution network. This project aims to improve the supply chain profitability of residual forest biomass through effective management of sources of error related to the estimation of the availability of biomass. This is the estimation of the spatial variability of residual biomass with acceptable accuracy by using machine learning techniques. Machine learning is an attempt to replicate the concept of learning. It consists to design algorithms capable to learn from examples or samples in order to predict the values of targets In our case study, the KNN method will allow us to estimate residual biomass of the target area units (polygons) from the k nearest neighbour plots. To this effect, we will estimate initially the spatial variability in the availability of residual biomass using the machine learning method KNN (k nearest neighbours). We then determine the error of our estimation using a bootstrap method. Finally, we will develop the location of the residual forest biomass quantity taking into account the estimation error. The estimation results obtained in the framework of this research indicate an accuracy of 59,5 % to 71 % centred around 65,4 % with an estimation error of 29 % to 34,5 %. Our methodology has yielded relevant results compared with the study of Bernier et al. (2010) which has had accuracy of estimation equal to 19% of forest biomass volume using the KNN method. The use of this method may also be relevant for estimating the commercial forest biomass and for the prediction of forest biomass of each tree species.
v
Table des matières
Résumé .................................................................................................................................. iii
Abstract ................................................................................................................................. iv
Liste des figures ..................................................................................................................... vii
Liste des tableaux ................................................................................................................. viii
Remerciements ...................................................................................................................... ix
1. INTRODUCTION ............................................................................................................... 1
1.1. Contexte .................................................................................................................. 1
1.2. Revue de littérature ................................................................................................. 3
1.2.1. Méthodes d’estimation de la quantité de la biomasse forestière .......................... 4
1.2.2. La méthode d’apprentissage automatique KNN .................................................... 5
1.3. Problématique ......................................................................................................... 6
1.4. Objectifs de la recherche .......................................................................................... 7
2. MÉTHODOLOGIE .............................................................................................................. 8
2.1. Aire d’étude ............................................................................................................. 8
2.2. Description des données forestières ...................................................................... 10
2.3. Estimation de la biomasse résiduelle ...................................................................... 12
2.3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes ............. 13
2.3.1.1. Calcul de la quantité de biomasse résiduelle d’un arbre ................................. 14
a. Estimation de la biomasse forestière résiduelle des arbres commerciaux ................... 14
b. Estimation de la biomasse totale des arbres non commerciaux .................................. 15
2.3.1.2. Calcul de quantité de biomasse résiduelle par placette................................... 15
2.3.2. Prédiction de la biomasse forestière résiduelle au niveau des polygones avec la
méthode d’apprentissage automatique KNN ..................................................................... 16
2.3.2.1. Utilisation de la méthode des k plus proches voisins KNN ............................... 16
2.3.2.2. Estimation de la biomasse forestière résiduelle avec KNN .............................. 17
a. Détermination des paramètres les plus corrélés avec la biomasse forestière totale ... 17
b. La métrique de distance adéquate : Distance de Gower ............................................. 18
c. L’estimation de la biomasse forestière résiduelle des polygones à partir des k placettes
voisines ............................................................................................................................. 18
d. Détermination de la valeur de k ................................................................................. 19
2.3.3. Estimation de la précision du calcul de la biomasse résiduelle avec Bootstrap .... 19
2.4. Lien entre la précision et la stratification ................................................................ 21
2.5. Localisation de la biomasse forestière résiduelle demandée .................................. 21
vi
3. RÉSULTATS .................................................................................................................... 22
3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes ................ 22
3.1.1. Estimation de biomasse de la partie non marchande de la tige ........................... 22
3.1.2. Estimation de la biomasse de la couronne des arbres commerciaux ................... 23
3.1.3. Estimation de la biomasse des arbres non commerciaux .................................... 23
3.1.4. La biomasse résiduelle demandée ...................................................................... 24
3.2. Estimation de la biomasse forestière résiduelle au niveau des polygones avec la
méthode KNN .................................................................................................................... 24
3.2.1. Les paramètres les plus corrélés avec la biomasse .............................................. 24
3.2.2. La détermination de la valeur de k (nombre des voisins les plus proches) ........... 25
3.2.3. La biomasse résiduelle prédite avec KNN............................................................ 27
3.3. Validation de la méthode d’estimation avec la méthode bootstrap ........................ 28
3.3.1. Estimation de la précision de la biomasse forestière avec bootstrap................... 28
3.3.2. Calcul du coefficient de variation........................................................................ 29
3.4. Spatialisation de la biomasse forestière résiduelle ................................................. 30
4. DISCUSSION ................................................................................................................... 34
5. CONCLUSION ................................................................................................................. 35
Annexe 1 : Terminologie ........................................................................................................ 36
Annexe 2 : La relation entre la biomasse forestière et le DHP ............................................... 37
Annexe 3 : Les paramètres cartographiques et climatiques.................................................... 40
RÉFÉRENCES ......................................................................................................................... 41
vii
Liste des figures
Figure 1 : Territoire d’étude (L’unité d’aménagement forestier 035-51) – en noir .............................................. 8
Figure 2 : Schéma explicatif de la méthodologie d'estimation de la biomasse résiduelle ............................... 12
Figure 3 : Les composantes de la biomasse forestière, le volume marchand et le tronc à 9 cm au fin bout
de la tige ................................................................................................................................................................ 13
Figure 4 : La masse marchande en fonction de la masse totale de la tige au niveau des placettes .............. 23
Figure 5 : La biomasse totale en fonction de la biomasse résiduelle ................................................................ 24
Figure 6 : Résultats de la prédiction de la biomasse totale pour k dans {1, 4, 8, 20} ...................................... 26
Figure 7 : Variation du taux d’erreur quadratique moyenne, du taux de biais et de la précision R²% par
rapport à la valeur de k ......................................................................................................................................... 27
Figure 8 : La biomasse résiduelle observée en fonction de la biomasse résiduelle prédite ............................ 27
Figure 9 : La variation du biais, l'erreur quadratique moyenne, et la précision ................................................ 28
Figure 10 : Histogramme de coefficient de variation à l’échelle des polygones et des parcelles .................... 30
Figure 11 : La carte représentant la variabilité spatiale de la densité de biomasse forestière résiduelle
moyenne disponible entre 2008 et 2018 au niveau des polygones .................................................................. 32
Figure 12 : La carte représentant la variabilité spatiale du coefficient de variation entre 2008 et 2018 au
niveau des polygones ........................................................................................................................................... 33
Figure 13 : Schéma illustratif de la stratification d’un territoire forestier fictif .................................................... 36
Figure 14 : La biomasse totale de la tige des essences d’arbres commerciaux et la biomasse marchande
en fonction du DHP pour deux essences dominantes de notre étude : l’épinette noire (EPN) et le sapin
baumier (SAB) ...................................................................................................................................................... 37
Figure 15 : La masse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en
fonction du DHP .................................................................................................................................................... 38
Figure 16 : La relation entre la biomasse de la couronne des essences commerciales et le DHP................. 38
Figure 17 : La biomasse totale des essences d’arbres non commerciaux en fonction du DHP...................... 39
viii
Liste des tableaux
Tableau 1 : Les intervalles de variation des paramètres climatiques .................................................................. 9
Tableau 2 : Les essences d’arbres dominantes de notre base de données .................................................... 11
Tableau 3 : Les essences d’arbres non commerciaux retenues pour notre étude ........................................... 23
Tableau 4 : Les paramètres les plus corrélés avec la biomasse forestière ...................................................... 25
Tableau 5 : Les extremums, la moyenne et la médiane du biais, l’erreur et la précision de nos prédictions . 29
Tableau 6 : Les paramètres cartographiques et climatiques ............................................................................. 40
ix
Remerciements
Comme pour la majorité des travaux académiques, ce mémoire fut l’objet de recherches étendues et d’un travail de longue haleine. Sa réalisation, dans des conditions parfois difficiles, du fait d’une période de maladie, fut achevée grâce à l’appui de ma famille principalement, de mes amis et de l’équipe de l’Université Laval, que je remercie chaleureusement. J’ai eu la chance de travailler avec des chercheurs et des étudiants qui ont enrichi mon expérience formatrice à l’Université Laval.
J'adresse mes remerciements aux personnes qui m'ont aidée dans la réalisation de ce mémoire. En premier lieu, ma gratitude va à mon directeur de recherche, M. Frédéric Raulier, qui a su me guider habilement tout au long de mes travaux, mais son sens aigu de la pédagogie m’aura aussi permis d’évoluer grandement.
Je tiens à remercier en plus mes codirecteurs de recherche M. Luc Lebel et M. Jonathan Gaudreault, qui m’ont honorée de leur confiance en mes habiletés. J’ai particulièrement été impressionnée par leur enthousiasme pour ce sujet, leurs qualités scientifiques et humaines. De plus, leur patience, leur écoute attentive et leurs nombreuses lectures et corrections de mes textes m’ont permis d’apprendre beaucoup et de m’améliorer en rédaction. Puissent ces lignes être l’expression de ma plus profonde reconnaissance.
Merci à vous tous.
Je voudrais encore remercier le professionnel de recherche, M. Hakim Ouzennou, pour son aide plus que précieuse dans l’élaboration de cet ouvrage de recherche.
J'adresse mes remerciements à mes collègues ainsi que toute l’équipe de recherche du laboratoire FORAC et ceux du CEF pour leur soutien et encouragement, je remercie mes collègues du laboratoire GRAAL pour leur partage de connaissances et leur aide.
Je remercie encore les membres de la Fédération québécoise des coopératives forestières, principalement M. Simon St-Onge.
Je remercie aussi M. Daniel Lesieur, le professionnel de recherche du CEF, qui m'a aidée en me fournissant des données précises sur mon aire d’étude.
1
1. INTRODUCTION
1.1. Contexte
Le développement et l’implémentation des énergies renouvelables sont le centre d’intérêt de
différents pays. L’Agence internationale de l’énergie prédit que la filière d’énergie renouvelable
garantira 30 % de l’énergie utilisée sur la planète d’ici 2050. Selon le même organisme, c’est cette
filière d’énergie renouvelable qui progressera le plus à l’horizon 2030 (Hydro-Québec, 2014).
Le Canada se veut actif dans le développement des énergies renouvelables. Ce pays dispose des
ressources abondantes qui permettent d’assurer la production de l’énergie renouvelable,
comme l’eau en mouvement, les énergies éoliennes et la biomasse (Liming et al. 2008). Selon
Ressources naturelles Canada (2016), ces sources d'énergie représentent 18,9 % de
l'approvisionnement en énergie primaire totale du pays. En 2014, le Canada disposait de 70
centrales fonctionnant à la bioénergie et d’une capacité de production d'électricité totale de 2 043
mégawatts. La majorité de ces centrales utilisaient la biomasse de bois produite par les usines de
pâtes et papiers, de liqueur résiduaire et de gaz d'enfouissement (Ressources naturelles Canada,
2016). De plus, 4,4 % de l’énergie primaire consommée provient, directement ou indirectement, de
la biomasse forestière. Bref, la biomasse représente la deuxième source d’énergie renouvelable,
après l’énergie hydraulique (Hydro-Québec, 2014).
Lors de la Conférence des ministres de l’Énergie et des Mines, organisée en août 2014, toutes les
provinces canadiennes se sont prononcées en faveur de la mise en place de politiques et de
mesures incitatives visant à développer et adopter les technologies permettant la production
d’énergie renouvelable (Ressources naturelles Canada, 2014). À ce titre, le gouvernement du
Québec a lancé, le 7 avril 2016, sa politique énergétique, une politique dont la vision est : « Faisons
du Québec, à l’horizon 2030, un chef de file nord-américain dans les domaines de l’énergie
renouvelable et de l’efficacité énergétique, et bâtissons ainsi une économie nouvelle, forte et à faible
empreinte carbone » (Gouvernement du Québec, 2016).
Étant donné l’importante disponibilité des ressources et la maturité du procédé d’implémentation des
énergies renouvelables adopté au Québec, la biomasse forestière est la catégorie de matière
organique la plus souvent valorisée (Hydro-Québec, 2014). En effet, « dans une centrale de
cogénération (électricité et vapeur) à la biomasse forestière, de 30 à 35 % de l’énergie de la
2
biomasse solide (cycle vapeur) peut être convertie en électricité. En utilisant à diverses fins la chaleur
produite, le rendement total peut dépasser 80 % » (Hydro-Québec, 2014).
Les études sur les ressources de l’énergie alternatives favorisent le développement et
l’implémentation des énergies renouvelables, et ce, à l’échelle mondiale (Fernández et al., 2016 ;
Field et al., 2008). Plus particulièrement, la bioénergie représente des avantages environnementaux
intéressants, tels que le fait d’atténuer les causes des changements climatiques et de briser la
dépendance courante aux combustibles fossiles (Weldu et al. 2016 ; Field et al. 2008). Cette forme
d’énergie peut être produite à partir de ressources renouvelables comme la biomasse forestière. À
noter que la biomasse forestière est la matière produite par la croissance des plantes ligneuses
(Demirbas, 2001), alors que la biomasse forestière résiduelle est la biomasse résultant des activités
de récolte. Cette dernière se compose de rémanents, branches, cimes, parties d’arbres non
commerciaux, rameaux et feuillage (Vision Biomasse Québec, 2015). La biomasse forestière
résiduelle peut remplacer les combustibles fossiles, notamment dans la production de la bioénergie
et des bioproduits (Cambero et al., 2014). La production de la bioénergie avec la biomasse forestière
résiduelle est moins nocive pour l’environnement que les combustibles fossiles, étant donné que le
gaz carbonique dégagé lors la décomposition ou la combustion du bois est compensé par celui
absorbé par les arbres pendant leur croissance (Centre de recherche industrielle du Québec, 2006).
La rentabilité de la récolte de biomasse forestière résiduelle reste toutefois marginale, à cause de la
complexité des systèmes et outils de récupération des résidus forestiers utilisés lors de la récolte
(Centre de recherche industrielle du Québec, 2006). Le succès de l’utilisation de cette biomasse
dépend d’une gestion efficace de son réseau d’approvisionnement (Hydro-Québec, 2014).
Un réseau d’approvisionnement de biomasse comprend l’ensemble des phases par lesquelles passe
la biomasse avant d’arriver au client, à savoir la récolte, le ramassage, le séchage, la transformation,
l’entreposage, le conditionnement et la livraison. Le but du réseau est de réduire les stocks, de
diminuer les coûts, de faire progresser la commercialisation du produit et d’améliorer la souplesse
de production (Conseil canadien sectoriel de la chaîne d'approvisionnement, 2016 ; Bureau du
forestier en chef, 2013). La gestion efficace du réseau d’approvisionnement de biomasse demande
une planification forestière qui se base sur les données de la disponibilité de la biomasse, ce qui
permet d’éviter toute rupture éventuelle d’approvisionnement. Ce risque de rupture pourrait être dû,
entre autres, aux erreurs d’estimation de la disponibilité des bois ou à une mauvaise performance
des activités d’aménagement forestier, ce qui nuit considérablement au réseau d’approvisionnement
3
des usines (Bureau du forestier en chef, 2013). Il est ainsi important de bien gérer le risque de rupture
d’approvisionnement relativement aux sources d’erreur de l’estimation de la quantité de biomasse.
La garantie d’approvisionnement nécessite l’estimation de la quantité de biomasse disponible qui
pourrait être récoltée annuellement de façon durable pour approvisionner une usine de
transformation. Étant donné que le fonctionnement de l’écosystème forestier est complexe et que
toute prédiction représente un sujet d’incertitude, l’efficacité du réseau d’approvisionnement de la
biomasse forestière résiduelle est en lien avec le niveau de précision de l’estimation de la
disponibilité de cette biomasse résiduelle (Bureau du forestier en chef, 2013).
L’erreur d’estimation de la biomasse provient non seulement de la méthode d’estimation de la
biomasse, mais aussi des méthodes d’échantillonnage, de la stratification du territoire, des erreurs
de mesure, des données aberrantes des échantillons et de la perte d’informations lors de la
construction du modèle de calcul (Bernier, 2010).
De nombreux projets de prédiction des quantités de biomasse forestière disponibles utilisent les
méthodes d’estimation statistique classique, qui reposent sur le fait de créer un modèle
mathématique à partir d’une base de données. Ces méthodes ne sont efficaces que pour des
d’échantillons limités, étant donné que la conception d’un modèle mathématique prend en compte
la taille et la dimension des échantillons (Fassnacht et al. 2014). Pour leur part, les méthodes
d’apprentissage automatique se basent sur des tailles d’échantillons importantes. De plus, elles
nécessitent moins d’hypothèses que les méthodes de statistiques classiques et sont adaptées aux
cas où les paramètres explicatifs sont nombreux (Besse, 2005).
Sur le plan de la pratique, l’estimation de la biomasse forestière dépend de la stratification du
territoire, qui à son tour dépend des paramètres de peuplement des cartes écoforestières et des
placettes d’inventaire forestier. Cette estimation est utilisée pour la planification des stratégies
d’aménagement forestier sur le territoire public ainsi que pour organiser les opérations forestières.
1.2. Revue de littérature
Nombreuses sont les études qui traitent le sujet de prédiction de la biomasse forestière et une grande
majorité de ces études mesurent la quantité de biomasse forestière avec des méthodes statistiques.
Les méthodes d’apprentissage automatique sont aussi utilisées dans ce domaine, mais pas autant
que les modèles statistiques. La comparaison de ces études s’avère difficilement possible vu la
4
diversité non seulement des méthodes, mais aussi des sources de données , des aires d’étude et
des normes de modélisation (Fassnacht, 2014).
1.2.1. Méthodes d’estimation de la quantité de la biomasse forestière
L’étude comparative des méthodes d’estimation de la quantité de la biomasse forestière de
Fassnacht (2014) a identifié les cinq méthodes de prédiction les plus couramment utilisées en
foresterie ; elle a comparé la performance de ces méthodes en estimation de biomasse en faisant
varier les sources de données (les capteurs de télédétection), ainsi que la taille des données de
référence. Selon Fassnacht (2014), les méthodes les plus fréquemment utilisées sont premièrement
les modèles linéaires (LM3), deuxièmement les méthodes basées sur le principe des plus proches
voisins (KNN4), en troisième place on retrouve une méthode d’apprentissage automatique nommée
machines à vecteurs de support (SVM5), en quatrième position il y a les méthodes d’estimation de
la forêt aléatoire (RF6) et enfin, les méthodes basées sur le processus gaussien (GP7). La
performance de ces modèles est évaluée par R² (corrélation entre les observations et les prévisions),
et la racine carrée de l’erreur quadratique moyenne (REQM).
Pour comparer la performance des cinq méthodes d’estimation de biomasse forestière citées dans
le paragraphe précédent, Fassnacht (2014) a utilisé trois sources de données différentes de
télédétection. Les quatre méthodes SVM, KNN, GP et LM ont un R² entre 0,2 et 0,45. En
comparaison, la méthode RF a un R² centré autour de 0,55 avec une distribution très variable qui va
de 0,2 à 0,7. Dans cette étude, la REQM est de 45 à 66 t/ha, ce qui est l’équivalent de 27 % à 53 %.
Dans une autre étude comparative, de ces mêmes méthodes d’estimation de la biomasse forestière,
Latifi (2015) a utilisé 297 placettes de l’inventaire écoforestier de 2006. La précision de ses
estimations R² varie en général entre 0,17 et 0,4 et la racine carrée de l’erreur quadratique moyenne
RMSE est situé dans l’intervalle allant de 44 t/ha à 77 t/ha comme meilleures performances. Une
tendance d'amélioration de performance du modèle a été constatée avec l'augmentation du nombre
d'échantillons d'entrée. En outre, la méthode d’estimation de la forêt aléatoire RF a démontré des
performances plus élevées, comparativement aux autres méthodes d’estimation. En général, des
3 LM: Linear Models 4 KNN: K-Nearest Neighbor 5 SVM: Support Vector Machines 6 RF: Random Forest 7 GP: Gaussian Processes
5
améliorations ont été observées pour les valeurs médianes des paramètres statistiques de chaque
méthode de prédiction individuelle dans toutes les tailles d'échantillons appliquées.
Latifi (2015) a comparé les résultats des cinq méthodes d’estimation citées ci-dessus en utilisant
divers types de données, il a conclu que la complexité du modèle ou de la méthode ne garantit pas
sa performance ; la précision de toutes ses estimations n’a pas dépassé 45 %. Par comparaison,
l’étude de Fassnacht (2014), effectuée dans le but d’étudier la performance des méthodes selon le
type de données, a rapporté une précision qui atteint 48 %. Pour chacune de ces deux études, nous
pouvons comparer le KNN par rapport aux autres méthodes d’estimation, par contre il n’est pas
évident de comparer les résultats des recherches de Latifi (2015) et Fassnacht (2014) par rapport à
notre étude, étant donné que les sources de données ne sont pas identiques.
Récemment, la méthode KNN est devenue de plus en plus utilisée dans l’estimation de différentes
variables en sciences forestières. À titre d’exemple, McRoberts (2012) a estimé des paramètres
forestiers pour les petites zones en utilisant des techniques des k plus proches voisins.
Particulièrement, dans l’estimation de la biomasse forestière, Bernier (2010) a utilisé la méthode
KNN pour prédire le volume marchand, il a obtenu des résultats dont le facteur de précision R² se
situe de 16 % à 19 % avec une erreur de 50 à 79 m³/ha (c’est-à-dire un ratio d’erreur quadratique
moyenne de 39 % à 43 %). Fehrmann (2008) a aussi utilisé KNN pour estimer la biomasse d’un
arbre individuel, ses estimations sont avec une précision de 16,4 % pour l’épinette et 14,5% pour le
pin.
Dans le cadre de cette étude, nous avons priorisé une méthodologie d’estimation de la biomasse
forestière résiduelle basée sur la méthode d’apprentissage automatique KNN. Sachant qu’un taux
de 19 % est la précision d’estimation obtenue par Bernier et al. (2010) lors de leur estimation du
volume de biomasse forestière à l’échelle des polygones d’un territoire de 4 126 km² en utilisant
KNN, nous pensons qu’une méthodologie peut être développée afin d’estimer la quantité de
biomasse résiduelle avec une précision plus importante.
1.2.2. La méthode d’apprentissage automatique KNN
L’apprentissage automatique vise à reproduire la notion d’apprentissage en développant des
algorithmes capables d’apprendre à partir des exemples ou des échantillons afin de prédire les
valeurs des cibles (Gammerman, 2010). La méthode d’apprentissage automatique utilisée , dans le
cadre de notre étude, est celle dite des k-plus proches voisins, connue sous le sigle KNN (k-nearest
6
neighbors, en anglais). C’est une méthode d’imputation supervisée dont l'algorithme consiste à
prédire une cible numérique en se basant sur sa similarité par rapport aux cas disponibles. Cette
similarité est mesurée par une des fonctions de distance (Mitchell, 1997).
Il y a deux types de problèmes de prédiction, les problèmes de classification et les problèmes de
régression. Dans un problème de classification, les classes sont formées selon les densités de la
distribution des données d’entrée (les références), et la prédiction de la classe d’une cible consiste
à trouver la classe majoritaire des k plus proches voisins (Denoeux, 1995). Cependant, quand il
s’agit d’une régression, la prédiction de la valeur numérique de la cible consiste à calculer soit la
moyenne ou la moyenne pondérée des valeurs des K plus proches voisins. Ainsi, la méthode KNN
régression et la classification avec KNN utilisent les mêmes fonctions de distance, telle que la
distance euclidienne (Mitchell, 1997).
En effet, il est possible d’utiliser la méthode KNN régression pour estimer la quantité de biomasse
résiduelle d’une unité de surface cible (le polygone) à partir de la moyenne pondérée des quantités
de biomasse résiduelle des unités de surface de référence les plus similaires (les placettes, étant
donné qu’une placette représente le polygone de référence). La similarité est mesurée avec la
distance entre les surfaces cibles et les surfaces de référence. Cette distance prend en considération
les paramètres forestiers connus des polygones et des placettes d’inventaire (Bernier, 2010).
La méthode de K plus proches voisins, KNN, peut être utilisé pour tous les types de végétation, que
ce soit pour des estimations restreintes basées sur un nombre limité d'observations sur le terrain à
l’échelle locale, ou pour de grandes applications à l’échelle nationale (Chirici, 2016). La pertinence
de cette méthode, selon le même auteur, dépend de la phase d'optimisation, dont le but est de
sélectionner l'ensemble des paramètres explicatifs, de déterminer la valeur de k et de choisir la
distance multidimensionnelle adéquate aux données (Chirici, 2016).
1.3. Problématique
Notre aire d’étude est située dans une région où l’industrie forestière est active étant donné sa
richesse en biomasse forestière, évaluée à 94 millions de mètres cubes de volume marchand, et à
cause du nombre important des usines de première, deuxième et troisième transformation de bois
et de son usine de production de granules bioénergétiques à partir des résidus organiques (Ministère
de l’Énergie et des Ressources naturelles, 2015). Or, la plus grande partie de l’approvisionnement
de bois de ses usines provenait de l’extérieur du Québec. Ainsi, on conclut que l’offre ne satisfait
7
pas la demande en bois, bien que les ressources forestières soient abondante dans cette région. Ce
déséquilibre est dû aux problèmes au niveau de la récolte de bois. Les coopératives de récolte de
bois de cette région ont constaté que pour trouver la biomasse, plus précisément la biomasse
résiduelle, une quantification précise et une localisation de la biomasse résiduelle sont les clés de
l’amélioration de la rentabilité de leurs activités d’aménagement forestier. D’où vient le besoin de
déterminer non seulement la quantité de biomasse forestière résiduelle avec une précis ion
acceptable, mais aussi la localisation de cette biomasse.
1.4. Objectifs de la recherche
La présente étude vise à déterminer la variabilité spatiale de la biomasse forestière résiduelle, en
tenant compte des sources d’erreurs de calcul. Plus explicitement, l’étude consiste à estimer la
quantité de la biomasse résiduelle avec la méthode d’apprentissage automatique KNN et à élaborer
une carte de localisation de ces quantités de biomasse estimées ainsi qu’une carte de localisation
du coefficient de variation de cette estimation. L’étude vise également à évaluer l’utilisation de la
méthode KNN pour l’estimation de la quantité de biomasse résiduelle des unités de surface cibles
(polygones) à partir d’un certain nombre d’unités de surface échantillons voisines.
Pour ce faire, nous traiterons et validerons tout d’abord les données observées, c’est-à-dire les
placettes échantillons, puis nous analyserons, concevrons, et développerons une solution
informatique basée principalement sur la méthode KNN, afin d’estimer la densité de la biomasse
résiduelle à l’échelle des polygones (5 à 10 ha). Ensuite, nous déterminerons l’erreur de notre
estimation en utilisant la méthode bootstrap. Finalement, nous élaborerons une carte de localisation
de la quantité de biomasse forestière résiduelle avec une tentative de prendre en compte l’erreur
d’estimation.
8
2. MÉTHODOLOGIE
Nous présentons dans un premier temps l’aire d’étude et la description des données forestières. Par
la suite nous expliquons en détail les étapes suivies pour estimer la quantité de biomasse résiduelle.
Finalement, nous déterminons le lien entre la précision et la stratification du territoire forestier, puis
présentons l’outil utilisé pour la localisation de la biomasse forestière résiduelle disponible.
2.1. Aire d’étude
Le territoire d’étude sur lequel notre recherche a été effectuée est l’unité d’aménagement (UA)
03551, représenté en noir à la figure 1. Il est situé dans la région administrative de Chaudière-
Appalaches. Sa localisation géographique est entre les latitudes allant de 46°18’23.49’’N à
47°16’31.36’’N et entre les longitudes allant de 69°37’28.89’’W à 70°39’43.30’’W.
Figure 1 : Territoire d’étude (L’unité d’aménagement forestier 035-51) – en noir
La superficie totale de cette unité d’aménagement est d’environ 118 260 ha, dont 78 % sont
admissibles à la récolte de bois (Bureau du forestier en chef, 2014). L’unité d’aménagement est
localisée à 85 % dans le sous-domaine de l'érablière à bouleau jaune de l’est et à 14 % dans le
sous-domaine de la sapinière à bouleau jaune de l’est. Les types forestiers les plus dominants dans
ce territoire forestier sont les pessières (35 %), les résineux à feuillus (21 %), les sapinières (10 %)
Québec
États-Unis
UA035-51
9
et les érablières rouges (10 %). L’abondance de milieux humides caractérise notre aire d’étude
(Bureau du forestier en chef, 2014).
Le climat de l’aire d’étude est de type continental humide et se caractérise principalement par :
- Des températures moyennes annuelles allant de 1 à 3 °C ;
- Des précipitations annuelles importantes sur tout le territoire, variant de 1139 à 1298 mm ;
- Une saison de croissance dont la durée est de 91 à 206 jours ;
- Des précipitations neigeuses qui oscillent de 320 cm à 350 cm.
Les valeurs des paramètres climatiques de cette région sont issues du logiciel BioSIM présenté par
la suite (Ressources naturelles Canada, 2008). Le tableau 1 présente les valeurs maximales et
minimales de tous les paramètres climatiques.
Tableau 1 : Les intervalles de variation des paramètres climatiques
Paramètres climatiques Unité Minimum Maximum
Degrés-jour °C 1256 1339
Précipitations totales mm 1139 1298
Précipitations à la saison de croissance mm 392 464
Température minimale °C -3 -2
Température maximale °C 6 8
Température moyenne °C 1 3
Température moyenne à la saison de croissance °C 13 13
Jours sans gel Jour 151 216
Saison de croissance Jour 91 206
Dernier jour de gel Jour julien 116 160
Premier jour de gel Jour julien 247 283
Indice d'aridité … 0 0
Précipitations neigeuses dm 32 35
Radiation totale MJ/m² 4676 5037
Les dépôts de surface dans l’unité d’aménagement forestier 035-51 sont majoritairement de type
glaciaire (Direction générale de la Capitale-Nationale et de la Chaudière Appalaches, 2010). « Son
assise rocheuse sédimentaire (schistes ardoisiers, grès et shales) est généralement recouverte de
dépôts de till indifférencié d’épaisseur variable, accompagnés ponctuellement d’épandages fluvio-
glaciaires sableux. Les dépôts de till, qui dominent le plateau appalachien, sont généralement épais
et indifférenciés. Les dépôts fluvio-glaciaires se concentrent, pour leur part, dans les vallées. Enfin,
les affleurements rocheux et les tills minces caractérisent les zones de hautes collines. » (Direction
10
générale de la Capitale-Nationale et de la Chaudière Appalaches, 2010). La pente de ce territoire
varie de 0 à plus de 40 %. L’attitude varie généralement de 400 à 600 m, mais peut aller jusqu’à 900
m dans les zones de hautes collines particulièrement (Direction générale de la Capitale-Nationale et
de la Chaudière Appalaches, 2010).
L’industrie forestière de Chaudière-Appalaches est en développement pour faire de cette région une
capitale de la filière de biomasse forestière (Ministère de l’Énergie et des Ressources naturelles, 2015).
Cette région a une forêt productive accessible étendue sur 10 920 km² qui recèle d’un volume
marchand évalué à 94 millions de mètres cubes. Avec ses 51 scieries, soit 17 % des scieries du
Québec en 2013, elle est la région qui comprend le plus de scieries à la province. De plus, elle
comprend des entreprises de première, deuxième et troisième transformation du bois, une usine de
production de granules bioénergétiques à partir des résidus organiques ainsi qu’une filiale de
bioénergie en cours de développement. Ses usines de première transformation de bois ont
consommé près de 3,8 millions de mètres cubes de bois rond en 2007. Cependant, la majorité de
l’approvisionnement de biomasse de ses usines de transformation de bois provenait de l’extérieur
du Québec. La récolte régionale est d’environ 1,2 million de mètres cubes de bois récoltés en 2011-
2012 (Ministère de l’Énergie et des Ressources naturelles, 2015).
2.2. Description des données forestières
Dans cette étude, nous avons utilisé une base de données produite par la Direction des inventaires
forestiers du ministère des Forêts, de la Faune et des Parcs (MFFP). Cette base de données
comporte des échantillons circulaires couvrant une superficie de 400 m² de la forêt, nommés
« placettes-échantillons » (Direction des inventaires forestiers, 2016). La localisation de ces
placettes est déterminée par la méthode d’échantillonnage du MFFP appliquée au domaine d’étude.
Cette méthode constitue une des étapes d’un plan de sondage dont le but principal vise à connaître
les attributs dendrométriques et écologiques des strates écoforestières (Direction des inventaires
forestiers, 2002). Dans chaque placette-échantillon, plusieurs observations sont effectuées dans le
but de déterminer les caractéristiques du couvert forestier, telles que la composition des essences,
la densité et la hauteur (Direction des inventaires forestiers, 2016).
Le diamètre à la hauteur de la poitrine (DHP) et la hauteur de chaque arbre des placettes seront
utilisés pour le calcul de la quantité de biomasse résiduelle au niveau des placettes. De plus, les
variables cartographiques et celles climatiques des placettes seront aussi utilisées pour estimer la
11
quantité de biomasse au niveau des polygones (0,1 à 167,7 ha). Après avoir analysé et validé les
données des arbres de 1 656 placettes, nous avons pu déterminer les placettes les plus
représentatives de notre aire d’étude. Après analyse, nous avons enlevé 191 placettes jugées
aberrantes. Ainsi, 1 465 placettes seront utilisées dans le cadre de cette recherche, ce qui
représente 48 107 arbres dont les espèces dominantes sont présentées dans le tableau 2. De plus,
notre base de données comporte environ 45 000 polygones dont approximativement 500 polygones
contiennent une ou plusieurs placettes-échantillons, ce qui représente 1 % de notre aire d’étude.
Tableau 2 : Les essences d’arbres dominantes de notre base de données
Nous avons utilisé les variables cartographiques des polygones issues des calculs de possibilité
forestière produites par le bureau du forestier en chef (BFC). Ces données proviennent en effet d’un
programme de couverture photographique. Les variables « cartographiques des polygones
écoforestiers décrivent les caractéristiques du peuplement (ex. : composition, hauteur, densité du
couvert), les conditions biophysiques (ex. : dépôt de surface, drainage), la dynamique forestière (ex.
: végétation potentielle) ainsi que l’historique des perturbations naturelles ou anthropiques » (Bureau
du forestier en chef, 2013). D’un autre côté, nous avons pris en considération les paramètres
climatiques issus du logiciel BioSIM.
Pour estimer des données à caractère climatique à des endroits donnés, BioSIM utilise des bases
de données géoréférencées (latitude, longitude, élévation). Une de ces bases, nommée
« Normales », comprend les températures et précipitations mensuelles moyennes et extrêmes des
valeurs minimales et maximales. Une autre base de données « Quotidiennes » contient les données
météorologiques quotidiennes observées ainsi que les prévisions sur 5 jours qui sont utilisées
seulement dans des conditions en temps réel en cas de nécessité. En effet, BioSIM sélectionne les
sources de données météorologiques adéquates pour chaque endroit localisé, adapte les données
géoréférencées et détermine des valeurs quotidiennes (Ressources naturelles Canada, 2008).
Essence Nom des essences Nombre de tiges
échantillonnées
DHP moyen Nombre de tiges à
l’hectare
Surface
terrière
BOP Bouleau blanc 4925 17,03 6,75% 3,56%
EPN Épinette noire 9546 17,78 30,26% 35,54%
EPR Épinette rouge 3586 20,90 6,09% 5,85%
SAB Sapin baumier 14805 17,25 38,97% 41,37%
THO Thuya occidental 3558 23,10 7,08% 7,38%
Total ---- 48107 19,64 100,00% 100,00%
12
L’utilisation de ces paramètres cartographiques et climatiques des polygones nous permettra de faire
une étude comparative entre les territoires forestiers selon leurs caractéristiques. Ces paramètres
sont listés au tableau 6, à l’annexe 3.
2.3. Estimation de la biomasse résiduelle
Pour estimer la quantité disponible en biomasse forestière résiduelle, nous calculerons tout d’abord
la densité de biomasse résiduelle au niveau de nos placettes-échantillons et, dans un second temps,
nous estimerons la densité de biomasse résiduelle au niveau des polygones et au niveau des
parcelles8 forestières avec KNN. Puis, nous calculerons l’erreur et la précision de cette estimation
avec la méthode bootstrap et, finalement, nous ferons une spatialisation des données estimées et
de leurs coefficients de variabilité (CV) au niveau des polygones et des parcelles. Le schéma à la
figure 2 explique la méthode d’estimation de la biomasse résiduelle suivie.
Figure 2 : Schéma explicatif de la méthodologie d'estimation de la biomasse résiduelle
8 Voir la définition d’une parcelle à l’annexe 1
13
2.3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes
D’un point de vue théorique, la biomasse forestière résiduelle comprend toute la biomasse forestière
non marchande qui pourrait être utilisée dans l’industrie de la bioénergie. La biomasse forestière
résiduelle correspond à la biomasse de l’ensemble de rémanents, de sections de troncs non
commercialisables, de branches, de rameaux (petites branches) et de feuillage. Ces éléments sont
présentés à la figure 3.
Figure 3 : Les composantes de la biomasse forestière, le volume marchand et le tronc à 9 cm au fin bout de la tige
(Source : Alemdag1984, p. 2; Canadian Forest Service, 2005.)
À la demande des partenaires de notre laboratoire, la biomasse forestière résiduelle dans notre
étude se compose de la partie non marchande de la tige (le tronc à 9 cm au fin bout de la tige), la
couronne (composée des branches et du feuillage) des arbres commerciaux ainsi que la biomasse
totale des arbres non commerciaux. Afin d’estimer la biomasse forestière résiduelle d’une placette,
il faut calculer la quantité de biomasse résiduelle pour chaque arbre dans cette placette, puis prendre
la somme de ces quantités de biomasse résiduelle pour avoir celle au niveau de la placette étudiée.
15 cm
9 cm
Volume marchand
Partie non marchande de la tige
DHP
Branches
Feuillage et brindilles
Bois
Écorce
14
2.3.1.1. Calcul de la quantité de biomasse résiduelle d’un arbre
a. Estimation de la biomasse forestière résiduelle des arbres commerciaux
Nous commençons par calculer la quantité de la biomasse de la tige avec écorce, la biomasse de la
couronne et la masse marchande. Nous calculerons par la suite la biomasse de la partie non
marchande de la tige, qui est égale à la biomasse de la tige avec écorce, moins la biomasse
marchande. La biomasse résiduelle des essences d’arbres commerciaux est alors la somme de la
biomasse des couronnes et celle des parties non marchandes de la tige. L’estimation de la biomasse
des espèces d’arbres commerciaux est réalisée à l’aide des équations suivantes (Lambert et al.,
2005) :
woodwoodwood eHDy woodwood 32
1
(1)
barkbarkbark eHDy barkbark 32
1
(2)
stembarkwoodstem eyyy (3)
foliagefoliagefoliage eHDy foliagefoliage 32
1
(4)
branchesbranchesbranches eHDy branchesbranches 32
1
(5)
crownbranchesfoliagecrown eyyy (6)
Avecwoody ,
barky , stemy , foliagey ,
branchesy et
crowny qui sont respectivement la biomasse du tronc,
de l’écorce, du tronc avec écorce, du feuillage, des branches et de la couronne en kg, où D est le
DHP en cm, H est la hauteur en mètre, 1wood , 2wood , 3wood , 1bark , 2bark , 3bark ,
1foliage , 2foliage , 3foliage , 1branches , 2branches , 3branches sont des paramètres de ce
modèle et woode , barke , steme , foliagee , branchese et crowne sont des termes d’erreur.
Pour la biomasse de la partie non marchande de la tige, nous avons calculé la différence entre la
biomasse totale de la tige avec écorce et la biomasse marchande de l’arbre :
lemerchantab_ yyy stemtopstem (7)
15
Où,
topstemy _ : est la biomasse de la partie non marchande de la tige,
stemy : est la biomasse totale de la tige avec écorce estimée avec les équations (1), (2) et (3),
lemerchantaby : est la quantité de biomasse qui correspond à la partie marchande du tronc avec
écorce.
La quantité de biomasse marchande est calculée avec le modèle de prédiction du volume marchand
brut de Perron (2003) en m³. Nous avons converti ce volume marchand en quanti té de biomasse,
en le multipliant par la densité du bois. Les valeurs de la densité ont été extraites des tables de
Jessome (1977).
DensityVoly lemerchantablemerchantab (8)
Avec lemerchantaby qui est la biomasse marchande en kg, Density est la densité du bois en
kg/m3 et lemerchantabVol qui est le volume marchand en m3.
b. Estimation de la biomasse totale des arbres non commerciaux
Étant donné que le modèle de Lambert et al. (2005) permet d’estimer que la biomasse des essences
commerciales seulement, nous avons prédit la quantité de biomasse totale des arbres non
commerciaux par le modèle de Ter-Mikaelian et al. (1997) :
bDaM (9)
Où M est la quantité de biomasse totale en kg, D est le diamètre à la hauteur de la poitrine, a et b
sont des paramètres du modèle.
Après avoir calculé la quantité de biomasse résiduelle au niveau des arbres, nous passons aux
calculs à l’échelle des placettes échantillons.
2.3.1.2. Calcul de quantité de biomasse résiduelle par placette
Pour calculer la quantité de biomasse d’une placette, il suffit de faire la somme des quantités de
biomasse des arbres de la placette, soit :
𝐵𝑖: La quantité de biomasse de la placette i
16
Ni : Le nombre d’arbres dans la placette i
Bij : La quantité de biomasse d’un arbre j de la placette i
La quantité de biomasse en tonnes de la placette i est alors :
𝐵𝑖 = ∑ 𝐵𝑖𝑗
𝑁𝑖
𝑗=0 (10)
La densité 𝜔𝑖 de biomasse d’une placette (en t/ha) est la quantité de biomasse de la placette, divisée
par la surface d’une placette. Sachant que la surface d’une placette est 400 m², dans un hectare, on
aura alors :
𝜔𝑖 = 25𝐵𝑖 (11)
Ces équations, nous permettrons d’estimer la densité de biomasse forestière résiduelle au niveau
des polygones. Pour ce faire, nous avons utilisé la méthode d’apprentissage automatique KNN.
2.3.2. Prédiction de la biomasse forestière résiduelle au niveau des polygones avec la méthode
d’apprentissage automatique KNN
Pour l’estimation de la biomasse résiduelle avec KNN, nous déterminerons tout d’abord les
paramètres les plus corrélés avec la biomasse forestière totale, la métrique de distance adéquate
ainsi que la valeur du nombre de placettes voisines k. Après la détermination de ces éléments clés,
nous serons aptes à estimer la biomasse résiduelle des polygones à partir des k placettes voisines.
Dans cette section, nous expliquerons dans un premier temps la façon avec laquelle nous avons
utilisé la méthode KNN, puis nous détaillerons les étapes de l’estimation avec cette méthode
d’apprentissage automatique.
2.3.2.1. Utilisation de la méthode des k plus proches voisins KNN
Comme le montre la figure 2, la méthode KNN se compose de trois phases, comme pour toute autre
méthode d’apprentissage automatique : une phase d’entrainement, une phase de test et une phase
de validation. Lors de la phase d’entraînement un estimateur est formé à partir de l’apprentissage
avec les données entrées. Dans notre cas d’étude, il s’agit de calculer les distances entre les
polygones et les placettes, en formant une matrice de distances, de même que pour les distances
entre les placettes ; une matrice de distance entre les placettes a aussi été formée. La matrice des
distances entre les placettes nous permet d’estimer alors la biomasse forestière selon le nombre des
placettes voisines. Il reste alors la détermination de la valeur du nombre de placettes voisines k.
17
Pour ce faire, nous estimons la biomasse totale des placettes à partir de leurs placettes voisines
pour k allant de 1 à 20 afin de pouvoir détecter la valeur de k (le nombre de voisins les plus proches)
qui respecte le compromis entre la précision (R²) et l’erreur quadratique moyenne. Une matrice des
placettes voisines de chaque polygone est alors produite. Avec cette matrice, nous pouvons estimer
la biomasse résiduelle au niveau des polygones en calculant la moyenne pondérée des densités de
la biomasse résiduelle. Viens alors la phase de test ; lors de cette étape du programme, nous testons
l’efficacité de notre estimateur en estimant la biomasse résiduelle des placettes à partir de leurs 8
placettes voisines pour 1 000 échantillons Bootstrap de placettes. Cette procédure permet de
calculer la précision de notre estimation, l’erreur quadratique moyenne et le biais. La troisième et
dernière phase, la phase validation, lors de laquelle nous estimons la densité de biomasse résiduelle
par polygone et nous calculons le coefficient de variation des estimations.
Il est à noter que, lors de la phase d’entrainement et la phase de test, nous avons utilisé les densités
de la biomasse forestière totale. Ce qui est dans le but d’avoir un algorithme d’estimation KNN qui
permet de prédire plusieurs mesures liées à la biomasse forestière, non seulement pour la biomasse
résiduelle, mais aussi la biomasse totale et la biomasse selon les espèces d’arbres.
2.3.2.2. Estimation de la biomasse forestière résiduelle avec KNN
Pour déduire la densité de biomasse résiduelle d’un polygone, nous commençons par une étape de
préanalyse des données lors de laquelle nous déterminerons des paramètres d’entrée les plus
corrélés avec la biomasse forestière. Puis, nous ferons appel à la méthode d’apprentissage
automatique KNN dont l’efficacité repose sur l’optimisation de la valeur du nombre de voisins k et
sur le choix de la métrique de distance à utiliser. Cette optimisation est considérée comme étant une
étape indispensable de la phase d’entraînement de l’algorithme KNN.
a. Détermination des paramètres les plus corrélés avec la biomasse forestière totale
L’analyse des données forestières a été effectuée à l’aide de la procédure GLMSELECT de la
plateforme d’étude et analyse statistique SAS. À noter que, selon l’Association des statisticiennes et
statisticiens du Québec, « la procédure GLMSELECT est un croisement entre deux procédures SAS
pour les modèles linéaires : REG et GLM. Ces dernières existent depuis fort longtemps, mais ont
chacune leurs limites. » (Association des statisticiennes et statisticiens du Québec, 2012). Les
critères d’information d’Akaike (AIC) et de Bayes (BIC) (processus de sélection dit « FORWARD »)
ont servi pour sélectionner le meilleur modèle.
18
Certains paramètres ou variables qui interviennent significativement dans l’explication de la valeur
de la distance peuvent être fortement corrélés entre eux, ce qui revient à donner plus de poids à une
information qui se répète dans plusieurs descripteurs. Seuls les paramètres les plus corrélés à la
variable d’intérêt (la quantité de biomasse forestière résiduelle), qui ne sont pas corrélés entre eux,
seront retenus dans le cadre de notre étude.
b. La métrique de distance adéquate : Distance de Gower
La mesure de similarité utilisée entre les polygones cibles et les placettes de référence est la distance
de Gower (1971). Le choix de cette distance est basé sur la nature des valeurs des attributs ou
paramètres cartographiques. Certains de ces attributs sont de type numérique, d’autres de type
catégorique. La distance de Gower prend en considération ces deux types de valeurs de paramètres
des placettes de référence (𝑥𝑟) et les polygones cibles (𝑥𝑐) :
sinon0
observéssont et si1
:numérique r descripteuun pour ou
sinon1
différentssont et si0
:ecatégoriqu r descripteuun pour et
sinon0
observéssont et si1
où/1),(
..
..
.
..
.
..
.
1 1 ...
jcjr
j
jcjr
j
xx
jcjrj
xx
jcjrj
xx
v
j
v
j
j
xx
j
xx
j
xxcr
xxR
xx
d
j
xxd
j
xx
dxxD
cr
cr
cr
crcrcr
Où ),( cr xxD est la valeur de l’indice de non similarité de Gower ; j est un descripteur ; v est le
nombre des paramètres descripteurs ; jxx cr .
est le delta de Kronecker (Legendre et Legendre,
1984) ; j
xx crd . est la distance entre les valeurs du paramètre descripteur j pour les polygones 𝑥𝑟 et
𝑥𝑐 ; 𝑅𝑗 est l’amplitude des paramètres descripteurs.
c. L’estimation de la biomasse forestière résiduelle des polygones à partir des k placettes voisines
La biomasse résiduelle d’un polygone est la moyenne de la densité (tonne/hectare) de biomasse
résiduelle des k placettes les plus semblables à ce polygone, c’est-à-dire les placettes qui ont les
attributs cartographiques similaires ou semblables à ceux du polygone étudié. Ces placettes seront
appelées les placettes voisines.
(12)
19
L’estimation de la biomasse résiduelle des polygones cibles est obtenue par la moyenne pondérée
des biomasses des k placettes de référence les plus proches. La pondération des placettes de
référence est basée sur l’inverse de la distance (Cleveland, 1979 ; Atkeson et al., 1997). Le poids
d’une placette r pour le polygone cible c est calculé comme suit :
rcrc
xxDw
,1
1.
(13)
L’estimation finale de la biomasse résiduelle pour les polygones cibles est calculée par :
k
r
rc
r
k
r
rc
c
w
yw
y
1
.
1
.
ˆ
(14)
Où 𝑦𝑟 est la variable d’intérêt (la biomasse résiduelle) de la 𝑟𝑖è𝑚𝑒 placette la plus proche et k est
le nombre des placettes de référence les plus proches et qui ont été retenues.
d. Détermination de la valeur de k
Le nombre des k placettes les plus proches correspond à celui qui minimise le ratio de l’erreur
quadratique moyenne des estimations (REQM) et maximise la précision R². Il a été déterminé par
validation croisée en suivant les étapes suivantes :
(1) Estimer la densité de biomasse forestière totale de chaque placette en calculant la moyenne
pondérée de ses k placettes voisines ;
(2) Calculer le biais, l’erreur quadratique moyenne REQM et la précision R² ;
(3) Refaire les étapes 1 et 2 pour k allant de 1 à 20 ;
(4) Faire le graphe de variation du biais, de REQM et R² en fonction des valeurs de k ;
(5) Déterminer la valeur de k qui représente un compromis acceptable entre l’erreur, la précision
et le biais.
2.3.3. Estimation de la précision du calcul de la biomasse résiduelle avec Bootstrap
La variabilité des estimations a été représentée par le coefficient de variation (CV). L’utilisation du
coefficient de variation est plus judicieuse étant donné que cet estimateur d’imprécision facilite
20
l’interprétation des résultats. Ce coefficient de variation est défini comme étant le quotient de la
racine carrée de la variance sur la moyenne. Le coefficient de variation a été estimé par une
procédure de bootstrap proposée par McRoberts et al. (2011) :
boot
boot
boot
VarCV
ˆ
)ˆ(
(15)
Où )ˆ(bootVar
est l’estimation de la variance de la biomasse résiduelle moyenne de la distribution
bootstrap obtenue comme suit :
bootn
i
bootbootb
boot
bootn
Var1
2)ˆˆ(1
1)ˆ(
(16)
Où bootn est le nombre d’échantillons bootstrap, boot
b̂ est l’estimation de la biomasse
résiduelle moyenne du 𝑏ième échantillon bootstrap, boot̂ est l’estimation de la biomasse
résiduelle moyenne de la distribution bootstrap obtenue comme suit :
bootn
b
bootb
boot
bootn 1
ˆ1
ˆ
(17)
L’approche de construction des échantillons bootstrap est décrite comme suit :
(1) On fait un tirage avec remise (bootstrap) de 1 465 placettes à partir des 1 465 placettes-
échantillons dont on dispose au départ. Cet échantillon bootstrap est alors utilisé comme jeu
de données de référence pour une analyse KNN.
(2) On calcule la biomasse résiduelle pour chaque polygone, en utilisant les k placettes voisines
les plus proches.
(3) On calcule la biomasse résiduelle moyenne par unité de surface de l’échelle considérée
(parcelle) et si l’unité de surface considérée est le polygone, on saute cette étape.
(4) On répète les étapes (1) à (3) 1 000 fois.
21
(5) On calcule le coefficient de variation de la biomasse résiduelle moyenne (1 000 observations)
par unité de surface (parcelle).
(6) Le coefficient de variation calculé à l’étape (5) est le coefficient de variation bootstrap de la
biomasse résiduelle moyenne pour chaque unité de surface.
2.4. Lien entre la précision et la stratification
Avant d’effectuer un inventaire d’opération (inventaire avant récolte), l’estimation de la biomasse
forestière dépend de la stratification du territoire. Cette stratification est fonction des attributs des
peuplements des cartes écoforestières et des placettes d’inventaire qui sont utilisées pour la
planification des stratégies d’aménagement forestier sur le territoire public. Les objectifs de précision
qui sont visés et qui déterminent l’intensité d’échantillonnage (i.e. le nombre de placettes qui sont
installées) sur le territoire se font à l’échelle des unités d’aménagement forestier (BFEC, 2013).
Toutefois, la précision des estimations est assez faible à l’échelle des peuplements forestiers (5 à
10 ha) (Bernier, 2010).
Selon la démonstration mathématique de Yanagawa (1975), le gain en précision due à la
stratification est assuré pour toute stratification. Ainsi, pour améliorer la précision de nos résultats,
nous avons calculé les quantités de biomasse résiduelle à une échelle plus grande que celle des
polygones, c’est à dire des parcelles.
2.5. Localisation de la biomasse forestière résiduelle demandée
Nous avons utilisé les données des unités de surface géolocalisées afin d’attribuer à chaque unité
l’intervalle dans lequel se trouve la quantité de biomasse forestière résiduelle. Nous avons utilisé
deux unités de surface, les polygones et les parcelles. La localisation de la biomasse sur ces
surfaces a été effectuée à l’aide du logiciel ArcGIS. Le logiciel ArcGIS est un système complet qui
permet de recueillir, organiser, gérer, analyser, communiquer et diffuser des informations
géographiques (ArcGIS, 2016).
22
3. RÉSULTATS
Cette section présente les résultats de l’estimation de la quantité de biomasse résiduelle ainsi que
les cartes de localisation de cette biomasse. La première partie est consacrée aux résultats de calcul
de la biomasse résiduelle au niveau des placettes. La seconde présente les résultats de l’estimation
de la biomasse résiduelle au niveau des polygones et des parcelles avec la méthode KNN. La
troisième sert à estimer la performance de notre méthode de prédiction en calculant le biais, l’erreur
quadratique moyenne et la précision R² avec la méthode bootstrap. La quatrième concerne, quant à
elle, les cartes de la spatialisation de la biomasse forestière.
3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes
La biomasse résiduelle dans notre étude comporte la partie non marchande de la tige des essences
d’arbres commerciaux, la biomasse de leur couronne ainsi que la biomasse totale des essences non
commerciales. Ainsi, dans cette section, nous présentons les résultats d’estimation de chacun de
ces types de biomasse ainsi que les résultats de la somme de toutes ces biomasses, qui représente
la biomasse résiduelle de notre étude.
3.1.1. Estimation de biomasse de la partie non marchande de la tige
Dans un premier temps, nous avons calculé la quantité de biomasse marchande et celle de la
biomasse totale de la tige avec écorce pour tous les arbres de nos placettes-échantillons. La figure
15 à l’annexe 2 représente la relation entre ces deux valeurs pour toutes les essences d’arbre et le
diamètre à la hauteur de la poitrine (DHP) au niveau des arbres. Pour avoir une idée claire sur cette
distribution, la figure 14 à l’annexe 2 représente la distribution de la biomasse marchande et celle de
la tige avec écorce pour les deux essences d’arbres dominantes, c’est-à-dire l’épinette noire (EPN)
et le sapin baumier (SAB).
Dans un second temps, nous avons calculé la biomasse marchande et la biomasse de la partie non
marchande de la tige au niveau de chaque placette. La figure 4 représente la relation entre la
biomasse marchande et la biomasse totale de la tige au niveau des placettes. La différence entre la
valeur de la biomasse marchande et celle de la biomasse de la tige avec écorce donne alors la
biomasse de la partie non marchande de la tige, à 9 cm, que nous cherchons.
23
Figure 4 : La masse marchande en fonction de la masse totale de la tige au niveau des placettes
3.1.2. Estimation de la biomasse de la couronne des arbres commerciaux
Nous avons calculé la biomasse de la couronne des arbres commerciaux avec les équations (4), (5)
et (6) du modèle de Lambert et al. (2005). La figure 16 à l’annexe 2 représente la distribution de la
biomasse de la couronne des arbres commerciaux par rapport au diamètre à la hauteur de la poitrine
(DHP).
3.1.3. Estimation de la biomasse des arbres non commerciaux
Pour les essences non commerciales, nous avons exclu les arbustes (plante ligneuse vivace dont la
hauteur ne dépasse pas 10 m) comme le noisetier à long bec, le viorne cassinoïde et le viorne à
feuilles d’aulne. Nous avons exclu aussi les arbres morts (1 700 arbres). Nous avons pris en compte
les trois essences représentées dans le tableau 3.
Tableau 3 : Les essences d’arbres non commerciaux retenues pour notre étude
Essence Nom en français Anglais Intervalle de DHP
ERE Érable à épis Mountain maple entre 2 à 24 cm
ERP Érable de Pennsylvanie Striped maple entre 2 à 22 cm
PRP Cerisier de Pennsylvanie Pin cherry entre 2 à 36 cm
Ces trois essences d’arbres sont présentes dans 1 381 placettes et la densité de ce type de biomasse
varie de 0 à 199 kg. La figure 18, à l’annexe 2, présente la distribution de la quantité de biomasse
totale des arbres non commerciaux par rapport au diamètre à la hauteur de la poitrine.
24
3.1.4. La biomasse résiduelle demandée
La biomasse résiduelle dans notre étude est alors la somme de la biomasse de la partie non
marchande de la tige et celle de la couronne des arbres commerciaux ainsi que la biomasse totale
des arbres non commerciaux. La distribution de la densité de cette biomasse résiduelle, par rapport
à la densité de biomasse totale des arbres commerciaux au niveau des placettes, est représentée
dans la figure 5. Cette distribution montre qu’au niveau des placettes, les valeurs de biomasse
résiduelle prédites sont toutes très inférieures à la biomasse totale, ce qui est logique.
Figure 5 : La biomasse totale en fonction de la biomasse résiduelle
3.2. Estimation de la biomasse forestière résiduelle au niveau des polygones avec la
méthode KNN
L’estimation de la densité de biomasse résiduelle au niveau des polygones avec KNN demande
principalement la détermination des paramètres les plus corrélés avec la biomasse ainsi que la
précision de la valeur du paramètre k qui représente le nombre de voisins à prendre en compte.
3.2.1. Les paramètres les plus corrélés avec la biomasse
L’analyse des paramètres cartographiques et climatiques via la plateforme d’étude et l’analyse
statistique SAS (effectuée à l’aide de la procédure GLMSELECT) donne les paramètres les plus
corrélés à la variable d’intérêt, c’est-à-dire la quantité de biomasse forestière résiduelle, et qui ne
sont pas corrélés entre eux. Ces paramètres sont listés au tableau 4. Vu que notre territoire d’étude
est restreint, la variabilité des paramètres climatiques n’est pas importante au point d’influencer
considérablement la variabilité spatiale de la biomasse forestière résiduelle et ainsi d’expliquer la
25
disponibilité en biomasse forestière. Alors, aucun des paramètres climatiques n’est retenu comme
des paramètres les plus corrélés avec la biomasse forestière.
Le tableau 4 liste les paramètres les plus corrélés à la biomasse forestière et R² dans ce tableau
représente le cumule des R² des paramètres. Par exemple, le paramètre « classe de hauteur »
(CL_HAUT) explique 51,34 % de la variabilité de la biomasse forestière, et la combinaison des
paramètres CL_HAUT et « classe de densité » (CL_DENS) explique 60,23 % de la biomasse
forestière, ainsi de suite, pour tous les autres paramètres.
Tableau 4 : Les paramètres les plus corrélés avec la biomasse forestière
Paramètre Définition du paramètre Type de
paramètre Unité R² cumulée
CL_HAUT Classe de hauteur des arbres Numérique m 0,5134
CL_DENS Classe de densité Numérique % 0,6023
GR_ESS Groupe d'essences d'arbres Catégorique --- 0,6339
DEP_SUR Dépôt de surface Catégorique --- 0,6394
CL_AGE Classe d'âge des arbres Numérique an 0,6442
TYPE_COUV Type de couvert Catégorique --- 0,6470
CL_DRAI Classe de drainage Numérique --- 0,6501
TYPE_ECO Type écologique Catégorique --- 0,6519
CL_PENT Classe de la pente (Taux d’inclinaison) Numérique % 0,6520
3.2.2. La détermination de la valeur de k (nombre des voisins les plus proches)
Dans la partie de détection du nombre de voisins les plus proches k, inclus dans la phase
d’entraînement de l’algorithme KNN, nous avons utilisé la biomasse totale pour procéder au calcul
du biais, de l’erreur quadratique moyenne et de la précision, afin de déduire ainsi la valeur de k.
Nous avons pris en compte non seulement le changement de la position de la droite de régression
de la distribution (des valeurs observées par rapport aux valeurs prédites), mais aussi l’évolution de
l’erreur quadratique moyenne et la précision R².
La figure 6 représente la distribution de la biomasse totale observée au niveau des placettes (c’est-
à-dire celle calculée avec les équations de Lambert (2005)) par rapport à la biomasse totale prédite
avec KNN au niveau des placettes. Nous remarquons dans cette figure le changement de la position
de la droite de régression de la distribution représentée en rouge par rapport à la droite de régression
idéale D : y = x. Pour des valeurs de k allant de 1 à 8, nous remarquons que la pente de la droite de
régression s’approche de la droite D : y = x. Pour la valeur de k égale à 8, les deux droites sont
26
juxtaposées l’une sur l’autre. Par contre, pour des valeurs de k supérieures à 8, la droite de
régression de la distribution s’éloigne de la droite D.
Selon la variation du taux d’erreur REQM% et de R²% par rapport à la valeur de k, nous pourrons,
donc, déterminer le nombre de placettes voisines k adéquatement. La figure 7 montre que le biais
de notre estimation augmente de 0,26 % à 2,45 %. Elle représente aussi l’évolution de la précision
R² de 37,2 % à 62,8 %. La précision devient plus stable à partir de la valeur 61,56 %. Cependant, le
taux d’erreur quadratique moyenne REQM diminue et devient stable quand k égale 8. Ainsi, la valeur
de k qui représente le meilleur compromis entre le biais, l’erreur et la précision est égale à 8.
Figure 6 : Résultats de la prédiction de la biomasse totale pour k dans {1, 4, 8, 20}
Nous n’avons pas pris les valeurs supérieures à 8 étant donné que plus le nombre de voisins
augmente, plus les calculs deviennent longs En plus, la précision R² et l’erreur quadratique moyenne
deviennent plutôt stables à partir de k égale 8 ; voir la figure 7. En outre, la droite de régression de
la biomasse observée par rapport à la biomasse prédite s’éloigne de la droite de régression idéale
D, comme on le remarque à la figure 6.
27
Figure 7 : Variation du taux d’erreur quadratique moyenne, du taux de biais et de la précision R²% par rapport à la valeur de k
3.2.3. La biomasse résiduelle prédite avec KNN
La figure 8 montre les résultats de notre prédiction. Elle représente la distribution de la biomasse
totale par rapport à la biomasse résiduelle. La droite de régression de cette distribution est
représentée en rouge à la figure 8 et son équation est sous la forme y = 0,99 x + 0,09 : elle est ainsi
très proche de la droite de régression idéale D : y = x. La figure 8 représente un des essais de
prédiction de la biomasse forestière totale au niveau des placettes, avec la méthode KNN entraînée
et validée. Cet essai a donné d’un taux de précision égal à 53,32 %.
Figure 8 : La biomasse résiduelle observée en fonction de la biomasse résiduelle prédite
40,29
1,45
61,56
0
10
20
30
40
50
60
70
0 2 4 6 8 10 12 14 16 18 20
Po
urc
enta
ge
Valeur de k
REQM%
Biais%
R2%
28
3.3. Validation de la méthode d’estimation avec la méthode bootstrap
Dans cette section, nous utilisons la méthode de validation bootstrap, non seulement pour estimer
la précision et l’erreur de notre estimation, mais aussi pour calculer le coefficient de variation de nos
résultats prédits.
3.3.1. Estimation de la précision de la biomasse forestière avec bootstrap
Dans la phase de test, nous avons estimé la précision R², l’erreur quadratique moyenne et le biais
de notre estimation, et ce, via l’estimation de la biomasse résiduelle en utilisant 1 000 échantillons
de placettes issus des itérations bootstrap. Il s’agit d’estimer la densité de biomasse totale pour k
égal à 8 et de calculer le biais, l’erreur et la précision pour chaque itération. La figure 9 présente la
variation de ces trois variables statistiques.
Figure 9 : La variation du biais, l'erreur quadratique moyenne, et la précision
Les résultats d’estimation obtenus lors de notre recherche indiquent une précision allant de 59,5 %
à 71 %, avec une erreur de calcul REQM située de 29 % à 34,5 %. Le tableau 5 résume les résultats
d’estimation de la précision de notre méthode.
29
Tableau 5 : Les extremums, la moyenne et la médiane du biais, l’erreur et la précision de nos prédictions
biais% REQM% R2%
Minimum 0,000 29,009 59,527
Moyenne 1,038 31,882 65,391
Médiane 0,963 31,867 65,398
Maximum 3,487 34,560 71,090
L’algorithme utilisé et la méthodologie suivie en général, nous ont permis d’obtenir des résultats
pertinents au niveau de l’estimation de la biomasse forestière résiduelle, comparativement aux
résultats de l’estimation du volume de biomasse forestière obtenus avec la méthode KNN réalisée
par Bernier et al. (2010) dont la précision d’estimation était de 19 %. Ce succès est dû
particulièrement à la phase de traitement de données durant laquelle nous avons trié nos données
et éliminé les données aberrantes, par exemple des arbres ayant un diamètre à la hauteur de la
poitrine qui dépasse les mesures normales des espèces d’arbres. L’utilisation de cette méthodologie
pourra aussi s’avérer pertinente pour l’estimation de la biomasse forestière marchande ainsi que
d’autres types de biomasse forestière.
3.3.2. Calcul du coefficient de variation
La figure 10 représente le coefficient de variation de notre estimation selon les proportions de
superficies forestières au niveau des polygones ainsi qu’au niveau des parcelles forestières. Au
niveau des polygones, la variabilité des estimations est plus importante qu’au niveau des parcelles.
Pour 95 % de notre superficie forestière, le coefficient de variation se situe de 5 % à 15 % au niveau
des polygones. Pour les parcelles, c’est 97 % du territoire forestier dont le coefficient de variation
varie de 0 % à 5 %.
L’histogramme démontre clairement que la variabilité des estimations diminue quand il s’agit des
unités de surface plus larges (les parcelles). Ainsi, les résultats d’estimation au niveau des parcelles
sont plus précis que ceux au niveau des polygones. Cependant, ces résultats représentent les
densités de biomasse sur une échelle plus vaste, ce qui engendre une perte d’information
géographique sur l’emplacement de la biomasse. Alors que la spatialisation des données estimées
à l’échelle des polygones donne plus d’information sur les endroits où se trouve la biomasse.
30
Figure 10 : Histogramme de coefficient de variation à l’échelle des polygones et des parcelles
3.4. Spatialisation de la biomasse forestière résiduelle
L’amélioration de la rentabilité des activités de récolte de la biomasse demande des données qui
permettent de bien cibler les proportions de territoire offrant un meilleur potentiel de biomasse
forestière résiduelle. Ainsi, nous proposons une carte grâce à laquelle les responsables de la récolte
peuvent établir leur plan de récolte en déterminant les territoires à récolter selon la quantité de
biomasse demandée par le marché. Cette carte est réalisée avec le logiciel ArcGIS, elle permet de
représenter non seulement les densités ou les quantités de la biomasse résiduelle estimées, mais
aussi le coefficient de variation des valeurs estimées. Le coefficient de variation permettra d’avoir
une idée sur l’intervalle de variation de nos estimations, ainsi les responsables de la récolte peuvent
prendre en considération la valeur minimale de la quantité de biomasse résiduelle qu’ils peuvent
trouver.
La figure 11 représente la distribution de la densité de biomasse résiduelle au niveau des polygones
de notre aire d’étude. Dans ce cas d’étude, la majorité des polygones de notre aire d’étude
comprennent une quantité de biomasse résiduelle moyenne de 2,65 t/ha à 30 t/ha, ce qui est
représenté en bleu sur la carte (figure 11). Cependant, il existe des parties du territoire qui
comportent des quantités importantes de biomasse résiduelle allant de 40 t/ha à 60,9 t/ha ; ces
0 5 10 15 20 25 30 35
Polygones 1% 42% 28% 25% 3% 1% 1% 0%
Parcelles 37,27% 60,34% 2,36% 0,04% 0,00% 0,00% 0,00% 0,00%
0%
10%
20%
30%
40%
50%
60%
70%P
rop
ort
ion
de
sup
erfi
cie
fore
stèr
es
Coefficient de variation (%)
Polygones
Parcelles
31
parties sont situées au nord-est et au sud-ouest de notre aire d’étude et elles sont représentées en
rouge, orange et jaune (figure 11).
La précision de ces estimations de biomasse peut être déterminée à l’aide de la carte à la figure 12.
Cette carte représente la localisation du coefficient de variation de la densité de biomasse forestière
résiduelle. Elle montre que le coefficient de variation est majoritairement « moyen », il est de 6 % à
15 % dans la majorité du territoire. Pourtant, ce coefficient est clairement faible (entre 2 % et 5 %)
dans certaines parties du territoire d’étude, précisément aux superficies situées au nord-est et celles
au sud-ouest, dont la couleur rouge est dominante à la figure 12.
Des cibles de récolte intéressantes sont entourées par des cercles rouges dans les deux cartes. Ces
parties de territoire comprennent des quantités potentielles de biomasse résiduelle ; de plus, la
précision de ces estimations est intéressante étant donné que la variabilité des estimations est faible.
De cette façon, les responsables de la récolte peuvent cibler les portions du territoire offrant les
meilleures possibilités d’obtenir les quantités recherchées et ainsi améliorer leur rentabilité.
32
Biomasse résiduelle (t/ha)
Figure 11 : La carte représentant la variabilité spatiale de la densité de biomasse forestière résiduelle moyenne disponible entre 2008 et 2018 au niveau des polygones
33
Coefficient de variation
Figure 12 : La carte représentant la variabilité spatiale du coefficient de variation entre 2008 et 2018 au niveau des polygones
34
4. DISCUSSION
Selon Fassnacht (2014), l'estimation de la biomasse forestière sur de grandes surfaces par des
mesures au sol nécessite un réseau dense de placettes d'inventaire pour atteindre une précision
acceptable. Les méthodes d’apprentissage automatique nous ont permis de prédire la biomasse
résiduelle au niveau d’une grande échelle à partir d’un nombre limité de placettes. Ainsi, nous
n’avons pas eu besoin d’augmenter la densité des placettes-échantillons pour améliorer la précision
de nos résultats. Dans le cadre de notre étude, nous avons utilisé seulement 9 paramètres et 1 465
placettes pour estimer la biomasse forestière résiduelle de plus de 45 000 polygones. Nous avons
obtenu un taux de précision moyen de 65 % et une erreur de 31 %, ce qui est équivalent de 10,5
t/ha (résultats de 1 000 itérations bootstrap).
Nous avons présenté deux études d’estimation de la biomasse forestière avec la méthode des k plus
proches voisins (KNN) provenant de la revue de littérature. Celle de Bernier (2010) qui a prédit le
volume marchand avec la méthode KNN, et eu comme résultat un facteur de précision R² se situe
de 16 % à 19 % avec une erreur de 39 % à 43 %. Quant à celle de Fehrmann (2008), il s’agit de
l’estimation de la biomasse d’un arbre individuel avec KNN, cette estimation a une précision de 16,4
% pour l’épinette et de 14,5 % pour le pin. Cependant, nous avons eu un taux de précision allant de
59,5 % à 71 % et centré autour de 65,4 % dans notre étude d’estimation de biomasse forestière
résiduelle.
La variation de la performance de la méthode KNN entre l’étude de Bernier (2010), celle de
Fehrmann (2008) et notre étude pourrait être due aux pertes d’informations. Le risque de perte
d’information est plus susceptible lors du traitement et de la validation des données d’entrée, lors
l’optimisation des paramètres d’entrée ou lors de la phase d’entraînement de KNN, c’est-à-dire, la
détermination de la valeur de k et le choix de la métrique de la distance appropriée à la nature de
nos données.
35
5. CONCLUSION
Dans notre étude, nous avons, dans un premier temps, calculé la quantité de biomasse résiduelle au niveau
des arbres ; elle se compose de la partie non marchande du tronc à 9 cm, la couronne des essences d’arbres
commerciaux et la biomasse totale des arbres non commerciaux. Nous avons calculé la densité de ce type
de biomasse au niveau des placettes-échantillons. Ensuite, nous avons utilisé la méthode d’apprentissage
automatique KNN pour estimer la densité de biomasse résiduelle dans les polygones. Pour estimer la
performance de l’ensemble de notre modèle, nous avons fait appel à la méthode bootstrap pour estimer les
valeurs du biais, l’erreur quadratique moyenne et la précision R². Finalement, nous avons calculé la variabilité
des résultats avec bootstrap à l’échelle des polygones et à une échelle plus grande, les parcelles. Concernant
la variabilité des résultats, nous avons constaté que la variabilité diminue quand il s’agit d’une échelle plus
vaste.
Dans le but d’améliorer la gestion des activités d’aménagement forestier, nous avons produit non
seulement une carte de localisation des densités de biomasse résiduelle estimées, mais aussi une
carte de localisation de la précision des valeurs estimées. Avec ces données estimées et localisées,
les responsables de la récolte de biomasse peuvent cibler les territoires où la biomasse résiduelle
est potentiellement omniprésente en ayant une idée sur la variabilité de ces estimations. Une
planification de récolte basée sur les estimations localisées permettra de bien gérer les activités de
récolte et d’améliorer ainsi leur rentabilité.
La performance de notre méthodologie réside dans l’obtention d’une précision allant de 59,5 % à 71
% et centrée autour de 65,4 %. Un tel taux de précision peut être utile non seulement pour estimer
la biomasse forestière marchande, mais aussi pour estimer la quantité de biomasse selon les
essences d’arbres. Nous ouvrons la possibilité à l’utilisation d’autres méthodes d’apprentissage
automatique dans le domaine forestier, comme le réseau de neurones artificiels, une méthode
inspirée du fonctionnement des neurones biologiques.
L’utilisation des méthodes d’apprentissage automatique peut donner des résultats pertinents dans
le domaine des sciences forestières. Ces méthodes pourraient améliorer la précision des prédictions
non seulement de la biomasse forestière, mais aussi pour l’estimation d’autres facteurs comme le
taux de carbone à partir des sources de données différentes, telles que les données de télédétection
ou des images satellites. Les application des méthodes d’apprentissage offre donc plus de
possibilités.
36
Annexe 1 : Terminologie
Biomasse forestière résiduelle
La biomasse forestière résiduelle provenant de la récolte forestière se compose de rémanents, de sections
de troncs non commercialisables, de houppiers, de branches, de rameaux et de feuillage (Vision Biomasse
Québec, 2015).
Placette
Une placette est la zone forestière qui entoure un point aléatoirement choisi. On peut dire que c’est un
échantillon de la forêt à partir duquel on détermine plusieurs caractéristiques spatiales de la forêt. Le type de
placettes d’inventaire et la disposition des points d’inventaire influencent tous deux les propriétés statistiques
de l’estimateur du stock de bois sur pied ainsi que le stock de la biomasse (Ministère des Ressources
naturelles et de la Faune, 2012).
Polygone
C’est un espace forestier qui regroupe plusieurs placettes ayant des propriétés équivalentes comme le montre
la figure 13. La carte forestière présente donc les surfaces et la répartition spatiale des strates forestières
photo-interprétées au moyen des polygones/peuplements qui appartiennent à chacune des strates (Ministère
des Ressources naturelles et de la Faune, 2012).
Parcelle forestière
Les parcelles sont des unités de surface qui servent à des fins d’aménagement et d’allocation de la matière
ligneuse. Il s’agit d’une subdivision d’aménagement de territoires publics exploitables en unités territoriales
plus petites délimitées par les lignes que l’on peut facilement reconnaître sur le terrain. Une parcelle est
composée de plusieurs polygones (Ressources Naturelles et Faune Québec, 2007).
Strate
Les strates forestières correspondent aux différentes classes de forêt présentes sur un territoire. La
stratification consiste à découper la forêt à inventorier en zones aussi homogènes que possible du point de
vue de la variabilité de la grandeur à estimer (Ministère des Ressources naturelles et de la Faune, 2012). La
stratification ajoute une variabilité additionnelle aux estimations, qui est reliée à l’incertitude sur les attributs
des strates. Cette incertitude est complexe et comprend des aspects qui vont au-delà de l’exactitude des
attributs (Orzanco, 2006).
Figure 13 : Schéma illustratif de la stratification d’un territoire forestier fictif
37
Annexe 2 : La relation entre la biomasse forestière et le DHP
Figure 14 : La biomasse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en fonction du DHP pour deux essences dominantes de notre étude : l’épinette noire (EPN) et le sapin baumier
(SAB)
38
Figure 15 : La masse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en fonction du DHP
Figure 16 : La relation entre la biomasse de la couronne des essences commerciales et le DHP
39
Figure 17 : La biomasse totale des essences d’arbres non commerciaux en fonction du DHP
40
Annexe 3 : Les paramètres cartographiques et climatiques
Tableau 6 : Les paramètres cartographiques et climatiques
Paramètre Description Type Nature Unité
ORIGINE Année de la perturbation d'origine(plus
de 75 % de la surface d'un peuplement a disparu)
Cartographique Numérique an
GTYF Grand type de forêt Cartographique Catégorique ---
DEP_SUR Dépôt de surface Cartographique Catégorique ---
TYPE_COUV Type de couvert Cartographique Catégorique ---
GR_ESS Groupe d'essences d'arbres Cartographique Catégorique ---
TYPE_ECO Type écologique Cartographique Catégorique ---
CL_DRAI Classe de drainage Cartographique Numérique ---
CL_DENS Classe de densité Cartographique Numérique %
CL_AGE Classe d'âge des arbres Cartographique Numérique an
CL_HAUT Classe de hauteur des arbres Cartographique Numérique m
CL_PENT Classe de la pente de l'unité de surface
d'intérêt (Taux d’inclinaison) Cartographique Numérique %
Elevation Élévation Cartographique Numérique m
Degre_jour Degrés-jour Climatique Numérique °C
Preci_total Précipitation totale Climatique Numérique mm
Preci_saison_croissance Précipitation à la saison de croissance Climatique Numérique mm
T_min Température minimale Climatique Numérique °C
T_max Température maximale Climatique Numérique °C
T_moy Température moyenne Climatique Numérique °C
T_moy_saison_croissance Température moyenne à la saison de
croissance Climatique Numérique °C
Jour_ss_gel Jours sans gel Climatique Numérique Jour
Saison_croissance Saison de croissance Climatique Numérique Jour
Dernier_Jour_gel Dernier jour de gel Climatique Numérique Jour julien
Premier_Jour_gel Premier jour de gel Climatique Numérique Jour julien
Aridite Indice d'aridité Climatique Numérique ---
Préci_Neig Précipitations neigeuses Climatique Numérique dm
Radiation_tot Radiation totale Climatique Numérique MJ/m²
41
RÉFÉRENCES
Association des statisticiennes et statisticiens du Québec. (2012). La chronique SAS – Diviser pour régner avec PROC GMLSELECT. Récupéré le 7 août 2016 du site de l’association des statisticiennes et statisticiens du Québec. http://www.association-assq.qc.ca/2012/05/24/la-chronique-sas-%C2%ABdiviser-pour-regner-avec-proc-gmlselect%C2%BB/
Besse, P. (2005). DATA Mining II. Modélisation Statistique & Apprentissage. Université de Toulouse.
Bernier, P. Y., Daigle, G., Rivest, L. P., Ung, C. H., Labbé, F., Bergeron, C., & Patry, A. (2010). From plots to landscape: a k-NN-based method for estimating stand-level merchantable volume in the Province of Québec, Canada. The Forestry Chronicle, 86(4), 461-468.
Bureau du forestier en chef. (2013). Manuel de détermination des possibilités forestières 2013-2018. Québec, Canada: Martin Côté et al.
Bureau du forestier en chef. (2014), Résultats finaux de l’analyse des possibilités forestières période 2013-2018, Unité d’aménagement 035-51. Québec, Canada: Jean Girard et al.
Cambero, C., & Sowlati, T. (2014). Assessment and optimization of forest biomass supply chains from economic, social and environmental perspectives–A review of literature. Renewable and Sustainable Energy Reviews, 36, 62-73
Canada. Ressources naturelles Canada. (2014). Mobiliser l’avantage énergétique du Canada : Miser sur l’innovation et l’efficacité en matière de technologie énergétique pour favoriser la compétitivité et la prospérité future, Canada : Conférence des ministres de l’Énergie et des Mines. Récupéré le 22 juillet 2016 du site du ministère. http://www.rncan.gc.ca/sites/www.nrcan.gc.ca/files/www/pdf/publications/emmc/14-0174_Mobilizing_Report_f.pdf
Chirici, G., Mura, M., McInerney, D., Py, N., Tomppo, E. O., Waser, L. T. & McRoberts, R. E. (2016). A meta-analysis and review of the literature on the k-Nearest Neighbors technique for forestry applications that use remotely sensed data. Remote Sensing of Environment, 176, 282-294.
Conseil canadien sectoriel de la chaîne d'approvisionnement. (2016). Qu’est-ce qu’une chaîne d’approvisionnement ? Récupéré le 29 juillet 2016 du site du Conseil canadien sectoriel de la chaîne d'approvisionnement. http://www.supplychaincanada.org/fr/chaine-approvisionnement
Demirbaş, A. (2001). Biomass resource facilities and biomass conversion processing for fuels and chemicals. Energy conversion and management, 42(11), 1357-1378.
Denoeux, T. (1995). A k-nearest neighbor classification rule based on Dempster-Shafer theory. IEEE transactions on systems, man, and cybernetics, 25(5), 804-813.
Esri. (2016). Qu'est-ce que ArcGIS ? Récupéré le 28 juillet 2016 du site d’ArcGIS. http://resources.arcgis.com/fr/help/getting-started/articles/026n00000014000000.htm
Fassnacht, F. E., Hartig, F., Latifi, H., Berger, C., Hernández, J., Corvalán, P., & Koch, B. (2014). Importance of sample size, data type and prediction method for remote sensing-based estimations of aboveground forest biomass.Remote Sensing of Environment, 154, 102-114.
42
Fehrmann, L., Lehtonen, A., Kleinn, C., & Tomppo, E. (2008). Comparison of linear and mixed-effect
regression models and ak-nearest neighbour approach for estimation of single-tree biomass. Canadian
Journal of Forest Research,38(1), 1-9.
Fernández, S. T., Sánchez, J. P. P., & Trashorras, A. J. G. (2016). Analysis of forest residual biomass potential for bioenergy production in Spain. Clean Technologies and Environmental Policy, 18(1), 209-218.
Field, C. B., Campbell, J. E., & Lobell, D. B. (2008). Biomass energy: the scale of the potential resource. Trends in ecology & evolution, 23(2), 65-72.
Gammerman, A., & Vovk, V. (2010). Prédictions contrôlées en apprentissage automatique. Revue MODULAD, 16(42).
Gouvernement du Québec. (2016). L’énergie des Québécois – Source de croissance. La politique énergétique 2030. Québec, Canada.
Hydro-Québec. (2014). Filière d’énergie renouvelable - l’énergie de la biomasse. Récupéré le 23 juillet 2016 du site d’Hydro-Québec. http://www.hydroquebec.com/developpement-durable/centre-documentation/pdf/fiche-biomasse.pdf
Jessome, A. P. (1977). Résistance et propriétés connexes des bois indigènes au Canada. Pêches et environnement Canada.
Lambert, M. C., Ung, C. H., & Raulier, F. (2005). Canadian national tree aboveground biomass equations. Canadian Journal of Forest Research,35(8), 1996-2018.
Latifi, H., Fassnacht, F. E., Hartig, F., Berger, C., Hernández, J., Corvalán, P., & Koch, B. (2015). Stratified
aboveground forest biomass estimation by remote sensing data. International Journal of Applied Earth
Observation and Geoinformation, 38, 229-241.
Liming, H., Haque, E., & Barg, S. (2008). Public policy discourse, planning and measures toward sustainable energy strategies in Canada. Renewable and Sustainable Energy Reviews, 12(1), 91-115.
McRoberts, R. E. (2012). Estimating forest attribute parameters for small areas using nearest neighbors techniques. Forest Ecology and Management, 272, 3-12.
Ministère de l’Énergie et des Ressources naturelles, Direction générale du réseau régional, Direction régionale de la Capitale-Nationale et de la Chaudière-Appalaches. (2015). Le Plan d’affectation du territoire public de la Chaudière-Appalaches. Québec, Canada : Beaulieu J-F. et Godbout B. https://mern.gouv.qc.ca/publications/territoire/planification/cartes_chaudiere-appalaches/PATP_chaudiere-appalaches_final.pdf
Ministère des Ressources naturelles, Direction des inventaires forestiers. (2002). Normes d’inventaire forestier - placettes-échantillons temporaires peuplements de 7 m et plus de hauteur. Québec, Canada: Direction des inventaires forestiers (DIF).
Ministère des Ressources naturelles et de la Faune du Québec. Centre de recherche industrielle du Québec (CRIQ) (2006). Profil des produits forestiers – Première transformation – Biomasse forestière résiduelle – Inventaires des méthodes et équipements de récupération ainsi que des systèmes de combustion les plus courants. Québec, Canada: Ginette Douville et al.
43
Ministère des Ressources naturelles et de la Faune. (2012). NORMES D’INVENTAIRE ÉCOFORESTIER :
PLACETTES-ÉCHANTILLONS PERMANENTES.
Ministère des ressources naturelles et de la Faune du Québec. Direction générale de la Capitale-Nationale et de la Chaudière Appalaches. (2010). Portrait territorial – Chaudières-Appalaches. Récupéré le 19 juillet 2016 du site du ministère. https://mern.gouv.qc.ca/publications/territoire/planification/portrait-chaudiere-appalaches.pdf
Ministère des Forêts, de la Faune et des Parcs, Direction des inventaires forestiers. (2016). Norme d’inventaire écoforestier PLACETTES-ÉCHANTILLONS TEMPORAIRES. Québec, Canada: Direction des inventaires forestiers (DIF).
Mitchell, T. M. (1997). Machine learning. 1997. Burr Ridge, IL: McGraw Hill, 45, 37.
Orzanco, M. G.-J. (2006). Exploration de la fusion des informations pour améliorer la fiabilité locale d'une carte forestière. Québec: Doctorat en sciences géomatiques, Université Laval.
Perron, J. Y. (2003). Tarif de cubage général. Volume marchand brut. 3e publication. Ministère de l’Énergie et des Ressources du Québec, Service de l’inventaire forestier, Québec.
Persson, H., Wallerman, J., Olsson, H., & Fransson, J. E. (2013). Estimating forest biomass and height
using optical stereo satellite data and a DTM from laser scanning data. Canadian Journal of Remote
Sensing, 39(3), 251-262.
Ressources naturelles Canada. (2016). À propos de l'énergie renouvelable. Récupéré le 25 juillet 2016 du site du ministère. http://www.rncan.gc.ca/energie/renouvelable-electricite/7296#bio
Ressources naturelles et faune Québec. (2007). Système d’Information FORestière par Tesselle. Québec, Canada : Pelletier G., Dumont Y. et Bédard M.
Régnière, J., & Saint-Amant, R. (2008). BioSIM 9: manuel de l'utilisateur. Centre de foresterie des Laurentides.
Ter-Mikaelian, M. T., & Korzukhin, M. D. (1997). Biomass equations for sixty-five North American tree species. Forest Ecology and Management, 97(1), 1-24.
Vision Biomasse Québec. (2015). Le chauffage à la biomasse forestière résiduelle, Allier lutte contre les changements climatiques et création de richesses au Québec. Récupéré le 26 juillet 2016 du site de Vision Biomasse Québec. http://www.naturequebec.org/fichiers2015/publications/ME15-10-20_Vision_Biomasse_Quebec.pdf
Weldu, Y. W., & Assefa, G. (2016). Evaluating the environmental sustainability of biomass-based energy strategy: Using an impact matrix framework. Environmental Impact Assessment Review, 60, 75-82.
Yanagawa, T. (1975). Stratified random sampling; gain in precision due to stratification in the case of proportional allocation. Annals of the Institute of Statistical Mathematics, 27(1), 33-44.
Yemshanov, D., & McKenney, D. (2008). Fast-growing poplar plantations as a bioenergy supply source for Canada. Biomass and Bioenergy, 32(3), 185-197.