prédication de la variabilité spatiale de la disponibilité ...résiduelle des unités de surface...

Prédiction de la variabilité spatiale de la disponibilité en biomasse résiduelle à l’aide de l’apprentissage

automatique

Mémoire

Rhita Ouliz

Maîtrise sur mesure en sciences forestières et informatique Maîtrise ès sciences (M. Sc.)

Québec, Canada

© Rhita Ouliz, 2017

Prédiction de la variabilité spatiale de la disponibilité en biomasse résiduelle à l’aide de l’apprentissage

automatique

Mémoire

Rhita Ouliz

Sous la direction de :

Frédéric Raulier, directeur de recherche

iii

Résumé

La biomasse forestière résiduelle correspond à la biomasse ligneuse laissée sur le parterre de la forêt après une coupe. Cette biomasse peut servir comme source d’énergie renouvelable, à un prix pouvant être, dans certaines conditions, compétitif relativement à d’autres sources d’énergie. Le succès de l’utilisation de ce type de biomasse tient en partie à une gestion efficace de son réseau d’approvisionnement. Ainsi, la gestion du risque de rupture d’approvisionnement de la biomasse forestière résiduelle est essentielle pour garantir le potentiel d’expansion d’un réseau de distribution aux clients.

Le présent mémoire vise à améliorer la rentabilité d’approvisionnement de la biomasse forestière résiduelle par le biais d’une gestion efficace des sources d’erreur relatives à l’estimation de la disponibilité en biomasse. Il s’agit d’estimer la variabilité spatiale de la biomasse résiduelle avec une précision acceptable en optant pour les techniques de l’apprentissage automatique (en anglais, machine learning). L’apprentissage automatique est une tentative pour reproduire la notion d’apprentissage. Il s’agit de concevoir des algorithmes capables d’apprendre à partir des exemples ou des échantillons, afin de prédire les valeurs des cibles.

Dans notre cas d’étude, la méthode KNN nous permettra d’estimer la quantité de la biomasse résiduelle des unités de surface cibles (polygones1) à partir des k placettes2-échantillons voisines. Pour ce faire, nous estimerons, dans un premier temps, la variabilité spatiale de la disponibilité en biomasse résiduelle en utilisant la méthode d’apprentissage automatique k-plus proches voisins (en anglais, k-nearest neighbors : KNN). Nous déterminerons ensuite l’erreur de notre estimation en utilisant la méthode bootstrap. Finalement, nous développerons une spatialisation de la quantité de biomasse forestière résiduelle en tenant compte de l’erreur d’estimation.

Les résultats d’estimation obtenus, dans le cadre de cette recherche, indiquent une précision allant de 59,5 % à 71 % et centrée autour de 65,4 %. Notre méthodologie a permis ainsi d’obtenir des résultats pertinents comparativement à l’étude de Bernier et al. (2010) qui ont estimés le volume de biomasse forestière avec la méthode KNN et ont eu comme résultat une précision d’estimation égale à 19 %. L’utilisation de cette méthode pourra aussi être pertinente pour l’estimation de la biomasse forestière marchande et pour la prédiction de la biomasse forestière totale par essence d’arbres.

1 Voir la définition d’un polygone à l’annexe 1 2 Voir la définition d’une placette à l’annexe 1

iv

Abstract

Residual forest biomass is the woody biomass left over on the forest floor after harvesting. This biomass can be used as a source of renewable energy, at a price that may be, under certain conditions, competitive relative to other energy sources. The success of the use of residual forest biomass depends in part on an effective management of its supply chain. Thus, the risk management of supply disruption of residual forest biomass is essential to ensure the potential for expansion of a customer’s distribution network. This project aims to improve the supply chain profitability of residual forest biomass through effective management of sources of error related to the estimation of the availability of biomass. This is the estimation of the spatial variability of residual biomass with acceptable accuracy by using machine learning techniques. Machine learning is an attempt to replicate the concept of learning. It consists to design algorithms capable to learn from examples or samples in order to predict the values of targets In our case study, the KNN method will allow us to estimate residual biomass of the target area units (polygons) from the k nearest neighbour plots. To this effect, we will estimate initially the spatial variability in the availability of residual biomass using the machine learning method KNN (k nearest neighbours). We then determine the error of our estimation using a bootstrap method. Finally, we will develop the location of the residual forest biomass quantity taking into account the estimation error. The estimation results obtained in the framework of this research indicate an accuracy of 59,5 % to 71 % centred around 65,4 % with an estimation error of 29 % to 34,5 %. Our methodology has yielded relevant results compared with the study of Bernier et al. (2010) which has had accuracy of estimation equal to 19% of forest biomass volume using the KNN method. The use of this method may also be relevant for estimating the commercial forest biomass and for the prediction of forest biomass of each tree species.

v

Table des matières

Résumé .................................................................................................................................. iii

Abstract ................................................................................................................................. iv

Liste des figures ..................................................................................................................... vii

Liste des tableaux ................................................................................................................. viii

Remerciements ...................................................................................................................... ix

1. INTRODUCTION ............................................................................................................... 1

1.1. Contexte .................................................................................................................. 1

1.2. Revue de littérature ................................................................................................. 3

1.2.1. Méthodes d’estimation de la quantité de la biomasse forestière .......................... 4

1.2.2. La méthode d’apprentissage automatique KNN .................................................... 5

1.3. Problématique ......................................................................................................... 6

1.4. Objectifs de la recherche .......................................................................................... 7

2. MÉTHODOLOGIE .............................................................................................................. 8

2.1. Aire d’étude ............................................................................................................. 8

2.2. Description des données forestières ...................................................................... 10

2.3. Estimation de la biomasse résiduelle ...................................................................... 12

2.3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes ............. 13

2.3.1.1. Calcul de la quantité de biomasse résiduelle d’un arbre ................................. 14

a. Estimation de la biomasse forestière résiduelle des arbres commerciaux ................... 14

b. Estimation de la biomasse totale des arbres non commerciaux .................................. 15

2.3.1.2. Calcul de quantité de biomasse résiduelle par placette................................... 15

2.3.2. Prédiction de la biomasse forestière résiduelle au niveau des polygones avec la

méthode d’apprentissage automatique KNN ..................................................................... 16

2.3.2.1. Utilisation de la méthode des k plus proches voisins KNN ............................... 16

2.3.2.2. Estimation de la biomasse forestière résiduelle avec KNN .............................. 17

a. Détermination des paramètres les plus corrélés avec la biomasse forestière totale ... 17

b. La métrique de distance adéquate : Distance de Gower ............................................. 18

c. L’estimation de la biomasse forestière résiduelle des polygones à partir des k placettes

voisines ............................................................................................................................. 18

d. Détermination de la valeur de k ................................................................................. 19

2.3.3. Estimation de la précision du calcul de la biomasse résiduelle avec Bootstrap .... 19

2.4. Lien entre la précision et la stratification ................................................................ 21

2.5. Localisation de la biomasse forestière résiduelle demandée .................................. 21

vi

3. RÉSULTATS .................................................................................................................... 22

3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes ................ 22

3.1.1. Estimation de biomasse de la partie non marchande de la tige ........................... 22

3.1.2. Estimation de la biomasse de la couronne des arbres commerciaux ................... 23

3.1.3. Estimation de la biomasse des arbres non commerciaux .................................... 23

3.1.4. La biomasse résiduelle demandée ...................................................................... 24

3.2. Estimation de la biomasse forestière résiduelle au niveau des polygones avec la

méthode KNN .................................................................................................................... 24

3.2.1. Les paramètres les plus corrélés avec la biomasse .............................................. 24

3.2.2. La détermination de la valeur de k (nombre des voisins les plus proches) ........... 25

3.2.3. La biomasse résiduelle prédite avec KNN............................................................ 27

3.3. Validation de la méthode d’estimation avec la méthode bootstrap ........................ 28

3.3.1. Estimation de la précision de la biomasse forestière avec bootstrap................... 28

3.3.2. Calcul du coefficient de variation........................................................................ 29

3.4. Spatialisation de la biomasse forestière résiduelle ................................................. 30

4. DISCUSSION ................................................................................................................... 34

5. CONCLUSION ................................................................................................................. 35

Annexe 1 : Terminologie ........................................................................................................ 36

Annexe 2 : La relation entre la biomasse forestière et le DHP ............................................... 37

Annexe 3 : Les paramètres cartographiques et climatiques.................................................... 40

RÉFÉRENCES ......................................................................................................................... 41

vii

Liste des figures

Figure 1 : Territoire d’étude (L’unité d’aménagement forestier 035-51) – en noir .............................................. 8

Figure 2 : Schéma explicatif de la méthodologie d'estimation de la biomasse résiduelle ............................... 12

Figure 3 : Les composantes de la biomasse forestière, le volume marchand et le tronc à 9 cm au fin bout

de la tige ................................................................................................................................................................ 13

Figure 4 : La masse marchande en fonction de la masse totale de la tige au niveau des placettes .............. 23

Figure 5 : La biomasse totale en fonction de la biomasse résiduelle ................................................................ 24

Figure 6 : Résultats de la prédiction de la biomasse totale pour k dans {1, 4, 8, 20} ...................................... 26

Figure 7 : Variation du taux d’erreur quadratique moyenne, du taux de biais et de la précision R²% par

rapport à la valeur de k ......................................................................................................................................... 27

Figure 8 : La biomasse résiduelle observée en fonction de la biomasse résiduelle prédite ............................ 27

Figure 9 : La variation du biais, l'erreur quadratique moyenne, et la précision ................................................ 28

Figure 10 : Histogramme de coefficient de variation à l’échelle des polygones et des parcelles .................... 30

Figure 11 : La carte représentant la variabilité spatiale de la densité de biomasse forestière résiduelle

moyenne disponible entre 2008 et 2018 au niveau des polygones .................................................................. 32

Figure 12 : La carte représentant la variabilité spatiale du coefficient de variation entre 2008 et 2018 au

niveau des polygones ........................................................................................................................................... 33

Figure 13 : Schéma illustratif de la stratification d’un territoire forestier fictif .................................................... 36

Figure 14 : La biomasse totale de la tige des essences d’arbres commerciaux et la biomasse marchande

en fonction du DHP pour deux essences dominantes de notre étude : l’épinette noire (EPN) et le sapin

baumier (SAB) ...................................................................................................................................................... 37

Figure 15 : La masse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en

fonction du DHP .................................................................................................................................................... 38

Figure 16 : La relation entre la biomasse de la couronne des essences commerciales et le DHP................. 38

Figure 17 : La biomasse totale des essences d’arbres non commerciaux en fonction du DHP...................... 39

viii

Liste des tableaux

Tableau 1 : Les intervalles de variation des paramètres climatiques .................................................................. 9

Tableau 2 : Les essences d’arbres dominantes de notre base de données .................................................... 11

Tableau 3 : Les essences d’arbres non commerciaux retenues pour notre étude ........................................... 23

Tableau 4 : Les paramètres les plus corrélés avec la biomasse forestière ...................................................... 25

Tableau 5 : Les extremums, la moyenne et la médiane du biais, l’erreur et la précision de nos prédictions . 29

Tableau 6 : Les paramètres cartographiques et climatiques ............................................................................. 40

ix

Remerciements

Comme pour la majorité des travaux académiques, ce mémoire fut l’objet de recherches étendues et d’un travail de longue haleine. Sa réalisation, dans des conditions parfois difficiles, du fait d’une période de maladie, fut achevée grâce à l’appui de ma famille principalement, de mes amis et de l’équipe de l’Université Laval, que je remercie chaleureusement. J’ai eu la chance de travailler avec des chercheurs et des étudiants qui ont enrichi mon expérience formatrice à l’Université Laval.

J'adresse mes remerciements aux personnes qui m'ont aidée dans la réalisation de ce mémoire. En premier lieu, ma gratitude va à mon directeur de recherche, M. Frédéric Raulier, qui a su me guider habilement tout au long de mes travaux, mais son sens aigu de la pédagogie m’aura aussi permis d’évoluer grandement.

Je tiens à remercier en plus mes codirecteurs de recherche M. Luc Lebel et M. Jonathan Gaudreault, qui m’ont honorée de leur confiance en mes habiletés. J’ai particulièrement été impressionnée par leur enthousiasme pour ce sujet, leurs qualités scientifiques et humaines. De plus, leur patience, leur écoute attentive et leurs nombreuses lectures et corrections de mes textes m’ont permis d’apprendre beaucoup et de m’améliorer en rédaction. Puissent ces lignes être l’expression de ma plus profonde reconnaissance.

Merci à vous tous.

Je voudrais encore remercier le professionnel de recherche, M. Hakim Ouzennou, pour son aide plus que précieuse dans l’élaboration de cet ouvrage de recherche.

J'adresse mes remerciements à mes collègues ainsi que toute l’équipe de recherche du laboratoire FORAC et ceux du CEF pour leur soutien et encouragement, je remercie mes collègues du laboratoire GRAAL pour leur partage de connaissances et leur aide.

Je remercie encore les membres de la Fédération québécoise des coopératives forestières, principalement M. Simon St-Onge.

Je remercie aussi M. Daniel Lesieur, le professionnel de recherche du CEF, qui m'a aidée en me fournissant des données précises sur mon aire d’étude.

1

1. INTRODUCTION

1.1. Contexte

Le développement et l’implémentation des énergies renouvelables sont le centre d’intérêt de

différents pays. L’Agence internationale de l’énergie prédit que la filière d’énergie renouvelable

garantira 30 % de l’énergie utilisée sur la planète d’ici 2050. Selon le même organisme, c’est cette

filière d’énergie renouvelable qui progressera le plus à l’horizon 2030 (Hydro-Québec, 2014).

Le Canada se veut actif dans le développement des énergies renouvelables. Ce pays dispose des

ressources abondantes qui permettent d’assurer la production de l’énergie renouvelable,

comme l’eau en mouvement, les énergies éoliennes et la biomasse (Liming et al. 2008). Selon

Ressources naturelles Canada (2016), ces sources d'énergie représentent 18,9 % de

l'approvisionnement en énergie primaire totale du pays. En 2014, le Canada disposait de 70

centrales fonctionnant à la bioénergie et d’une capacité de production d'électricité totale de 2 043

mégawatts. La majorité de ces centrales utilisaient la biomasse de bois produite par les usines de

pâtes et papiers, de liqueur résiduaire et de gaz d'enfouissement (Ressources naturelles Canada,

2016). De plus, 4,4 % de l’énergie primaire consommée provient, directement ou indirectement, de

la biomasse forestière. Bref, la biomasse représente la deuxième source d’énergie renouvelable,

après l’énergie hydraulique (Hydro-Québec, 2014).

Lors de la Conférence des ministres de l’Énergie et des Mines, organisée en août 2014, toutes les

provinces canadiennes se sont prononcées en faveur de la mise en place de politiques et de

mesures incitatives visant à développer et adopter les technologies permettant la production

d’énergie renouvelable (Ressources naturelles Canada, 2014). À ce titre, le gouvernement du

Québec a lancé, le 7 avril 2016, sa politique énergétique, une politique dont la vision est : « Faisons

du Québec, à l’horizon 2030, un chef de file nord-américain dans les domaines de l’énergie

renouvelable et de l’efficacité énergétique, et bâtissons ainsi une économie nouvelle, forte et à faible

empreinte carbone » (Gouvernement du Québec, 2016).

Étant donné l’importante disponibilité des ressources et la maturité du procédé d’implémentation des

énergies renouvelables adopté au Québec, la biomasse forestière est la catégorie de matière

organique la plus souvent valorisée (Hydro-Québec, 2014). En effet, « dans une centrale de

cogénération (électricité et vapeur) à la biomasse forestière, de 30 à 35 % de l’énergie de la

2

biomasse solide (cycle vapeur) peut être convertie en électricité. En utilisant à diverses fins la chaleur

produite, le rendement total peut dépasser 80 % » (Hydro-Québec, 2014).

Les études sur les ressources de l’énergie alternatives favorisent le développement et

l’implémentation des énergies renouvelables, et ce, à l’échelle mondiale (Fernández et al., 2016 ;

Field et al., 2008). Plus particulièrement, la bioénergie représente des avantages environnementaux

intéressants, tels que le fait d’atténuer les causes des changements climatiques et de briser la

dépendance courante aux combustibles fossiles (Weldu et al. 2016 ; Field et al. 2008). Cette forme

d’énergie peut être produite à partir de ressources renouvelables comme la biomasse forestière. À

noter que la biomasse forestière est la matière produite par la croissance des plantes ligneuses

(Demirbas, 2001), alors que la biomasse forestière résiduelle est la biomasse résultant des activités

de récolte. Cette dernière se compose de rémanents, branches, cimes, parties d’arbres non

commerciaux, rameaux et feuillage (Vision Biomasse Québec, 2015). La biomasse forestière

résiduelle peut remplacer les combustibles fossiles, notamment dans la production de la bioénergie

et des bioproduits (Cambero et al., 2014). La production de la bioénergie avec la biomasse forestière

résiduelle est moins nocive pour l’environnement que les combustibles fossiles, étant donné que le

gaz carbonique dégagé lors la décomposition ou la combustion du bois est compensé par celui

absorbé par les arbres pendant leur croissance (Centre de recherche industrielle du Québec, 2006).

La rentabilité de la récolte de biomasse forestière résiduelle reste toutefois marginale, à cause de la

complexité des systèmes et outils de récupération des résidus forestiers utilisés lors de la récolte

(Centre de recherche industrielle du Québec, 2006). Le succès de l’utilisation de cette biomasse

dépend d’une gestion efficace de son réseau d’approvisionnement (Hydro-Québec, 2014).

Un réseau d’approvisionnement de biomasse comprend l’ensemble des phases par lesquelles passe

la biomasse avant d’arriver au client, à savoir la récolte, le ramassage, le séchage, la transformation,

l’entreposage, le conditionnement et la livraison. Le but du réseau est de réduire les stocks, de

diminuer les coûts, de faire progresser la commercialisation du produit et d’améliorer la souplesse

de production (Conseil canadien sectoriel de la chaîne d'approvisionnement, 2016 ; Bureau du

forestier en chef, 2013). La gestion efficace du réseau d’approvisionnement de biomasse demande

une planification forestière qui se base sur les données de la disponibilité de la biomasse, ce qui

permet d’éviter toute rupture éventuelle d’approvisionnement. Ce risque de rupture pourrait être dû,

entre autres, aux erreurs d’estimation de la disponibilité des bois ou à une mauvaise performance

des activités d’aménagement forestier, ce qui nuit considérablement au réseau d’approvisionnement

3

des usines (Bureau du forestier en chef, 2013). Il est ainsi important de bien gérer le risque de rupture

d’approvisionnement relativement aux sources d’erreur de l’estimation de la quantité de biomasse.

La garantie d’approvisionnement nécessite l’estimation de la quantité de biomasse disponible qui

pourrait être récoltée annuellement de façon durable pour approvisionner une usine de

transformation. Étant donné que le fonctionnement de l’écosystème forestier est complexe et que

toute prédiction représente un sujet d’incertitude, l’efficacité du réseau d’approvisionnement de la

biomasse forestière résiduelle est en lien avec le niveau de précision de l’estimation de la

disponibilité de cette biomasse résiduelle (Bureau du forestier en chef, 2013).

L’erreur d’estimation de la biomasse provient non seulement de la méthode d’estimation de la

biomasse, mais aussi des méthodes d’échantillonnage, de la stratification du territoire, des erreurs

de mesure, des données aberrantes des échantillons et de la perte d’informations lors de la

construction du modèle de calcul (Bernier, 2010).

De nombreux projets de prédiction des quantités de biomasse forestière disponibles utilisent les

méthodes d’estimation statistique classique, qui reposent sur le fait de créer un modèle

mathématique à partir d’une base de données. Ces méthodes ne sont efficaces que pour des

d’échantillons limités, étant donné que la conception d’un modèle mathématique prend en compte

la taille et la dimension des échantillons (Fassnacht et al. 2014). Pour leur part, les méthodes

d’apprentissage automatique se basent sur des tailles d’échantillons importantes. De plus, elles

nécessitent moins d’hypothèses que les méthodes de statistiques classiques et sont adaptées aux

cas où les paramètres explicatifs sont nombreux (Besse, 2005).

Sur le plan de la pratique, l’estimation de la biomasse forestière dépend de la stratification du

territoire, qui à son tour dépend des paramètres de peuplement des cartes écoforestières et des

placettes d’inventaire forestier. Cette estimation est utilisée pour la planification des stratégies

d’aménagement forestier sur le territoire public ainsi que pour organiser les opérations forestières.

1.2. Revue de littérature

Nombreuses sont les études qui traitent le sujet de prédiction de la biomasse forestière et une grande

majorité de ces études mesurent la quantité de biomasse forestière avec des méthodes statistiques.

Les méthodes d’apprentissage automatique sont aussi utilisées dans ce domaine, mais pas autant

que les modèles statistiques. La comparaison de ces études s’avère difficilement possible vu la

4

diversité non seulement des méthodes, mais aussi des sources de données , des aires d’étude et

des normes de modélisation (Fassnacht, 2014).

1.2.1. Méthodes d’estimation de la quantité de la biomasse forestière

L’étude comparative des méthodes d’estimation de la quantité de la biomasse forestière de

Fassnacht (2014) a identifié les cinq méthodes de prédiction les plus couramment utilisées en

foresterie ; elle a comparé la performance de ces méthodes en estimation de biomasse en faisant

varier les sources de données (les capteurs de télédétection), ainsi que la taille des données de

référence. Selon Fassnacht (2014), les méthodes les plus fréquemment utilisées sont premièrement

les modèles linéaires (LM3), deuxièmement les méthodes basées sur le principe des plus proches

voisins (KNN4), en troisième place on retrouve une méthode d’apprentissage automatique nommée

machines à vecteurs de support (SVM5), en quatrième position il y a les méthodes d’estimation de

la forêt aléatoire (RF6) et enfin, les méthodes basées sur le processus gaussien (GP7). La

performance de ces modèles est évaluée par R² (corrélation entre les observations et les prévisions),

et la racine carrée de l’erreur quadratique moyenne (REQM).

Pour comparer la performance des cinq méthodes d’estimation de biomasse forestière citées dans

le paragraphe précédent, Fassnacht (2014) a utilisé trois sources de données différentes de

télédétection. Les quatre méthodes SVM, KNN, GP et LM ont un R² entre 0,2 et 0,45. En

comparaison, la méthode RF a un R² centré autour de 0,55 avec une distribution très variable qui va

de 0,2 à 0,7. Dans cette étude, la REQM est de 45 à 66 t/ha, ce qui est l’équivalent de 27 % à 53 %.

Dans une autre étude comparative, de ces mêmes méthodes d’estimation de la biomasse forestière,

Latifi (2015) a utilisé 297 placettes de l’inventaire écoforestier de 2006. La précision de ses

estimations R² varie en général entre 0,17 et 0,4 et la racine carrée de l’erreur quadratique moyenne

RMSE est situé dans l’intervalle allant de 44 t/ha à 77 t/ha comme meilleures performances. Une

tendance d'amélioration de performance du modèle a été constatée avec l'augmentation du nombre

d'échantillons d'entrée. En outre, la méthode d’estimation de la forêt aléatoire RF a démontré des

performances plus élevées, comparativement aux autres méthodes d’estimation. En général, des

3 LM: Linear Models 4 KNN: K-Nearest Neighbor 5 SVM: Support Vector Machines 6 RF: Random Forest 7 GP: Gaussian Processes

5

améliorations ont été observées pour les valeurs médianes des paramètres statistiques de chaque

méthode de prédiction individuelle dans toutes les tailles d'échantillons appliquées.

Latifi (2015) a comparé les résultats des cinq méthodes d’estimation citées ci-dessus en utilisant

divers types de données, il a conclu que la complexité du modèle ou de la méthode ne garantit pas

sa performance ; la précision de toutes ses estimations n’a pas dépassé 45 %. Par comparaison,

l’étude de Fassnacht (2014), effectuée dans le but d’étudier la performance des méthodes selon le

type de données, a rapporté une précision qui atteint 48 %. Pour chacune de ces deux études, nous

pouvons comparer le KNN par rapport aux autres méthodes d’estimation, par contre il n’est pas

évident de comparer les résultats des recherches de Latifi (2015) et Fassnacht (2014) par rapport à

notre étude, étant donné que les sources de données ne sont pas identiques.

Récemment, la méthode KNN est devenue de plus en plus utilisée dans l’estimation de différentes

variables en sciences forestières. À titre d’exemple, McRoberts (2012) a estimé des paramètres

forestiers pour les petites zones en utilisant des techniques des k plus proches voisins.

Particulièrement, dans l’estimation de la biomasse forestière, Bernier (2010) a utilisé la méthode

KNN pour prédire le volume marchand, il a obtenu des résultats dont le facteur de précision R² se

situe de 16 % à 19 % avec une erreur de 50 à 79 m³/ha (c’est-à-dire un ratio d’erreur quadratique

moyenne de 39 % à 43 %). Fehrmann (2008) a aussi utilisé KNN pour estimer la biomasse d’un

arbre individuel, ses estimations sont avec une précision de 16,4 % pour l’épinette et 14,5% pour le

pin.

Dans le cadre de cette étude, nous avons priorisé une méthodologie d’estimation de la biomasse

forestière résiduelle basée sur la méthode d’apprentissage automatique KNN. Sachant qu’un taux

de 19 % est la précision d’estimation obtenue par Bernier et al. (2010) lors de leur estimation du

volume de biomasse forestière à l’échelle des polygones d’un territoire de 4 126 km² en utilisant

KNN, nous pensons qu’une méthodologie peut être développée afin d’estimer la quantité de

biomasse résiduelle avec une précision plus importante.

1.2.2. La méthode d’apprentissage automatique KNN

L’apprentissage automatique vise à reproduire la notion d’apprentissage en développant des

algorithmes capables d’apprendre à partir des exemples ou des échantillons afin de prédire les

valeurs des cibles (Gammerman, 2010). La méthode d’apprentissage automatique utilisée , dans le

cadre de notre étude, est celle dite des k-plus proches voisins, connue sous le sigle KNN (k-nearest

6

neighbors, en anglais). C’est une méthode d’imputation supervisée dont l'algorithme consiste à

prédire une cible numérique en se basant sur sa similarité par rapport aux cas disponibles. Cette

similarité est mesurée par une des fonctions de distance (Mitchell, 1997).

Il y a deux types de problèmes de prédiction, les problèmes de classification et les problèmes de

régression. Dans un problème de classification, les classes sont formées selon les densités de la

distribution des données d’entrée (les références), et la prédiction de la classe d’une cible consiste

à trouver la classe majoritaire des k plus proches voisins (Denoeux, 1995). Cependant, quand il

s’agit d’une régression, la prédiction de la valeur numérique de la cible consiste à calculer soit la

moyenne ou la moyenne pondérée des valeurs des K plus proches voisins. Ainsi, la méthode KNN

régression et la classification avec KNN utilisent les mêmes fonctions de distance, telle que la

distance euclidienne (Mitchell, 1997).

En effet, il est possible d’utiliser la méthode KNN régression pour estimer la quantité de biomasse

résiduelle d’une unité de surface cible (le polygone) à partir de la moyenne pondérée des quantités

de biomasse résiduelle des unités de surface de référence les plus similaires (les placettes, étant

donné qu’une placette représente le polygone de référence). La similarité est mesurée avec la

distance entre les surfaces cibles et les surfaces de référence. Cette distance prend en considération

les paramètres forestiers connus des polygones et des placettes d’inventaire (Bernier, 2010).

La méthode de K plus proches voisins, KNN, peut être utilisé pour tous les types de végétation, que

ce soit pour des estimations restreintes basées sur un nombre limité d'observations sur le terrain à

l’échelle locale, ou pour de grandes applications à l’échelle nationale (Chirici, 2016). La pertinence

de cette méthode, selon le même auteur, dépend de la phase d'optimisation, dont le but est de

sélectionner l'ensemble des paramètres explicatifs, de déterminer la valeur de k et de choisir la

distance multidimensionnelle adéquate aux données (Chirici, 2016).

1.3. Problématique

Notre aire d’étude est située dans une région où l’industrie forestière est active étant donné sa

richesse en biomasse forestière, évaluée à 94 millions de mètres cubes de volume marchand, et à

cause du nombre important des usines de première, deuxième et troisième transformation de bois

et de son usine de production de granules bioénergétiques à partir des résidus organiques (Ministère

de l’Énergie et des Ressources naturelles, 2015). Or, la plus grande partie de l’approvisionnement

de bois de ses usines provenait de l’extérieur du Québec. Ainsi, on conclut que l’offre ne satisfait

7

pas la demande en bois, bien que les ressources forestières soient abondante dans cette région. Ce

déséquilibre est dû aux problèmes au niveau de la récolte de bois. Les coopératives de récolte de

bois de cette région ont constaté que pour trouver la biomasse, plus précisément la biomasse

résiduelle, une quantification précise et une localisation de la biomasse résiduelle sont les clés de

l’amélioration de la rentabilité de leurs activités d’aménagement forestier. D’où vient le besoin de

déterminer non seulement la quantité de biomasse forestière résiduelle avec une précis ion

acceptable, mais aussi la localisation de cette biomasse.

1.4. Objectifs de la recherche

La présente étude vise à déterminer la variabilité spatiale de la biomasse forestière résiduelle, en

tenant compte des sources d’erreurs de calcul. Plus explicitement, l’étude consiste à estimer la

quantité de la biomasse résiduelle avec la méthode d’apprentissage automatique KNN et à élaborer

une carte de localisation de ces quantités de biomasse estimées ainsi qu’une carte de localisation

du coefficient de variation de cette estimation. L’étude vise également à évaluer l’utilisation de la

méthode KNN pour l’estimation de la quantité de biomasse résiduelle des unités de surface cibles

(polygones) à partir d’un certain nombre d’unités de surface échantillons voisines.

Pour ce faire, nous traiterons et validerons tout d’abord les données observées, c’est-à-dire les

placettes échantillons, puis nous analyserons, concevrons, et développerons une solution

informatique basée principalement sur la méthode KNN, afin d’estimer la densité de la biomasse

résiduelle à l’échelle des polygones (5 à 10 ha). Ensuite, nous déterminerons l’erreur de notre

estimation en utilisant la méthode bootstrap. Finalement, nous élaborerons une carte de localisation

de la quantité de biomasse forestière résiduelle avec une tentative de prendre en compte l’erreur

d’estimation.

8

2. MÉTHODOLOGIE

Nous présentons dans un premier temps l’aire d’étude et la description des données forestières. Par

la suite nous expliquons en détail les étapes suivies pour estimer la quantité de biomasse résiduelle.

Finalement, nous déterminons le lien entre la précision et la stratification du territoire forestier, puis

présentons l’outil utilisé pour la localisation de la biomasse forestière résiduelle disponible.

2.1. Aire d’étude

Le territoire d’étude sur lequel notre recherche a été effectuée est l’unité d’aménagement (UA)

03551, représenté en noir à la figure 1. Il est situé dans la région administrative de Chaudière-

Appalaches. Sa localisation géographique est entre les latitudes allant de 46°18’23.49’’N à

47°16’31.36’’N et entre les longitudes allant de 69°37’28.89’’W à 70°39’43.30’’W.

Figure 1 : Territoire d’étude (L’unité d’aménagement forestier 035-51) – en noir

La superficie totale de cette unité d’aménagement est d’environ 118 260 ha, dont 78 % sont

admissibles à la récolte de bois (Bureau du forestier en chef, 2014). L’unité d’aménagement est

localisée à 85 % dans le sous-domaine de l'érablière à bouleau jaune de l’est et à 14 % dans le

sous-domaine de la sapinière à bouleau jaune de l’est. Les types forestiers les plus dominants dans

ce territoire forestier sont les pessières (35 %), les résineux à feuillus (21 %), les sapinières (10 %)

Québec

États-Unis

UA035-51

9

et les érablières rouges (10 %). L’abondance de milieux humides caractérise notre aire d’étude

(Bureau du forestier en chef, 2014).

Le climat de l’aire d’étude est de type continental humide et se caractérise principalement par :

- Des températures moyennes annuelles allant de 1 à 3 °C ;

- Des précipitations annuelles importantes sur tout le territoire, variant de 1139 à 1298 mm ;

- Une saison de croissance dont la durée est de 91 à 206 jours ;

- Des précipitations neigeuses qui oscillent de 320 cm à 350 cm.

Les valeurs des paramètres climatiques de cette région sont issues du logiciel BioSIM présenté par

la suite (Ressources naturelles Canada, 2008). Le tableau 1 présente les valeurs maximales et

minimales de tous les paramètres climatiques.

Tableau 1 : Les intervalles de variation des paramètres climatiques

Paramètres climatiques Unité Minimum Maximum

Degrés-jour °C 1256 1339

Précipitations totales mm 1139 1298

Précipitations à la saison de croissance mm 392 464

Température minimale °C -3 -2

Température maximale °C 6 8

Température moyenne °C 1 3

Température moyenne à la saison de croissance °C 13 13

Jours sans gel Jour 151 216

Saison de croissance Jour 91 206

Dernier jour de gel Jour julien 116 160

Premier jour de gel Jour julien 247 283

Indice d'aridité … 0 0

Précipitations neigeuses dm 32 35

Radiation totale MJ/m² 4676 5037

Les dépôts de surface dans l’unité d’aménagement forestier 035-51 sont majoritairement de type

glaciaire (Direction générale de la Capitale-Nationale et de la Chaudière Appalaches, 2010). « Son

assise rocheuse sédimentaire (schistes ardoisiers, grès et shales) est généralement recouverte de

dépôts de till indifférencié d’épaisseur variable, accompagnés ponctuellement d’épandages fluvio-

glaciaires sableux. Les dépôts de till, qui dominent le plateau appalachien, sont généralement épais

et indifférenciés. Les dépôts fluvio-glaciaires se concentrent, pour leur part, dans les vallées. Enfin,

les affleurements rocheux et les tills minces caractérisent les zones de hautes collines. » (Direction

10

générale de la Capitale-Nationale et de la Chaudière Appalaches, 2010). La pente de ce territoire

varie de 0 à plus de 40 %. L’attitude varie généralement de 400 à 600 m, mais peut aller jusqu’à 900

m dans les zones de hautes collines particulièrement (Direction générale de la Capitale-Nationale et

de la Chaudière Appalaches, 2010).

L’industrie forestière de Chaudière-Appalaches est en développement pour faire de cette région une

capitale de la filière de biomasse forestière (Ministère de l’Énergie et des Ressources naturelles, 2015).

Cette région a une forêt productive accessible étendue sur 10 920 km² qui recèle d’un volume

marchand évalué à 94 millions de mètres cubes. Avec ses 51 scieries, soit 17 % des scieries du

Québec en 2013, elle est la région qui comprend le plus de scieries à la province. De plus, elle

comprend des entreprises de première, deuxième et troisième transformation du bois, une usine de

production de granules bioénergétiques à partir des résidus organiques ainsi qu’une filiale de

bioénergie en cours de développement. Ses usines de première transformation de bois ont

consommé près de 3,8 millions de mètres cubes de bois rond en 2007. Cependant, la majorité de

l’approvisionnement de biomasse de ses usines de transformation de bois provenait de l’extérieur

du Québec. La récolte régionale est d’environ 1,2 million de mètres cubes de bois récoltés en 2011-

2012 (Ministère de l’Énergie et des Ressources naturelles, 2015).

2.2. Description des données forestières

Dans cette étude, nous avons utilisé une base de données produite par la Direction des inventaires

forestiers du ministère des Forêts, de la Faune et des Parcs (MFFP). Cette base de données

comporte des échantillons circulaires couvrant une superficie de 400 m² de la forêt, nommés

« placettes-échantillons » (Direction des inventaires forestiers, 2016). La localisation de ces

placettes est déterminée par la méthode d’échantillonnage du MFFP appliquée au domaine d’étude.

Cette méthode constitue une des étapes d’un plan de sondage dont le but principal vise à connaître

les attributs dendrométriques et écologiques des strates écoforestières (Direction des inventaires

forestiers, 2002). Dans chaque placette-échantillon, plusieurs observations sont effectuées dans le

but de déterminer les caractéristiques du couvert forestier, telles que la composition des essences,

la densité et la hauteur (Direction des inventaires forestiers, 2016).

Le diamètre à la hauteur de la poitrine (DHP) et la hauteur de chaque arbre des placettes seront

utilisés pour le calcul de la quantité de biomasse résiduelle au niveau des placettes. De plus, les

variables cartographiques et celles climatiques des placettes seront aussi utilisées pour estimer la

11

quantité de biomasse au niveau des polygones (0,1 à 167,7 ha). Après avoir analysé et validé les

données des arbres de 1 656 placettes, nous avons pu déterminer les placettes les plus

représentatives de notre aire d’étude. Après analyse, nous avons enlevé 191 placettes jugées

aberrantes. Ainsi, 1 465 placettes seront utilisées dans le cadre de cette recherche, ce qui

représente 48 107 arbres dont les espèces dominantes sont présentées dans le tableau 2. De plus,

notre base de données comporte environ 45 000 polygones dont approximativement 500 polygones

contiennent une ou plusieurs placettes-échantillons, ce qui représente 1 % de notre aire d’étude.

Tableau 2 : Les essences d’arbres dominantes de notre base de données

Nous avons utilisé les variables cartographiques des polygones issues des calculs de possibilité

forestière produites par le bureau du forestier en chef (BFC). Ces données proviennent en effet d’un

programme de couverture photographique. Les variables « cartographiques des polygones

écoforestiers décrivent les caractéristiques du peuplement (ex. : composition, hauteur, densité du

couvert), les conditions biophysiques (ex. : dépôt de surface, drainage), la dynamique forestière (ex.

: végétation potentielle) ainsi que l’historique des perturbations naturelles ou anthropiques » (Bureau

du forestier en chef, 2013). D’un autre côté, nous avons pris en considération les paramètres

climatiques issus du logiciel BioSIM.

Pour estimer des données à caractère climatique à des endroits donnés, BioSIM utilise des bases

de données géoréférencées (latitude, longitude, élévation). Une de ces bases, nommée

« Normales », comprend les températures et précipitations mensuelles moyennes et extrêmes des

valeurs minimales et maximales. Une autre base de données « Quotidiennes » contient les données

météorologiques quotidiennes observées ainsi que les prévisions sur 5 jours qui sont utilisées

seulement dans des conditions en temps réel en cas de nécessité. En effet, BioSIM sélectionne les

sources de données météorologiques adéquates pour chaque endroit localisé, adapte les données

géoréférencées et détermine des valeurs quotidiennes (Ressources naturelles Canada, 2008).

Essence Nom des essences Nombre de tiges

échantillonnées

DHP moyen Nombre de tiges à

l’hectare

Surface

terrière

BOP Bouleau blanc 4925 17,03 6,75% 3,56%

EPN Épinette noire 9546 17,78 30,26% 35,54%

EPR Épinette rouge 3586 20,90 6,09% 5,85%

SAB Sapin baumier 14805 17,25 38,97% 41,37%

THO Thuya occidental 3558 23,10 7,08% 7,38%

Total ---- 48107 19,64 100,00% 100,00%

12

L’utilisation de ces paramètres cartographiques et climatiques des polygones nous permettra de faire

une étude comparative entre les territoires forestiers selon leurs caractéristiques. Ces paramètres

sont listés au tableau 6, à l’annexe 3.

2.3. Estimation de la biomasse résiduelle

Pour estimer la quantité disponible en biomasse forestière résiduelle, nous calculerons tout d’abord

la densité de biomasse résiduelle au niveau de nos placettes-échantillons et, dans un second temps,

nous estimerons la densité de biomasse résiduelle au niveau des polygones et au niveau des

parcelles8 forestières avec KNN. Puis, nous calculerons l’erreur et la précision de cette estimation

avec la méthode bootstrap et, finalement, nous ferons une spatialisation des données estimées et

de leurs coefficients de variabilité (CV) au niveau des polygones et des parcelles. Le schéma à la

figure 2 explique la méthode d’estimation de la biomasse résiduelle suivie.

Figure 2 : Schéma explicatif de la méthodologie d'estimation de la biomasse résiduelle

8 Voir la définition d’une parcelle à l’annexe 1

13

2.3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes

D’un point de vue théorique, la biomasse forestière résiduelle comprend toute la biomasse forestière

non marchande qui pourrait être utilisée dans l’industrie de la bioénergie. La biomasse forestière

résiduelle correspond à la biomasse de l’ensemble de rémanents, de sections de troncs non

commercialisables, de branches, de rameaux (petites branches) et de feuillage. Ces éléments sont

présentés à la figure 3.

Figure 3 : Les composantes de la biomasse forestière, le volume marchand et le tronc à 9 cm au fin bout de la tige

(Source : Alemdag1984, p. 2; Canadian Forest Service, 2005.)

À la demande des partenaires de notre laboratoire, la biomasse forestière résiduelle dans notre

étude se compose de la partie non marchande de la tige (le tronc à 9 cm au fin bout de la tige), la

couronne (composée des branches et du feuillage) des arbres commerciaux ainsi que la biomasse

totale des arbres non commerciaux. Afin d’estimer la biomasse forestière résiduelle d’une placette,

il faut calculer la quantité de biomasse résiduelle pour chaque arbre dans cette placette, puis prendre

la somme de ces quantités de biomasse résiduelle pour avoir celle au niveau de la placette étudiée.

15 cm

9 cm

Volume marchand

Partie non marchande de la tige

DHP

Branches

Feuillage et brindilles

Bois

Écorce

14

2.3.1.1. Calcul de la quantité de biomasse résiduelle d’un arbre

a. Estimation de la biomasse forestière résiduelle des arbres commerciaux

Nous commençons par calculer la quantité de la biomasse de la tige avec écorce, la biomasse de la

couronne et la masse marchande. Nous calculerons par la suite la biomasse de la partie non

marchande de la tige, qui est égale à la biomasse de la tige avec écorce, moins la biomasse

marchande. La biomasse résiduelle des essences d’arbres commerciaux est alors la somme de la

biomasse des couronnes et celle des parties non marchandes de la tige. L’estimation de la biomasse

des espèces d’arbres commerciaux est réalisée à l’aide des équations suivantes (Lambert et al.,

2005) :

woodwoodwood eHDy woodwood 32

1

(1)

barkbarkbark eHDy barkbark 32

1

(2)

stembarkwoodstem eyyy (3)

foliagefoliagefoliage eHDy foliagefoliage 32

1

(4)

branchesbranchesbranches eHDy branchesbranches 32

1

(5)

crownbranchesfoliagecrown eyyy (6)

Avecwoody ,

barky , stemy , foliagey ,

branchesy et

crowny qui sont respectivement la biomasse du tronc,

de l’écorce, du tronc avec écorce, du feuillage, des branches et de la couronne en kg, où D est le

DHP en cm, H est la hauteur en mètre, 1wood , 2wood , 3wood , 1bark , 2bark , 3bark ,

1foliage , 2foliage , 3foliage , 1branches , 2branches , 3branches sont des paramètres de ce

modèle et woode , barke , steme , foliagee , branchese et crowne sont des termes d’erreur.

Pour la biomasse de la partie non marchande de la tige, nous avons calculé la différence entre la

biomasse totale de la tige avec écorce et la biomasse marchande de l’arbre :

lemerchantab_ yyy stemtopstem (7)

15

Où,

topstemy _ : est la biomasse de la partie non marchande de la tige,

stemy : est la biomasse totale de la tige avec écorce estimée avec les équations (1), (2) et (3),

lemerchantaby : est la quantité de biomasse qui correspond à la partie marchande du tronc avec

écorce.

La quantité de biomasse marchande est calculée avec le modèle de prédiction du volume marchand

brut de Perron (2003) en m³. Nous avons converti ce volume marchand en quanti té de biomasse,

en le multipliant par la densité du bois. Les valeurs de la densité ont été extraites des tables de

Jessome (1977).

DensityVoly lemerchantablemerchantab (8)

Avec lemerchantaby qui est la biomasse marchande en kg, Density est la densité du bois en

kg/m3 et lemerchantabVol qui est le volume marchand en m3.

b. Estimation de la biomasse totale des arbres non commerciaux

Étant donné que le modèle de Lambert et al. (2005) permet d’estimer que la biomasse des essences

commerciales seulement, nous avons prédit la quantité de biomasse totale des arbres non

commerciaux par le modèle de Ter-Mikaelian et al. (1997) :

bDaM (9)

Où M est la quantité de biomasse totale en kg, D est le diamètre à la hauteur de la poitrine, a et b

sont des paramètres du modèle.

Après avoir calculé la quantité de biomasse résiduelle au niveau des arbres, nous passons aux

calculs à l’échelle des placettes échantillons.

2.3.1.2. Calcul de quantité de biomasse résiduelle par placette

Pour calculer la quantité de biomasse d’une placette, il suffit de faire la somme des quantités de

biomasse des arbres de la placette, soit :

𝐵𝑖: La quantité de biomasse de la placette i

16

Ni : Le nombre d’arbres dans la placette i

Bij : La quantité de biomasse d’un arbre j de la placette i

La quantité de biomasse en tonnes de la placette i est alors :

𝐵𝑖 = ∑ 𝐵𝑖𝑗

𝑁𝑖

𝑗=0 (10)

La densité 𝜔𝑖 de biomasse d’une placette (en t/ha) est la quantité de biomasse de la placette, divisée

par la surface d’une placette. Sachant que la surface d’une placette est 400 m², dans un hectare, on

aura alors :

𝜔𝑖 = 25𝐵𝑖 (11)

Ces équations, nous permettrons d’estimer la densité de biomasse forestière résiduelle au niveau

des polygones. Pour ce faire, nous avons utilisé la méthode d’apprentissage automatique KNN.

2.3.2. Prédiction de la biomasse forestière résiduelle au niveau des polygones avec la méthode

d’apprentissage automatique KNN

Pour l’estimation de la biomasse résiduelle avec KNN, nous déterminerons tout d’abord les

paramètres les plus corrélés avec la biomasse forestière totale, la métrique de distance adéquate

ainsi que la valeur du nombre de placettes voisines k. Après la détermination de ces éléments clés,

nous serons aptes à estimer la biomasse résiduelle des polygones à partir des k placettes voisines.

Dans cette section, nous expliquerons dans un premier temps la façon avec laquelle nous avons

utilisé la méthode KNN, puis nous détaillerons les étapes de l’estimation avec cette méthode

d’apprentissage automatique.

2.3.2.1. Utilisation de la méthode des k plus proches voisins KNN

Comme le montre la figure 2, la méthode KNN se compose de trois phases, comme pour toute autre

méthode d’apprentissage automatique : une phase d’entrainement, une phase de test et une phase

de validation. Lors de la phase d’entraînement un estimateur est formé à partir de l’apprentissage

avec les données entrées. Dans notre cas d’étude, il s’agit de calculer les distances entre les

polygones et les placettes, en formant une matrice de distances, de même que pour les distances

entre les placettes ; une matrice de distance entre les placettes a aussi été formée. La matrice des

distances entre les placettes nous permet d’estimer alors la biomasse forestière selon le nombre des

placettes voisines. Il reste alors la détermination de la valeur du nombre de placettes voisines k.

17

Pour ce faire, nous estimons la biomasse totale des placettes à partir de leurs placettes voisines

pour k allant de 1 à 20 afin de pouvoir détecter la valeur de k (le nombre de voisins les plus proches)

qui respecte le compromis entre la précision (R²) et l’erreur quadratique moyenne. Une matrice des

placettes voisines de chaque polygone est alors produite. Avec cette matrice, nous pouvons estimer

la biomasse résiduelle au niveau des polygones en calculant la moyenne pondérée des densités de

la biomasse résiduelle. Viens alors la phase de test ; lors de cette étape du programme, nous testons

l’efficacité de notre estimateur en estimant la biomasse résiduelle des placettes à partir de leurs 8

placettes voisines pour 1 000 échantillons Bootstrap de placettes. Cette procédure permet de

calculer la précision de notre estimation, l’erreur quadratique moyenne et le biais. La troisième et

dernière phase, la phase validation, lors de laquelle nous estimons la densité de biomasse résiduelle

par polygone et nous calculons le coefficient de variation des estimations.

Il est à noter que, lors de la phase d’entrainement et la phase de test, nous avons utilisé les densités

de la biomasse forestière totale. Ce qui est dans le but d’avoir un algorithme d’estimation KNN qui

permet de prédire plusieurs mesures liées à la biomasse forestière, non seulement pour la biomasse

résiduelle, mais aussi la biomasse totale et la biomasse selon les espèces d’arbres.

2.3.2.2. Estimation de la biomasse forestière résiduelle avec KNN

Pour déduire la densité de biomasse résiduelle d’un polygone, nous commençons par une étape de

préanalyse des données lors de laquelle nous déterminerons des paramètres d’entrée les plus

corrélés avec la biomasse forestière. Puis, nous ferons appel à la méthode d’apprentissage

automatique KNN dont l’efficacité repose sur l’optimisation de la valeur du nombre de voisins k et

sur le choix de la métrique de distance à utiliser. Cette optimisation est considérée comme étant une

étape indispensable de la phase d’entraînement de l’algorithme KNN.

a. Détermination des paramètres les plus corrélés avec la biomasse forestière totale

L’analyse des données forestières a été effectuée à l’aide de la procédure GLMSELECT de la

plateforme d’étude et analyse statistique SAS. À noter que, selon l’Association des statisticiennes et

statisticiens du Québec, « la procédure GLMSELECT est un croisement entre deux procédures SAS

pour les modèles linéaires : REG et GLM. Ces dernières existent depuis fort longtemps, mais ont

chacune leurs limites. » (Association des statisticiennes et statisticiens du Québec, 2012). Les

critères d’information d’Akaike (AIC) et de Bayes (BIC) (processus de sélection dit « FORWARD »)

ont servi pour sélectionner le meilleur modèle.

18

Certains paramètres ou variables qui interviennent significativement dans l’explication de la valeur

de la distance peuvent être fortement corrélés entre eux, ce qui revient à donner plus de poids à une

information qui se répète dans plusieurs descripteurs. Seuls les paramètres les plus corrélés à la

variable d’intérêt (la quantité de biomasse forestière résiduelle), qui ne sont pas corrélés entre eux,

seront retenus dans le cadre de notre étude.

b. La métrique de distance adéquate : Distance de Gower

La mesure de similarité utilisée entre les polygones cibles et les placettes de référence est la distance

de Gower (1971). Le choix de cette distance est basé sur la nature des valeurs des attributs ou

paramètres cartographiques. Certains de ces attributs sont de type numérique, d’autres de type

catégorique. La distance de Gower prend en considération ces deux types de valeurs de paramètres

des placettes de référence (𝑥𝑟) et les polygones cibles (𝑥𝑐) :

sinon0

observéssont et si1

:numérique r descripteuun pour ou

sinon1

différentssont et si0

:ecatégoriqu r descripteuun pour et

sinon0

observéssont et si1

où/1),(

..

..

.

..

.

..

.

1 1 ...

jcjr

j

jcjr

j

xx

jcjrj

xx

jcjrj

xx

v

j

v

j

j

xx

j

xx

j

xxcr

xxR

xx

d

j

xxd

j

xx

dxxD

cr

cr

cr

crcrcr

Où ),( cr xxD est la valeur de l’indice de non similarité de Gower ; j est un descripteur ; v est le

nombre des paramètres descripteurs ; jxx cr .

est le delta de Kronecker (Legendre et Legendre,

1984) ; j

xx crd . est la distance entre les valeurs du paramètre descripteur j pour les polygones 𝑥𝑟 et

𝑥𝑐 ; 𝑅𝑗 est l’amplitude des paramètres descripteurs.

c. L’estimation de la biomasse forestière résiduelle des polygones à partir des k placettes voisines

La biomasse résiduelle d’un polygone est la moyenne de la densité (tonne/hectare) de biomasse

résiduelle des k placettes les plus semblables à ce polygone, c’est-à-dire les placettes qui ont les

attributs cartographiques similaires ou semblables à ceux du polygone étudié. Ces placettes seront

appelées les placettes voisines.

(12)

19

L’estimation de la biomasse résiduelle des polygones cibles est obtenue par la moyenne pondérée

des biomasses des k placettes de référence les plus proches. La pondération des placettes de

référence est basée sur l’inverse de la distance (Cleveland, 1979 ; Atkeson et al., 1997). Le poids

d’une placette r pour le polygone cible c est calculé comme suit :

rcrc

xxDw

,1

1.

(13)

L’estimation finale de la biomasse résiduelle pour les polygones cibles est calculée par :

k

r

rc

r

k

r

rc

c

w

yw

y

1

.

1

.

ˆ

(14)

Où 𝑦𝑟 est la variable d’intérêt (la biomasse résiduelle) de la 𝑟𝑖è𝑚𝑒 placette la plus proche et k est

le nombre des placettes de référence les plus proches et qui ont été retenues.

d. Détermination de la valeur de k

Le nombre des k placettes les plus proches correspond à celui qui minimise le ratio de l’erreur

quadratique moyenne des estimations (REQM) et maximise la précision R². Il a été déterminé par

validation croisée en suivant les étapes suivantes :

(1) Estimer la densité de biomasse forestière totale de chaque placette en calculant la moyenne

pondérée de ses k placettes voisines ;

(2) Calculer le biais, l’erreur quadratique moyenne REQM et la précision R² ;

(3) Refaire les étapes 1 et 2 pour k allant de 1 à 20 ;

(4) Faire le graphe de variation du biais, de REQM et R² en fonction des valeurs de k ;

(5) Déterminer la valeur de k qui représente un compromis acceptable entre l’erreur, la précision

et le biais.

2.3.3. Estimation de la précision du calcul de la biomasse résiduelle avec Bootstrap

La variabilité des estimations a été représentée par le coefficient de variation (CV). L’utilisation du

coefficient de variation est plus judicieuse étant donné que cet estimateur d’imprécision facilite

20

l’interprétation des résultats. Ce coefficient de variation est défini comme étant le quotient de la

racine carrée de la variance sur la moyenne. Le coefficient de variation a été estimé par une

procédure de bootstrap proposée par McRoberts et al. (2011) :

boot

boot

boot

VarCV

ˆ

)ˆ(

(15)

Où )ˆ(bootVar

est l’estimation de la variance de la biomasse résiduelle moyenne de la distribution

bootstrap obtenue comme suit :

bootn

i

bootbootb

boot

bootn

Var1

2)ˆˆ(1

1)ˆ(

(16)

Où bootn est le nombre d’échantillons bootstrap, boot

b̂ est l’estimation de la biomasse

résiduelle moyenne du 𝑏ième échantillon bootstrap, boot̂ est l’estimation de la biomasse

résiduelle moyenne de la distribution bootstrap obtenue comme suit :

bootn

b

bootb

boot

bootn 1

ˆ1

ˆ

(17)

L’approche de construction des échantillons bootstrap est décrite comme suit :

(1) On fait un tirage avec remise (bootstrap) de 1 465 placettes à partir des 1 465 placettes-

échantillons dont on dispose au départ. Cet échantillon bootstrap est alors utilisé comme jeu

de données de référence pour une analyse KNN.

(2) On calcule la biomasse résiduelle pour chaque polygone, en utilisant les k placettes voisines

les plus proches.

(3) On calcule la biomasse résiduelle moyenne par unité de surface de l’échelle considérée

(parcelle) et si l’unité de surface considérée est le polygone, on saute cette étape.

(4) On répète les étapes (1) à (3) 1 000 fois.

21

(5) On calcule le coefficient de variation de la biomasse résiduelle moyenne (1 000 observations)

par unité de surface (parcelle).

(6) Le coefficient de variation calculé à l’étape (5) est le coefficient de variation bootstrap de la

biomasse résiduelle moyenne pour chaque unité de surface.

2.4. Lien entre la précision et la stratification

Avant d’effectuer un inventaire d’opération (inventaire avant récolte), l’estimation de la biomasse

forestière dépend de la stratification du territoire. Cette stratification est fonction des attributs des

peuplements des cartes écoforestières et des placettes d’inventaire qui sont utilisées pour la

planification des stratégies d’aménagement forestier sur le territoire public. Les objectifs de précision

qui sont visés et qui déterminent l’intensité d’échantillonnage (i.e. le nombre de placettes qui sont

installées) sur le territoire se font à l’échelle des unités d’aménagement forestier (BFEC, 2013).

Toutefois, la précision des estimations est assez faible à l’échelle des peuplements forestiers (5 à

10 ha) (Bernier, 2010).

Selon la démonstration mathématique de Yanagawa (1975), le gain en précision due à la

stratification est assuré pour toute stratification. Ainsi, pour améliorer la précision de nos résultats,

nous avons calculé les quantités de biomasse résiduelle à une échelle plus grande que celle des

polygones, c’est à dire des parcelles.

2.5. Localisation de la biomasse forestière résiduelle demandée

Nous avons utilisé les données des unités de surface géolocalisées afin d’attribuer à chaque unité

l’intervalle dans lequel se trouve la quantité de biomasse forestière résiduelle. Nous avons utilisé

deux unités de surface, les polygones et les parcelles. La localisation de la biomasse sur ces

surfaces a été effectuée à l’aide du logiciel ArcGIS. Le logiciel ArcGIS est un système complet qui

permet de recueillir, organiser, gérer, analyser, communiquer et diffuser des informations

géographiques (ArcGIS, 2016).

22

3. RÉSULTATS

Cette section présente les résultats de l’estimation de la quantité de biomasse résiduelle ainsi que

les cartes de localisation de cette biomasse. La première partie est consacrée aux résultats de calcul

de la biomasse résiduelle au niveau des placettes. La seconde présente les résultats de l’estimation

de la biomasse résiduelle au niveau des polygones et des parcelles avec la méthode KNN. La

troisième sert à estimer la performance de notre méthode de prédiction en calculant le biais, l’erreur

quadratique moyenne et la précision R² avec la méthode bootstrap. La quatrième concerne, quant à

elle, les cartes de la spatialisation de la biomasse forestière.

3.1. Estimation de la biomasse forestière résiduelle au niveau des placettes

La biomasse résiduelle dans notre étude comporte la partie non marchande de la tige des essences

d’arbres commerciaux, la biomasse de leur couronne ainsi que la biomasse totale des essences non

commerciales. Ainsi, dans cette section, nous présentons les résultats d’estimation de chacun de

ces types de biomasse ainsi que les résultats de la somme de toutes ces biomasses, qui représente

la biomasse résiduelle de notre étude.

3.1.1. Estimation de biomasse de la partie non marchande de la tige

Dans un premier temps, nous avons calculé la quantité de biomasse marchande et celle de la

biomasse totale de la tige avec écorce pour tous les arbres de nos placettes-échantillons. La figure

15 à l’annexe 2 représente la relation entre ces deux valeurs pour toutes les essences d’arbre et le

diamètre à la hauteur de la poitrine (DHP) au niveau des arbres. Pour avoir une idée claire sur cette

distribution, la figure 14 à l’annexe 2 représente la distribution de la biomasse marchande et celle de

la tige avec écorce pour les deux essences d’arbres dominantes, c’est-à-dire l’épinette noire (EPN)

et le sapin baumier (SAB).

Dans un second temps, nous avons calculé la biomasse marchande et la biomasse de la partie non

marchande de la tige au niveau de chaque placette. La figure 4 représente la relation entre la

biomasse marchande et la biomasse totale de la tige au niveau des placettes. La différence entre la

valeur de la biomasse marchande et celle de la biomasse de la tige avec écorce donne alors la

biomasse de la partie non marchande de la tige, à 9 cm, que nous cherchons.

23

Figure 4 : La masse marchande en fonction de la masse totale de la tige au niveau des placettes

3.1.2. Estimation de la biomasse de la couronne des arbres commerciaux

Nous avons calculé la biomasse de la couronne des arbres commerciaux avec les équations (4), (5)

et (6) du modèle de Lambert et al. (2005). La figure 16 à l’annexe 2 représente la distribution de la

biomasse de la couronne des arbres commerciaux par rapport au diamètre à la hauteur de la poitrine

(DHP).

3.1.3. Estimation de la biomasse des arbres non commerciaux

Pour les essences non commerciales, nous avons exclu les arbustes (plante ligneuse vivace dont la

hauteur ne dépasse pas 10 m) comme le noisetier à long bec, le viorne cassinoïde et le viorne à

feuilles d’aulne. Nous avons exclu aussi les arbres morts (1 700 arbres). Nous avons pris en compte

les trois essences représentées dans le tableau 3.

Tableau 3 : Les essences d’arbres non commerciaux retenues pour notre étude

Essence Nom en français Anglais Intervalle de DHP

ERE Érable à épis Mountain maple entre 2 à 24 cm

ERP Érable de Pennsylvanie Striped maple entre 2 à 22 cm

PRP Cerisier de Pennsylvanie Pin cherry entre 2 à 36 cm

Ces trois essences d’arbres sont présentes dans 1 381 placettes et la densité de ce type de biomasse

varie de 0 à 199 kg. La figure 18, à l’annexe 2, présente la distribution de la quantité de biomasse

totale des arbres non commerciaux par rapport au diamètre à la hauteur de la poitrine.

24

3.1.4. La biomasse résiduelle demandée

La biomasse résiduelle dans notre étude est alors la somme de la biomasse de la partie non

marchande de la tige et celle de la couronne des arbres commerciaux ainsi que la biomasse totale

des arbres non commerciaux. La distribution de la densité de cette biomasse résiduelle, par rapport

à la densité de biomasse totale des arbres commerciaux au niveau des placettes, est représentée

dans la figure 5. Cette distribution montre qu’au niveau des placettes, les valeurs de biomasse

résiduelle prédites sont toutes très inférieures à la biomasse totale, ce qui est logique.

Figure 5 : La biomasse totale en fonction de la biomasse résiduelle

3.2. Estimation de la biomasse forestière résiduelle au niveau des polygones avec la

méthode KNN

L’estimation de la densité de biomasse résiduelle au niveau des polygones avec KNN demande

principalement la détermination des paramètres les plus corrélés avec la biomasse ainsi que la

précision de la valeur du paramètre k qui représente le nombre de voisins à prendre en compte.

3.2.1. Les paramètres les plus corrélés avec la biomasse

L’analyse des paramètres cartographiques et climatiques via la plateforme d’étude et l’analyse

statistique SAS (effectuée à l’aide de la procédure GLMSELECT) donne les paramètres les plus

corrélés à la variable d’intérêt, c’est-à-dire la quantité de biomasse forestière résiduelle, et qui ne

sont pas corrélés entre eux. Ces paramètres sont listés au tableau 4. Vu que notre territoire d’étude

est restreint, la variabilité des paramètres climatiques n’est pas importante au point d’influencer

considérablement la variabilité spatiale de la biomasse forestière résiduelle et ainsi d’expliquer la

25

disponibilité en biomasse forestière. Alors, aucun des paramètres climatiques n’est retenu comme

des paramètres les plus corrélés avec la biomasse forestière.

Le tableau 4 liste les paramètres les plus corrélés à la biomasse forestière et R² dans ce tableau

représente le cumule des R² des paramètres. Par exemple, le paramètre « classe de hauteur »

(CL_HAUT) explique 51,34 % de la variabilité de la biomasse forestière, et la combinaison des

paramètres CL_HAUT et « classe de densité » (CL_DENS) explique 60,23 % de la biomasse

forestière, ainsi de suite, pour tous les autres paramètres.

Tableau 4 : Les paramètres les plus corrélés avec la biomasse forestière

Paramètre Définition du paramètre Type de

paramètre Unité R² cumulée

CL_HAUT Classe de hauteur des arbres Numérique m 0,5134

CL_DENS Classe de densité Numérique % 0,6023

GR_ESS Groupe d'essences d'arbres Catégorique --- 0,6339

DEP_SUR Dépôt de surface Catégorique --- 0,6394

CL_AGE Classe d'âge des arbres Numérique an 0,6442

TYPE_COUV Type de couvert Catégorique --- 0,6470

CL_DRAI Classe de drainage Numérique --- 0,6501

TYPE_ECO Type écologique Catégorique --- 0,6519

CL_PENT Classe de la pente (Taux d’inclinaison) Numérique % 0,6520

3.2.2. La détermination de la valeur de k (nombre des voisins les plus proches)

Dans la partie de détection du nombre de voisins les plus proches k, inclus dans la phase

d’entraînement de l’algorithme KNN, nous avons utilisé la biomasse totale pour procéder au calcul

du biais, de l’erreur quadratique moyenne et de la précision, afin de déduire ainsi la valeur de k.

Nous avons pris en compte non seulement le changement de la position de la droite de régression

de la distribution (des valeurs observées par rapport aux valeurs prédites), mais aussi l’évolution de

l’erreur quadratique moyenne et la précision R².

La figure 6 représente la distribution de la biomasse totale observée au niveau des placettes (c’est-

à-dire celle calculée avec les équations de Lambert (2005)) par rapport à la biomasse totale prédite

avec KNN au niveau des placettes. Nous remarquons dans cette figure le changement de la position

de la droite de régression de la distribution représentée en rouge par rapport à la droite de régression

idéale D : y = x. Pour des valeurs de k allant de 1 à 8, nous remarquons que la pente de la droite de

régression s’approche de la droite D : y = x. Pour la valeur de k égale à 8, les deux droites sont

26

juxtaposées l’une sur l’autre. Par contre, pour des valeurs de k supérieures à 8, la droite de

régression de la distribution s’éloigne de la droite D.

Selon la variation du taux d’erreur REQM% et de R²% par rapport à la valeur de k, nous pourrons,

donc, déterminer le nombre de placettes voisines k adéquatement. La figure 7 montre que le biais

de notre estimation augmente de 0,26 % à 2,45 %. Elle représente aussi l’évolution de la précision

R² de 37,2 % à 62,8 %. La précision devient plus stable à partir de la valeur 61,56 %. Cependant, le

taux d’erreur quadratique moyenne REQM diminue et devient stable quand k égale 8. Ainsi, la valeur

de k qui représente le meilleur compromis entre le biais, l’erreur et la précision est égale à 8.

Figure 6 : Résultats de la prédiction de la biomasse totale pour k dans {1, 4, 8, 20}

Nous n’avons pas pris les valeurs supérieures à 8 étant donné que plus le nombre de voisins

augmente, plus les calculs deviennent longs En plus, la précision R² et l’erreur quadratique moyenne

deviennent plutôt stables à partir de k égale 8 ; voir la figure 7. En outre, la droite de régression de

la biomasse observée par rapport à la biomasse prédite s’éloigne de la droite de régression idéale

D, comme on le remarque à la figure 6.

27

Figure 7 : Variation du taux d’erreur quadratique moyenne, du taux de biais et de la précision R²% par rapport à la valeur de k

3.2.3. La biomasse résiduelle prédite avec KNN

La figure 8 montre les résultats de notre prédiction. Elle représente la distribution de la biomasse

totale par rapport à la biomasse résiduelle. La droite de régression de cette distribution est

représentée en rouge à la figure 8 et son équation est sous la forme y = 0,99 x + 0,09 : elle est ainsi

très proche de la droite de régression idéale D : y = x. La figure 8 représente un des essais de

prédiction de la biomasse forestière totale au niveau des placettes, avec la méthode KNN entraînée

et validée. Cet essai a donné d’un taux de précision égal à 53,32 %.

Figure 8 : La biomasse résiduelle observée en fonction de la biomasse résiduelle prédite

40,29

1,45

61,56

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12 14 16 18 20

Po

urc

enta

ge

Valeur de k

REQM%

Biais%

R2%

28

3.3. Validation de la méthode d’estimation avec la méthode bootstrap

Dans cette section, nous utilisons la méthode de validation bootstrap, non seulement pour estimer

la précision et l’erreur de notre estimation, mais aussi pour calculer le coefficient de variation de nos

résultats prédits.

3.3.1. Estimation de la précision de la biomasse forestière avec bootstrap

Dans la phase de test, nous avons estimé la précision R², l’erreur quadratique moyenne et le biais

de notre estimation, et ce, via l’estimation de la biomasse résiduelle en utilisant 1 000 échantillons

de placettes issus des itérations bootstrap. Il s’agit d’estimer la densité de biomasse totale pour k

égal à 8 et de calculer le biais, l’erreur et la précision pour chaque itération. La figure 9 présente la

variation de ces trois variables statistiques.

Figure 9 : La variation du biais, l'erreur quadratique moyenne, et la précision

Les résultats d’estimation obtenus lors de notre recherche indiquent une précision allant de 59,5 %

à 71 %, avec une erreur de calcul REQM située de 29 % à 34,5 %. Le tableau 5 résume les résultats

d’estimation de la précision de notre méthode.

29

Tableau 5 : Les extremums, la moyenne et la médiane du biais, l’erreur et la précision de nos prédictions

biais% REQM% R2%

Minimum 0,000 29,009 59,527

Moyenne 1,038 31,882 65,391

Médiane 0,963 31,867 65,398

Maximum 3,487 34,560 71,090

L’algorithme utilisé et la méthodologie suivie en général, nous ont permis d’obtenir des résultats

pertinents au niveau de l’estimation de la biomasse forestière résiduelle, comparativement aux

résultats de l’estimation du volume de biomasse forestière obtenus avec la méthode KNN réalisée

par Bernier et al. (2010) dont la précision d’estimation était de 19 %. Ce succès est dû

particulièrement à la phase de traitement de données durant laquelle nous avons trié nos données

et éliminé les données aberrantes, par exemple des arbres ayant un diamètre à la hauteur de la

poitrine qui dépasse les mesures normales des espèces d’arbres. L’utilisation de cette méthodologie

pourra aussi s’avérer pertinente pour l’estimation de la biomasse forestière marchande ainsi que

d’autres types de biomasse forestière.

3.3.2. Calcul du coefficient de variation

La figure 10 représente le coefficient de variation de notre estimation selon les proportions de

superficies forestières au niveau des polygones ainsi qu’au niveau des parcelles forestières. Au

niveau des polygones, la variabilité des estimations est plus importante qu’au niveau des parcelles.

Pour 95 % de notre superficie forestière, le coefficient de variation se situe de 5 % à 15 % au niveau

des polygones. Pour les parcelles, c’est 97 % du territoire forestier dont le coefficient de variation

varie de 0 % à 5 %.

L’histogramme démontre clairement que la variabilité des estimations diminue quand il s’agit des

unités de surface plus larges (les parcelles). Ainsi, les résultats d’estimation au niveau des parcelles

sont plus précis que ceux au niveau des polygones. Cependant, ces résultats représentent les

densités de biomasse sur une échelle plus vaste, ce qui engendre une perte d’information

géographique sur l’emplacement de la biomasse. Alors que la spatialisation des données estimées

à l’échelle des polygones donne plus d’information sur les endroits où se trouve la biomasse.

30

Figure 10 : Histogramme de coefficient de variation à l’échelle des polygones et des parcelles

3.4. Spatialisation de la biomasse forestière résiduelle

L’amélioration de la rentabilité des activités de récolte de la biomasse demande des données qui

permettent de bien cibler les proportions de territoire offrant un meilleur potentiel de biomasse

forestière résiduelle. Ainsi, nous proposons une carte grâce à laquelle les responsables de la récolte

peuvent établir leur plan de récolte en déterminant les territoires à récolter selon la quantité de

biomasse demandée par le marché. Cette carte est réalisée avec le logiciel ArcGIS, elle permet de

représenter non seulement les densités ou les quantités de la biomasse résiduelle estimées, mais

aussi le coefficient de variation des valeurs estimées. Le coefficient de variation permettra d’avoir

une idée sur l’intervalle de variation de nos estimations, ainsi les responsables de la récolte peuvent

prendre en considération la valeur minimale de la quantité de biomasse résiduelle qu’ils peuvent

trouver.

La figure 11 représente la distribution de la densité de biomasse résiduelle au niveau des polygones

de notre aire d’étude. Dans ce cas d’étude, la majorité des polygones de notre aire d’étude

comprennent une quantité de biomasse résiduelle moyenne de 2,65 t/ha à 30 t/ha, ce qui est

représenté en bleu sur la carte (figure 11). Cependant, il existe des parties du territoire qui

comportent des quantités importantes de biomasse résiduelle allant de 40 t/ha à 60,9 t/ha ; ces

0 5 10 15 20 25 30 35

Polygones 1% 42% 28% 25% 3% 1% 1% 0%

Parcelles 37,27% 60,34% 2,36% 0,04% 0,00% 0,00% 0,00% 0,00%

0%

10%

20%

30%

40%

50%

60%

70%P

rop

ort

ion

de

sup

erfi

cie

fore

stèr

es

Coefficient de variation (%)

Polygones

Parcelles

31

parties sont situées au nord-est et au sud-ouest de notre aire d’étude et elles sont représentées en

rouge, orange et jaune (figure 11).

La précision de ces estimations de biomasse peut être déterminée à l’aide de la carte à la figure 12.

Cette carte représente la localisation du coefficient de variation de la densité de biomasse forestière

résiduelle. Elle montre que le coefficient de variation est majoritairement « moyen », il est de 6 % à

15 % dans la majorité du territoire. Pourtant, ce coefficient est clairement faible (entre 2 % et 5 %)

dans certaines parties du territoire d’étude, précisément aux superficies situées au nord-est et celles

au sud-ouest, dont la couleur rouge est dominante à la figure 12.

Des cibles de récolte intéressantes sont entourées par des cercles rouges dans les deux cartes. Ces

parties de territoire comprennent des quantités potentielles de biomasse résiduelle ; de plus, la

précision de ces estimations est intéressante étant donné que la variabilité des estimations est faible.

De cette façon, les responsables de la récolte peuvent cibler les portions du territoire offrant les

meilleures possibilités d’obtenir les quantités recherchées et ainsi améliorer leur rentabilité.

32

Biomasse résiduelle (t/ha)

Figure 11 : La carte représentant la variabilité spatiale de la densité de biomasse forestière résiduelle moyenne disponible entre 2008 et 2018 au niveau des polygones

33

Coefficient de variation

Figure 12 : La carte représentant la variabilité spatiale du coefficient de variation entre 2008 et 2018 au niveau des polygones

34

4. DISCUSSION

Selon Fassnacht (2014), l'estimation de la biomasse forestière sur de grandes surfaces par des

mesures au sol nécessite un réseau dense de placettes d'inventaire pour atteindre une précision

acceptable. Les méthodes d’apprentissage automatique nous ont permis de prédire la biomasse

résiduelle au niveau d’une grande échelle à partir d’un nombre limité de placettes. Ainsi, nous

n’avons pas eu besoin d’augmenter la densité des placettes-échantillons pour améliorer la précision

de nos résultats. Dans le cadre de notre étude, nous avons utilisé seulement 9 paramètres et 1 465

placettes pour estimer la biomasse forestière résiduelle de plus de 45 000 polygones. Nous avons

obtenu un taux de précision moyen de 65 % et une erreur de 31 %, ce qui est équivalent de 10,5

t/ha (résultats de 1 000 itérations bootstrap).

Nous avons présenté deux études d’estimation de la biomasse forestière avec la méthode des k plus

proches voisins (KNN) provenant de la revue de littérature. Celle de Bernier (2010) qui a prédit le

volume marchand avec la méthode KNN, et eu comme résultat un facteur de précision R² se situe

de 16 % à 19 % avec une erreur de 39 % à 43 %. Quant à celle de Fehrmann (2008), il s’agit de

l’estimation de la biomasse d’un arbre individuel avec KNN, cette estimation a une précision de 16,4

% pour l’épinette et de 14,5 % pour le pin. Cependant, nous avons eu un taux de précision allant de

59,5 % à 71 % et centré autour de 65,4 % dans notre étude d’estimation de biomasse forestière

résiduelle.

La variation de la performance de la méthode KNN entre l’étude de Bernier (2010), celle de

Fehrmann (2008) et notre étude pourrait être due aux pertes d’informations. Le risque de perte

d’information est plus susceptible lors du traitement et de la validation des données d’entrée, lors

l’optimisation des paramètres d’entrée ou lors de la phase d’entraînement de KNN, c’est-à-dire, la

détermination de la valeur de k et le choix de la métrique de la distance appropriée à la nature de

nos données.

35

5. CONCLUSION

Dans notre étude, nous avons, dans un premier temps, calculé la quantité de biomasse résiduelle au niveau

des arbres ; elle se compose de la partie non marchande du tronc à 9 cm, la couronne des essences d’arbres

commerciaux et la biomasse totale des arbres non commerciaux. Nous avons calculé la densité de ce type

de biomasse au niveau des placettes-échantillons. Ensuite, nous avons utilisé la méthode d’apprentissage

automatique KNN pour estimer la densité de biomasse résiduelle dans les polygones. Pour estimer la

performance de l’ensemble de notre modèle, nous avons fait appel à la méthode bootstrap pour estimer les

valeurs du biais, l’erreur quadratique moyenne et la précision R². Finalement, nous avons calculé la variabilité

des résultats avec bootstrap à l’échelle des polygones et à une échelle plus grande, les parcelles. Concernant

la variabilité des résultats, nous avons constaté que la variabilité diminue quand il s’agit d’une échelle plus

vaste.

Dans le but d’améliorer la gestion des activités d’aménagement forestier, nous avons produit non

seulement une carte de localisation des densités de biomasse résiduelle estimées, mais aussi une

carte de localisation de la précision des valeurs estimées. Avec ces données estimées et localisées,

les responsables de la récolte de biomasse peuvent cibler les territoires où la biomasse résiduelle

est potentiellement omniprésente en ayant une idée sur la variabilité de ces estimations. Une

planification de récolte basée sur les estimations localisées permettra de bien gérer les activités de

récolte et d’améliorer ainsi leur rentabilité.

La performance de notre méthodologie réside dans l’obtention d’une précision allant de 59,5 % à 71

% et centrée autour de 65,4 %. Un tel taux de précision peut être utile non seulement pour estimer

la biomasse forestière marchande, mais aussi pour estimer la quantité de biomasse selon les

essences d’arbres. Nous ouvrons la possibilité à l’utilisation d’autres méthodes d’apprentissage

automatique dans le domaine forestier, comme le réseau de neurones artificiels, une méthode

inspirée du fonctionnement des neurones biologiques.

L’utilisation des méthodes d’apprentissage automatique peut donner des résultats pertinents dans

le domaine des sciences forestières. Ces méthodes pourraient améliorer la précision des prédictions

non seulement de la biomasse forestière, mais aussi pour l’estimation d’autres facteurs comme le

taux de carbone à partir des sources de données différentes, telles que les données de télédétection

ou des images satellites. Les application des méthodes d’apprentissage offre donc plus de

possibilités.

https://fr.wikipedia.org/wiki/Neurone

36

Annexe 1 : Terminologie

Biomasse forestière résiduelle

La biomasse forestière résiduelle provenant de la récolte forestière se compose de rémanents, de sections

de troncs non commercialisables, de houppiers, de branches, de rameaux et de feuillage (Vision Biomasse

Québec, 2015).

Placette

Une placette est la zone forestière qui entoure un point aléatoirement choisi. On peut dire que c’est un

échantillon de la forêt à partir duquel on détermine plusieurs caractéristiques spatiales de la forêt. Le type de

placettes d’inventaire et la disposition des points d’inventaire influencent tous deux les propriétés statistiques

de l’estimateur du stock de bois sur pied ainsi que le stock de la biomasse (Ministère des Ressources

naturelles et de la Faune, 2012).

Polygone

C’est un espace forestier qui regroupe plusieurs placettes ayant des propriétés équivalentes comme le montre

la figure 13. La carte forestière présente donc les surfaces et la répartition spatiale des strates forestières

photo-interprétées au moyen des polygones/peuplements qui appartiennent à chacune des strates (Ministère

des Ressources naturelles et de la Faune, 2012).

Parcelle forestière

Les parcelles sont des unités de surface qui servent à des fins d’aménagement et d’allocation de la matière

ligneuse. Il s’agit d’une subdivision d’aménagement de territoires publics exploitables en unités territoriales

plus petites délimitées par les lignes que l’on peut facilement reconnaître sur le terrain. Une parcelle est

composée de plusieurs polygones (Ressources Naturelles et Faune Québec, 2007).

Strate

Les strates forestières correspondent aux différentes classes de forêt présentes sur un territoire. La

stratification consiste à découper la forêt à inventorier en zones aussi homogènes que possible du point de

vue de la variabilité de la grandeur à estimer (Ministère des Ressources naturelles et de la Faune, 2012). La

stratification ajoute une variabilité additionnelle aux estimations, qui est reliée à l’incertitude sur les attributs

des strates. Cette incertitude est complexe et comprend des aspects qui vont au-delà de l’exactitude des

attributs (Orzanco, 2006).

Figure 13 : Schéma illustratif de la stratification d’un territoire forestier fictif

37

Annexe 2 : La relation entre la biomasse forestière et le DHP

Figure 14 : La biomasse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en fonction du DHP pour deux essences dominantes de notre étude : l’épinette noire (EPN) et le sapin baumier

(SAB)

38

Figure 15 : La masse totale de la tige des essences d’arbres commerciaux et la biomasse marchande en fonction du DHP

Figure 16 : La relation entre la biomasse de la couronne des essences commerciales et le DHP

39

Figure 17 : La biomasse totale des essences d’arbres non commerciaux en fonction du DHP

40

Annexe 3 : Les paramètres cartographiques et climatiques

Tableau 6 : Les paramètres cartographiques et climatiques

Paramètre Description Type Nature Unité

ORIGINE Année de la perturbation d'origine(plus

de 75 % de la surface d'un peuplement a disparu)

Cartographique Numérique an

GTYF Grand type de forêt Cartographique Catégorique ---

DEP_SUR Dépôt de surface Cartographique Catégorique ---

TYPE_COUV Type de couvert Cartographique Catégorique ---

GR_ESS Groupe d'essences d'arbres Cartographique Catégorique ---

TYPE_ECO Type écologique Cartographique Catégorique ---

CL_DRAI Classe de drainage Cartographique Numérique ---

CL_DENS Classe de densité Cartographique Numérique %

CL_AGE Classe d'âge des arbres Cartographique Numérique an

CL_HAUT Classe de hauteur des arbres Cartographique Numérique m

CL_PENT Classe de la pente de l'unité de surface

d'intérêt (Taux d’inclinaison) Cartographique Numérique %

Elevation Élévation Cartographique Numérique m

Degre_jour Degrés-jour Climatique Numérique °C

Preci_total Précipitation totale Climatique Numérique mm

Preci_saison_croissance Précipitation à la saison de croissance Climatique Numérique mm

T_min Température minimale Climatique Numérique °C

T_max Température maximale Climatique Numérique °C

T_moy Température moyenne Climatique Numérique °C

T_moy_saison_croissance Température moyenne à la saison de

croissance Climatique Numérique °C

Jour_ss_gel Jours sans gel Climatique Numérique Jour

Saison_croissance Saison de croissance Climatique Numérique Jour

Dernier_Jour_gel Dernier jour de gel Climatique Numérique Jour julien

Premier_Jour_gel Premier jour de gel Climatique Numérique Jour julien

Aridite Indice d'aridité Climatique Numérique ---

Préci_Neig Précipitations neigeuses Climatique Numérique dm

Radiation_tot Radiation totale Climatique Numérique MJ/m²

41

RÉFÉRENCES

Association des statisticiennes et statisticiens du Québec. (2012). La chronique SAS – Diviser pour régner avec PROC GMLSELECT. Récupéré le 7 août 2016 du site de l’association des statisticiennes et statisticiens du Québec. http://www.association-assq.qc.ca/2012/05/24/la-chronique-sas-%C2%ABdiviser-pour-regner-avec-proc-gmlselect%C2%BB/

Besse, P. (2005). DATA Mining II. Modélisation Statistique & Apprentissage. Université de Toulouse.

Bernier, P. Y., Daigle, G., Rivest, L. P., Ung, C. H., Labbé, F., Bergeron, C., & Patry, A. (2010). From plots to landscape: a k-NN-based method for estimating stand-level merchantable volume in the Province of Québec, Canada. The Forestry Chronicle, 86(4), 461-468.

Bureau du forestier en chef. (2013). Manuel de détermination des possibilités forestières 2013-2018. Québec, Canada: Martin Côté et al.

Bureau du forestier en chef. (2014), Résultats finaux de l’analyse des possibilités forestières période 2013-2018, Unité d’aménagement 035-51. Québec, Canada: Jean Girard et al.

Cambero, C., & Sowlati, T. (2014). Assessment and optimization of forest biomass supply chains from economic, social and environmental perspectives–A review of literature. Renewable and Sustainable Energy Reviews, 36, 62-73

Canada. Ressources naturelles Canada. (2014). Mobiliser l’avantage énergétique du Canada : Miser sur l’innovation et l’efficacité en matière de technologie énergétique pour favoriser la compétitivité et la prospérité future, Canada : Conférence des ministres de l’Énergie et des Mines. Récupéré le 22 juillet 2016 du site du ministère. http://www.rncan.gc.ca/sites/www.nrcan.gc.ca/files/www/pdf/publications/emmc/14-0174_Mobilizing_Report_f.pdf

Chirici, G., Mura, M., McInerney, D., Py, N., Tomppo, E. O., Waser, L. T. & McRoberts, R. E. (2016). A meta-analysis and review of the literature on the k-Nearest Neighbors technique for forestry applications that use remotely sensed data. Remote Sensing of Environment, 176, 282-294.

Conseil canadien sectoriel de la chaîne d'approvisionnement. (2016). Qu’est-ce qu’une chaîne d’approvisionnement ? Récupéré le 29 juillet 2016 du site du Conseil canadien sectoriel de la chaîne d'approvisionnement. http://www.supplychaincanada.org/fr/chaine-approvisionnement

Demirbaş, A. (2001). Biomass resource facilities and biomass conversion processing for fuels and chemicals. Energy conversion and management, 42(11), 1357-1378.

Denoeux, T. (1995). A k-nearest neighbor classification rule based on Dempster-Shafer theory. IEEE transactions on systems, man, and cybernetics, 25(5), 804-813.

Esri. (2016). Qu'est-ce que ArcGIS ? Récupéré le 28 juillet 2016 du site d’ArcGIS. http://resources.arcgis.com/fr/help/getting-started/articles/026n00000014000000.htm

Fassnacht, F. E., Hartig, F., Latifi, H., Berger, C., Hernández, J., Corvalán, P., & Koch, B. (2014). Importance of sample size, data type and prediction method for remote sensing-based estimations of aboveground forest biomass.Remote Sensing of Environment, 154, 102-114.

http://www.rncan.gc.ca/sites/www.nrcan.gc.ca/files/www/pdf/publications/emmc/14-0174_Mobilizing_Report_f.pdf

http://www.rncan.gc.ca/sites/www.nrcan.gc.ca/files/www/pdf/publications/emmc/14-0174_Mobilizing_Report_f.pdf

http://www.supplychaincanada.org/fr/chaine-approvisionnement

http://resources.arcgis.com/fr/help/getting-started/articles/026n00000014000000.htm

42

Fehrmann, L., Lehtonen, A., Kleinn, C., & Tomppo, E. (2008). Comparison of linear and mixed-effect

regression models and ak-nearest neighbour approach for estimation of single-tree biomass. Canadian

Journal of Forest Research,38(1), 1-9.

Fernández, S. T., Sánchez, J. P. P., & Trashorras, A. J. G. (2016). Analysis of forest residual biomass potential for bioenergy production in Spain. Clean Technologies and Environmental Policy, 18(1), 209-218.

Field, C. B., Campbell, J. E., & Lobell, D. B. (2008). Biomass energy: the scale of the potential resource. Trends in ecology & evolution, 23(2), 65-72.

Gammerman, A., & Vovk, V. (2010). Prédictions contrôlées en apprentissage automatique. Revue MODULAD, 16(42).

Gouvernement du Québec. (2016). L’énergie des Québécois – Source de croissance. La politique énergétique 2030. Québec, Canada.

Hydro-Québec. (2014). Filière d’énergie renouvelable - l’énergie de la biomasse. Récupéré le 23 juillet 2016 du site d’Hydro-Québec. http://www.hydroquebec.com/developpement-durable/centre-documentation/pdf/fiche-biomasse.pdf

Jessome, A. P. (1977). Résistance et propriétés connexes des bois indigènes au Canada. Pêches et environnement Canada.

Lambert, M. C., Ung, C. H., & Raulier, F. (2005). Canadian national tree aboveground biomass equations. Canadian Journal of Forest Research,35(8), 1996-2018.

Latifi, H., Fassnacht, F. E., Hartig, F., Berger, C., Hernández, J., Corvalán, P., & Koch, B. (2015). Stratified

aboveground forest biomass estimation by remote sensing data. International Journal of Applied Earth

Observation and Geoinformation, 38, 229-241.

Liming, H., Haque, E., & Barg, S. (2008). Public policy discourse, planning and measures toward sustainable energy strategies in Canada. Renewable and Sustainable Energy Reviews, 12(1), 91-115.

McRoberts, R. E. (2012). Estimating forest attribute parameters for small areas using nearest neighbors techniques. Forest Ecology and Management, 272, 3-12.

Ministère de l’Énergie et des Ressources naturelles, Direction générale du réseau régional, Direction régionale de la Capitale-Nationale et de la Chaudière-Appalaches. (2015). Le Plan d’affectation du territoire public de la Chaudière-Appalaches. Québec, Canada : Beaulieu J-F. et Godbout B. https://mern.gouv.qc.ca/publications/territoire/planification/cartes_chaudiere-appalaches/PATP_chaudiere-appalaches_final.pdf

Ministère des Ressources naturelles, Direction des inventaires forestiers. (2002). Normes d’inventaire forestier - placettes-échantillons temporaires peuplements de 7 m et plus de hauteur. Québec, Canada: Direction des inventaires forestiers (DIF).

Ministère des Ressources naturelles et de la Faune du Québec. Centre de recherche industrielle du Québec (CRIQ) (2006). Profil des produits forestiers – Première transformation – Biomasse forestière résiduelle – Inventaires des méthodes et équipements de récupération ainsi que des systèmes de combustion les plus courants. Québec, Canada: Ginette Douville et al.

http://politiqueenergetique.gouv.qc.ca/

http://politiqueenergetique.gouv.qc.ca/

http://www.hydroquebec.com/developpement-durable/centre-documentation/pdf/fiche-biomasse.pdf

http://www.hydroquebec.com/developpement-durable/centre-documentation/pdf/fiche-biomasse.pdf

https://mern.gouv.qc.ca/publications/territoire/planification/cartes_chaudiere-appalaches/PATP_chaudiere-appalaches_final.pdf

https://mern.gouv.qc.ca/publications/territoire/planification/cartes_chaudiere-appalaches/PATP_chaudiere-appalaches_final.pdf

43

Ministère des Ressources naturelles et de la Faune. (2012). NORMES D’INVENTAIRE ÉCOFORESTIER :

PLACETTES-ÉCHANTILLONS PERMANENTES.

Ministère des ressources naturelles et de la Faune du Québec. Direction générale de la Capitale-Nationale et de la Chaudière Appalaches. (2010). Portrait territorial – Chaudières-Appalaches. Récupéré le 19 juillet 2016 du site du ministère. https://mern.gouv.qc.ca/publications/territoire/planification/portrait-chaudiere-appalaches.pdf

Ministère des Forêts, de la Faune et des Parcs, Direction des inventaires forestiers. (2016). Norme d’inventaire écoforestier PLACETTES-ÉCHANTILLONS TEMPORAIRES. Québec, Canada: Direction des inventaires forestiers (DIF).

Mitchell, T. M. (1997). Machine learning. 1997. Burr Ridge, IL: McGraw Hill, 45, 37.

Orzanco, M. G.-J. (2006). Exploration de la fusion des informations pour améliorer la fiabilité locale d'une carte forestière. Québec: Doctorat en sciences géomatiques, Université Laval.

Perron, J. Y. (2003). Tarif de cubage général. Volume marchand brut. 3e publication. Ministère de l’Énergie et des Ressources du Québec, Service de l’inventaire forestier, Québec.

Persson, H., Wallerman, J., Olsson, H., & Fransson, J. E. (2013). Estimating forest biomass and height

using optical stereo satellite data and a DTM from laser scanning data. Canadian Journal of Remote

Sensing, 39(3), 251-262.

Ressources naturelles Canada. (2016). À propos de l'énergie renouvelable. Récupéré le 25 juillet 2016 du site du ministère. http://www.rncan.gc.ca/energie/renouvelable-electricite/7296#bio

Ressources naturelles et faune Québec. (2007). Système d’Information FORestière par Tesselle. Québec, Canada : Pelletier G., Dumont Y. et Bédard M.

Régnière, J., & Saint-Amant, R. (2008). BioSIM 9: manuel de l'utilisateur. Centre de foresterie des Laurentides.

Ter-Mikaelian, M. T., & Korzukhin, M. D. (1997). Biomass equations for sixty-five North American tree species. Forest Ecology and Management, 97(1), 1-24.

Vision Biomasse Québec. (2015). Le chauffage à la biomasse forestière résiduelle, Allier lutte contre les changements climatiques et création de richesses au Québec. Récupéré le 26 juillet 2016 du site de Vision Biomasse Québec. http://www.naturequebec.org/fichiers2015/publications/ME15-10-20_Vision_Biomasse_Quebec.pdf

Weldu, Y. W., & Assefa, G. (2016). Evaluating the environmental sustainability of biomass-based energy strategy: Using an impact matrix framework. Environmental Impact Assessment Review, 60, 75-82.

Yanagawa, T. (1975). Stratified random sampling; gain in precision due to stratification in the case of proportional allocation. Annals of the Institute of Statistical Mathematics, 27(1), 33-44.

Yemshanov, D., & McKenney, D. (2008). Fast-growing poplar plantations as a bioenergy supply source for Canada. Biomass and Bioenergy, 32(3), 185-197.

https://mern.gouv.qc.ca/publications/territoire/planification/portrait-chaudiere-appalaches.pdf

https://mern.gouv.qc.ca/publications/territoire/planification/portrait-chaudiere-appalaches.pdf

http://www.rncan.gc.ca/energie/renouvelable-electricite/7296#bio

http://www.naturequebec.org/fichiers2015/publications/ME15-10-20_Vision_Biomasse_Quebec.pdf

http://www.naturequebec.org/fichiers2015/publications/ME15-10-20_Vision_Biomasse_Quebec.pdf

prédication de la variabilité spatiale de la disponibilité ...résiduelle des unités de surface...

Documents