sélection d’actif, construction de portefeuille ...felipe/ift6010-hiver2016/presentations/... ·...
TRANSCRIPT
Sélection d’actif, Construction de Portefeuille, Analyse des Scenarios Financiers
et TALN
David DJOUMBISSIE| IFT 6010| Université de Montréal
Extrait d’un travail de recherche en cours sur l’Intelligence Artificielle et la prise de décision sur les Marchés Financiers 1
PLAN
Introduction
I. Principaux Paradigmes sur les Marchés Financiers
II. Hypothèses de Recherche et Résolution par TALN
Conclusion
2
Introduction
A- Quelques repères
3
« Unstructured data forms 80% of all the usable data. There is a wealth of information in the unstructured text data, it contains critical information related to markets and play a
pivotal role in quantitative investments done at BlackRock ».
Kiran Vuppala, Blackrock, 2015
Vice President in the Quantitative Tools team under Aladdin Product Group
Blackrock :
4,506 $US B AUM au 30/09/2015.
Plus gros Gestionnaire d’Actifs dans le Monde (30 Pays, 72 Bureaux)http://www.relbanks.com/rankings/largest-asset-managers
Introduction
• Contribution dans le domaine très actif de l’inférence sur des problèmes complexes et
réels en environnement incertain rencontrés par l’industrie.
Ceci en proposant un processus :
• Reposant sur des résultats théoriques et empiriques dans 5 principaux domaines (Finance,
Economie, Statistique, Informatique et Psychologie) .
&
• Exploitant un volume élevé et varié d’information non-structurée et structurée : (Conditions économique, Rapports Financiers des compagnies, Rapport des banques Centrales, Rapports sur les Budgets et
Recherches des Gouvernement et Organismes, Sentiment des Investisseurs, Les nouvelles geo-politiques)
B- Objectif
5
Introduction
Existence :
1- Volume élevé, varié et d’accès libre aux informations non structurées
2- D’une littérature pertinente et de nombreuses hypothèses sur l’impact du contenu de ces
informations sur :
• Analyse de l’incertitude;
• Analyse du cycle économique;
• Anticipation de la prime de risque;
• Sélection des actifs, Construction des portefeuilles et Analyses des Scénarios.
3- Plusieurs années d’expérience en modélisation des marchés axée sur des données historiques
quantitatives, et conviction autour de la complémentarité et l’obtention de meilleurs résultats via
les outils du TALN.
C- Pourquoi Les Marchés Financiers
6
I- Principaux Paradigmes sur les Marchés Financiers
Fama, 1965 ; Fama, 1970
• Toute L’information disponible est intégrée immédiatement dans les prix observés;
Ajustement car inconsistance empirique,
• les investisseurs sont supposés rationnels, informés et ont déjà analysé et intégré dans les prix
toute l’information historique (forme faible de EMH).
Conclusion : Gestion passive, faire de la prévision ne crée pas de la valeur .
I.1- Efficience Informationnelle des Marchés (EMH)
7
I- Principaux Paradigmes sur les Marchés Financiers
Robertson, Geva, & Wolff, 2006; Wisniewski & Lambe, 2013 ; Friesen & Weller, 2006, Bollen & Huina,
2011; Yin, 2004, 2011.
• Information asymétrique et coûteuse ;
• Processus de raisonnement affecté par un biais cognitif systématique;
• Perception de la valeur future très différente de la valeur réelle.
Conclusion : Marché constamment en déséquilibre.
I.2- Finance Comportementale
8
I- Principaux Paradigmes sur les Marchés Financiers
André Low, 2004, 2005, 2011 ; Urquhart & Hudson ,2013; Ilmanen, 2011;Weisman, 2013
• Information coûteuse, incertaine et incomplète ;
• Investisseur intelligent et s’adapte aux nouveaux environnements (socio-économiques et financiers,….);
• Dynamique de marché cyclique, non linéaire avec changement constant de régime;
Conclusion : Obtenir des rendements supérieurs exige une capacité :
De bien évaluer les risques encourus et leurs principaux déterminants ;
De disposer d’un portefeuille consistant avec les différents régimes de marché.
I.3- Hypothèses des Marchés Adaptatifs
9
II- Hypothèses de Recherche et Résolution par TALN
Dans le paradigme des Marchés Adaptatifs , nous retenons 6 Hypothèses :
Miroslav, 2013; Sheikh & Sun, 2011; Bhansali, 2011; Page, Taborsky et Pedersen, 2010; Farrell, 2011; Blitz, Van Vliet, 2008; Dopfel, 2010; Clarida(1999), Ilmanen,
2011, Campbell(2013).
Hypothèses 1 :
Intégrer l’information sur les conditions macro-économiques, la politique monétaire et
fiscale dans le processus d’allocation des actifs permet de bien anticiper les cycles économiques et
les différents régimes de marchés.
Hypothèses 2 :
La distribution du rendement des actifs et la performance de toute stratégie d’investissement
dépend étroitement de la position de l’ économie dans les 4 phases de son cycle .
II.1- Hypothèses de recherche 1&2
10
II- Hypothèses de Recherche et Résolution par TALN
Analyse textuelle du Beige Book et du FOMC pour Comprendre le Cycle Économique.
Beige Book : Rapport écrit des informations qualitatives sur l’ état de l’ économie USA.
FOMC : Federal Open Market Committee, Discussion sur la direction de la politique monétaire.
1- Utilisation lexique de mot clé pour attribuer un score au document via une lecture manuelle :
• Balke et Petersen , 1998, 2002;
• Fettig et al. , 1999;
• Balke et Yucel, 2000;
• Ginther et Zavodny, 2001, 2005.
II.2- TALN pour les Hypothèses 1&211
II- Hypothèses de Recherche et Résolution par TALN
2- Construction Index Mots clés via logiciel d’analyse textuelle arienté linguistes (Diction, GeneralInquirer, Henry).
Axé sur les fréquences d’occurrences et de cooccurrences
• Payne , 2001;
• Fay et Gravelle, 2008;
• Armesto et al. , 2009;
• Loughran et McDonald, 2011
• Sadique et al. , 2013.
Axé sur la décomposition en Valeur Singulières
• Fulmer, 2014;
• Nathan, Fulmer et Zhang, 2015.
Axé sur une Entropie pondérée par la fréquence (distribution uniforme ou non des mots)
• Fulmer, 2014;
• Nathan, Fulmer et Zhang, 2015.
II.2- TALN pour les Hypothèses 1&212
II- Hypothèses de Recherche et Résolution par TALN
4- Extraction d’un Index des « Faits Atomics » via Analyse Grammaticale entre les mots
Exemple : Phrase simple avec une relation du genre « Production Industrielle a augmenté »
• Fulmer, 2014;
• Nathan, Fulmer et Zhang, 2015.
5- Information Mutuelle sur des simples évènements (antonymie des expressions, cycle haussier et baissier)
• Turney, 2001, 2002;
• David O. et Francesco T. , 2011;
6- Analyse Sémantique Latente
• Turney, 2001, 2002;
• Scott Hendry et Alison Madeley, 2010;
• Scott Hendry, 2012;
II.2- TALN pour les Hypothèses 1&213
II- Hypothèses de Recherche et Résolution par TALN
Hartpence, Sikorav,1996; Shleifer and Vishny, 1997; Easton and Sommers, 2007; Baker and Jeffrey, 2007; Ilmanen, 2011; Graham, J., and C. Harvey. 2012;
Damodaran, A. 2012 ; Greenwood and Shleifer, 2014 ;
Hypothèses 3 :
Intégrer l’information sur les Fondamentaux des Compagnies et les communications exigées
par l’AMF dans le processus de valorisation et d’allocation des actifs permet de bien anticiper les
Primes de Risques et le prix de long terme d’un actif financier.
Hypothèses 4 :
Le profil Risque/Rendement des actifs, la construction d’un portefeuille diversifié dépend
étroitement de la capacité à bien anticiper la Prime de Risque et le prix d’ équilibre.
II.1- Hypothèses de recherche 3&4
14
II- Hypothèses de Recherche et Résolution par TALN
Analyse Textuelle des Rapports Financiers pour Prédire les Marchés,
1- Construction d’une Ontologie
EDM Council et Financial Industry Business Ontology Community Group (FIBO), 2012
• EDM, Organisme fondé par les Institutions Financières pour Garantir la qualité des données;
• Standard pour définir les termes, les faits, les relations entre entités.
Hermes, Domaine Finance : Jethro B., Leonard L. and F. Frasincar, 2008, 2009
• Integrant language de description des données ( RDF, OWL ) et language de requêtes (SPARQL);
• Modèle conceptuel pour stocker Concepts, nouveaux items et les relations dans une ontologie .
Adoption ANNIE Gazetteer au domaine Finance : Brett Drury, 2013
• Representation relation hiérarchique entre Secteur Industriel et Compagnie dans une ontologie.
II.2- TALN pour les Hypothèses 3&415
II- Hypothèses de Recherche et Résolution par TALN
1- Prétraitement et sélection des « Features »
Axé sur les techniques standards de « Sac de Mots » et Dictionnaires Prédéfinis
• Wuthrich et al., 1998;
• Peramunetilleke and Wong; 2002
• Zhai et al.; 2007
• Hagenau et al,; 2013
Axé sur les techniques d’Entités Nommées et hyperonymes
• Schumaker et Chen, 2009;
Axé sur les techniques de « Phrase d’ Evènement Financier »
• Loughran, McDonald et Yun, 2009
• Hageneau et al., 2013;
• Darina M. et Richard S., 2012
Axé sur des modèles de « n-Grams » et Latent Dirichlet Allocation
• Mahajan et al., 2008;
• Jin et al., 2013
II.2- TALN pour les Hypothèses 3&416
II- Hypothèses de Recherche et Résolution par TALN
2- Algorithme d’Apprentissage Machine
Machine a Vecteur de Support
• Poi Cheong et al., 2003;
• Mittermayer, 2004;
• Zhai et al.; 2007
• Hagenau et al,; 2013
Modèles Bayésien Naïfs
• Li, 2010
• Yu, Duan et al., 2013;
Neural Network, et « Deep »
• Bollen et Huina , 2011;
• Ralph F. et Stefan F.; 2015
II.2- TALN pour les Hypothèses 3&417
Arbre et Règles de décision, Random Forests
• Rachlin et al., 2007;
• Vu et al., 2012;
• Ralph F. et Stefan F.; 2015
II- Hypothèses de Recherche et Résolution par TALN
Shleifer and Vishny(1997), Baker and Jeffrey(2007), Ilmanen(2011).
Hypothèses 5 :
Intégrer l’incertitude sur la politique fiscale, monétaire, la géopolitique, le sentiment des
investisseurs dans le processus d’allocation des actifs permet de bien anticiper l’Aversion au Risque
Global, de fixer les prix a payer et de déterminer le bon timing .
Hypothèses 6 :
L’Aversion/l’Appetit global pour le Risque des Investisseurs, ainsi que le prix a payer sont des
composantes essentielles du Rendement totale de tout actif financier.
II.1- Hypothèses de recherche 3&4
18
II- Hypothèses de Recherche et Résolution par TALN
Analyse Textuelle des Rapports pour la mesure de l’incertitude,
1- Construction d’une Ontologie, Prétraitement et sélection des « Features (voir II.2)
2- Indicateurs axés sur la fréquence des mots , des syllabes et le Vocabulaire (Simple vs Complexe)
• Li, 2008
• Biddle, Hilary, and Verdi, 2009
• Lawrence, 2013
• Lundholm, Rogo, and Zhang, 2014
• Hope, Vyas, and Zhou
3- Indicateurs axés sur les mots Commun, les Terminologies Financières
• Price, Doran, Peterson, and Bliss, 2012;
• Loughran and McDonald, 2014.
4- Indicateurs axés sur la Similarité entre Documents
• Brown and Tucker, 2011;
• Egozi, Markovitch, and Gabrilovich, 2011
II.2- TALN pour les Hypothèses 5&619
Conclusion
• L’utilisation des TALN sur les problématique de marche financier est effective ;
• Comme c’est le cas dans toutes les industries, les méthodologies ne sont divulguées;
• Un nombre important de travaux repose sur l’utilisation des techniques simples autour des
« Sac des mots »;
• Arman K., 2014 mentionne que les techniques d’analyse syntaxiques sont les moins
utilisées, en comparaison avec l’analyse sémantique;
• Il conclut également que l’usage du « Parsing » et des techniques avancées en sémantiques
devraient améliorer la qualité des analyses.
20
II. Bibliographie
BROWN, S., AND J. W. TUCKER. “Large-Sample Evidence on Firms’ Year-over-Year MD&A Modifications.” Journal of
Accounting Research 49 (2011): 309-346.
Darima M. and Richard F., Automatic Analysis of Financial Event Phrasse Event and Keywords in Form 8_K Disclosure,
Proceedings of the 10th Terminology and Knowledge Engineering Conference (TKE 2012), pp.291-305. 19-22 June 2012,
Madrid, Spain .
DE FRANCO, G.; O. HOPE; D. VYAS; AND Y. ZHOU. “Analyst Report Readability.” Contemporary Accounting Research
32 (2015): 76-104.
EGOZI, O.; S. MARKOVITCH; AND E. GABRILOVICH. “Concept-Based Information Retrieval Using Explicit Semantic
Analysis. ACM Transactions of Information Systems 29 (2011): 8-32.
LAWRENCE, A. “Individual Investors and Financial Disclosure.” Journal of Accounting &
Economics 56 (2013): 130–147.
LOUGHRAN, T., AND B. MCDONALD. “Measuring Readability in Financial Disclosures.” Journal of Finance 69 (2014):
1643-1671.PRICE, S. M.; J. S. DORAN; D. R. PETERSON; AND B. A. BLISS. “Earnings Conference Calls and Stock Returns: The
Incremental Informativeness of Textual Tone.” Journal of Banking &Finance 36 (2012): 992-1011.
Ralph F. et Stefan F.; 2015 Improving Decision Analytics with Deep Learning: The Case of Financial Disclosures, Submitted
on 9 Aug 2015), eprint arXiv:1508.01993.
21
II. Bibliographie
22
Desmet, B., & Hoste, V. (2013). Emotion detection in suicide notes. Expert Systems with Applications, 40, 6351–6358.
Drucker, H., Burges, C. J. C., Kaufman, L., Smola, A., & Vapnik, V. (1997). Support vector regression machines. In Advances in Neural
Information Processing Systems (pp. 155–161). MIT Press.
Duman, E., Ekinci, Y., & Tanrıverdi, A. (2012). Comparing alternative classifiers for database marketing: The case of imbalanced datasets.
Expert Systems with Applications, 39, 48–53.
Duric, A., & Song, F. (2012). Feature selection for sentiment analysis based on content and syntax models. Decision Support Systems, 53,
704–711.
Evans, C., Pappas, K., & Xhafa, F. (2013). Utilizing artificial neural networks and genetic algorithms to build an algo-trading model for
intra-day foreign exchange speculation. Mathematical and Computer Modelling, 58, 1249–1266.
Fama, E. F. (1965). Random walks in stock market prices. Financial Analysts Journal, 21, 55–59.
Fama, E. F. (1970). Efficient capital markets: A review of theory and empirical work. The Journal of Finance, 25, 383–417.
Fan, R.-E., Chen, P.-H., & Lin, C.-J. (2005). Working set selection using second order information for training support vector machines.
Journal of Machine Learning Research, 6, 1889–1918.
Fasanghari, M., & Montazer, G. A. (2010). Design and implementation of fuzzy expert system for Tehran stock exchange portfolio
recommendation. Expert Systems with Applications, 37, 6138–6147.
Feng, G., Guo, J., Jing, B.-Y., & Hao, L. (2012). A Bayesian feature selection paradigm for text classification. Information Processing and
Management, 48, 283–302.
Friesen, G., & Weller, P. A. (2006). Quantifying cognitive biases in analyst earnings forecasts. Journal of Financial Markets, 9, 333–365.
Garcia, D., & Uroševic´ , B. (2013). Noise and aggregation of information in large markets. Journal of Financial Markets, 16, 526–549.
Garcke, J., Gerstner, T., & Griebel, M. (2013). Intraday foreign exchange rate forecasting using sparse grids. In J. Garcke & M. Griebel
(Eds.), Sparse grids and applications (pp. 81–105). Berlin Heidelberg: Springer.
Ghazali, R., Hussain, A. J., & Liatsis, P. (2011). Dynamic ridge polynomial neural network: Forecasting the univariate non-stationary and
stationary