temple university sites - islide® powerpoint standard template · 2020. 9. 2. · 4 定量分析...

110
旅游二手数据 搜集与分析 杨旸 美国天普大学 www.dryangyang.com 第七届中国旅游管理博士学术训练营 2020825

Upload: others

Post on 28-Mar-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

旅游二手数据搜集与分析

杨旸 美国天普大学

www.dryangyang.com

第七届中国旅游管理博士学术训练营

2020年8月25日

1.定量分析与二手数据

2.二手统计数据

3.二手问卷调查数据

4.大数据

5.二手文献数据

6.荟萃分析

CONTENTS

1.定量分析与二手数据

www.dryangyang.com 4

定量分析Data is like garbage. You had better know what you are going

to do with it before you collect itMark Twain

• Tourism, like many other human activities, relies heavily on data of all sorts and the quantitative treatment of data and information collected in a wide variety of ways is a crucial endeavour for both academics and practitioners.

• 作为社会科学的学科之一,旅游管理的研究也需要数据支撑。在分析数据过程中,各式各样的定量分析方法起到了重要的作用。

• 需要比较准确地刻画事物的现状、把握它的内在规律、并力图能够预测它的发展趋势。

• 社会科学的复杂性,较多地依赖于概念定义和逻辑推理,不容易具有实证研究的性质。

• 科学研究的核心:可重复性!

www.dryangyang.com 5

定量分析• 定量研究法通过对数据进行量化处理、检验和分析,从而获得有意义的结论。

• 定性研究法指在自然环境下,使用实地体验、深度访谈、参与型与非参与型观察、文献分析、个案调查等方法对社会现象进行深入、细致、长期的研究,其分析方法以归纳法为主。

• 对于统计假设,只能拒绝或者不能拒绝。社会科学主要采用共相模型(nomothetic model)来解释世界。选择部分因素,加入简约模型(parsimonious model).

www.dryangyang.com 6

数据• 名义测度(nominal):表现为类别,但不区分顺序

• 序次测度(ordinal):表现为类别,但有顺序

• 间距测度(interval):表现为数值,可进行加、减运算

• 比例测度(ratio):表现为数值,可进行加、减、乘、除运算

• 截面数据(cross-sectional data)• 时间序列数据(time-series data)• 纵观数据(longitudinal)/面板数据(panel data)

• 除了数值型数据,还有文本数据,地理数据,图像数据,音频数据,视频数据等等。。。。

www.dryangyang.com 7

二手数据• 一手数据(Primary data)

• Primary data are those directly collected from the original or ‘primary’ source by researchers.• It is collected through methods such as

• direct observation• questionnaire surveys (online, printed or administered by telephone or computer)• structured or unstructured interviews• Case studies.

• It is tailored to the specific purposes of the study conducted.• The main disadvantages are well known: cost and time.

• 一手数据就是根据研究者的研究设计直接收集的数据。缺点就是费时费力。

• Sampling and research design are the key!• Start any study by surveying a pilot sample and studying the responses obtained

www.dryangyang.com 8

二手数据• 二手数据(Secondary data)

• When theoretical or practical reasons do not indicate direct collection of data, secondary data are used.• Secondary data are data gathered, typically by someone else, for a purpose other than the study for

which they will be used. • The main sources of secondary data external to an organization are

• Government agencies (statistical bureaus, public tourism departments), • International associations and institutions• private research companies• Industry associations

• Useful data for some studies can also be found in previously published research or reports. • Increasingly, secondary data are drawn from the databases (typically customer or visitor databases)• A special case of secondary data is so-called Big Data

Source: Baggio and Klobas (2017)

www.dryangyang.com 9

二手数据• Secondary data tend to be readily available and they are often free or inexpensive to obtain. • 一般来说,二手数据的获取成本比一手数据要低

• It is often possible to assemble large quantities of data and to draw together data from different sources• 多源数据的比较,将会是今后旅游研究的一个热点

• Extracting useful information from a source of secondary data requires an understanding of the structure of the data and the database as well as a good understanding of the characteristics and meaning of each data element.

• A careful reading of the data specifications is essential in order to judge the suitability of the data for the study under way as well as their reliability and trustworthiness.

www.dryangyang.com 10

二手数据• 什么样的数据才是好的二手数据?

• Relevance: 数据信息与研究设计高度相关

• Accuracy: 数据精度高,测量误差低

• Comparability: 数据兼容性好,可以与其他数据源相互比较

• Coherence: 在不同年份,不同采样地数据一致性都好

• Timeliness: 数据及时

• Accessibility and clarity: 良好的数据文档解释数据的定义,测量和采样等.

Source: Baggio and Klobas (2017)

www.dryangyang.com 11

二手数据• 二手数据分析流程

• 1 Develop the Research Questions• 2 Identifying the Dataset• 3 Evaluating the Dataset (evaluation of the dataset to ensure the appropriateness for the research topic)

• 3.1 What was the purpose of this study?• 3.2 Who was responsible for collecting the information?• 3.3 What information was actually collected?• 3.4 When was the information collected?• 3.5 What methodology was employed in obtaining the data? • 3.6 Management of the primary data.• 3.7 How consistent is the information obtained from one source with information available from other sources?

Source: Johnston (2014)

www.dryangyang.com 12

二手数据分析• 权重(weighting)• Ideally, a selected sample is a miniature of the population it came from. This should be reflected in the

sample being representative with respect to all variables measured in the survey.

• 重复测量(repeated measures)• involves multiple measures of the same variable taken on the same or matched subjects either under

different conditions or over two or more time periods

• 内生性(endogeneity)• endogeneity broadly refers to situations in which an explanatory variable is correlated with the error

term• Simultaneity• An unobserved or omitted variable is confounding both independent and dependent variables

www.dryangyang.com 13

一手二手数据混合• The researcher needs to keep in mind the nature of the sample and the level of aggregation of data

from the different sources.

• Specific techniques may be needed to ensure that results are useful and to avoid errors.

www.dryangyang.com 14

定量分析的问题• 并不是所有的问题都可以定量化测量

• 定量化测量带来的误差

• 定量方法选择上具有主观性(Publication bias)

• 混淆统计联系与因果关系。• 相关关系是判断因果关系存在的必要非充分条件

www.dryangyang.com 15

定量分析的问题• 定量分析方法的稳健性和容错性

• Simpson’s paradox:relationships observed at the aggregate level are not necessarily the same (or even in the same direction) as relationships observed at the level from which the data were aggregated.

Source: Baggio and Klobas (2017)

www.dryangyang.com 16

定量分析的问题• 数据本身的质量问题:

• 缺失值• 无效回答• 应答偏误• 数据录入错误• 数据格式 (-999)• 异常值

Source: Baggio and Klobas (2017)

2. 二手统计数据

www.dryangyang.com 18

二手统计数据• 统计数据是统计工作活动过程中所取得的反映国民经济和社会现象的数字资料以及与之相联系的其他资

料的总称。统计数据是对现象进行测量的结果。

• 统计数据可以有官方数据与非官方数据。

www.dryangyang.com 19

国际统计数据International organizations• United Nations World Tourism Organisation (UNWTO): http://www.unwto.org/• World Tourism Foundation (WTF): http://www.worldtourismfoundation.org/• United Nations Statistics Division (UNDATA): http://data.un.org/• Organisation for Economic Co-operation and Development (OECD):http://www.oecd.org/• European Travel Commission (ETC): http://www.etc-corporate.org/• Statistical Office of the European Commission (Eurostat): http://epp.eurostat.ec.europa.eu/• Organisation of American States (OAS): http://www.oas.org/• The World Bank: http://www.worldbank.org/• World Economic Forum (WEF): http://www.weforum.org/• International Monetary Fund (IMF): http://www.imf.org/• International Civil Aviation Organization: https://www.icao.int/Pages/default.aspx

www.dryangyang.com 20

国际统计数据• UNWTO systematically

gathers tourism statistics from countries and territories around the world into a vast database that constitutes the most comprehensive statistical information available on the tourism sector. The database, updated regularly, is composed by the following sets of data:

• Compendium of Tourism Statistics

• Yearbook of Tourism Statistics

• Outbound of Tourism Statistics

www.dryangyang.com 21

国际统计数据https://databank.worldbank.org/source/world-development-indicators

www.dryangyang.com 22

国际统计数据https://www.icao.int/safety/Pages/COVID-19-Airport-Status.aspx

https://ec.europa.eu/eurostat/statistics-explained/index.php/Tourism_statistics

www.dryangyang.com 23

行业组织统计数据• Council on Hotel, Restaurant and Institutional Education (CHRIE): http://www.chrie.org/• International Hotel & Restaurant Association (IH&RA): http://www.ih-ra.com/• Pacific Asia Travel Association (PATA): http://www.pata.org/• South Pacific Tourism Organisation (SPTO): http://www.spto.org/• Travel and Tourism Research Association (TTRA): http://www.ttra.com/• World Association of Travel Agencies (WATA): http://www.wata.net/• World Federation of Tourist Guide Associations (WFTGA): http://wftga.org/• World Travel and Tourism Council (WTTC): http://www.wttc.org/

www.dryangyang.com 24

行业组织统计数据https://ttra.com/resources/covid-19-travel-and-tourism-research-resources/

www.dryangyang.com 25

知名公司统计数据• Smith Travel Research: https://str.com/• European Travel Monitor/IPK International: http://www.ipkinternational.com/• Mintel (Travel & Tourism Intelligence): http://www.mintel.com/• PhoCus Wright: http://www.phocuswright.com/• Tourism Economics (an Oxford Economics company): http://www.tourismeconomics.com/• eMarketer: http://www.emarketer.com/• Forrester Research: http://www.forrester.com/• The Nielsen Company: http://www.nielsen.com/• The Gartner Group: http://www.gartner.com/

www.dryangyang.com 26

知名公司统计数据-STR

https://str.com/data-insights-blog/coronavirus-hotel-industry-data-news

全球酒店行业的标杆数据数据涵盖180个国家的6.8万家酒店

www.dryangyang.com 27

知名公司统计数据-STR• 入住率:Occupancy rate• 平均房价: ADR• 平均客房收益:Revenue per available room (RevPAR)

www.dryangyang.com 28

知名公司统计数据-Tourism Economics

• The most comprehensive data-set of its kind, the Global Travel Service (GTS) includes travel and economic activity for 190 countries.

• The Global City Travel service provides you with reliable, timely and detailed travel intelligence for 309 cities worldwide

www.dryangyang.com 29

学者整理统计数据• Covid19Tourism index helps the industry gauge the recovery level compared to the “normal time”

without Covid19. A level of 100 indicates the recovery to the normal level.

www.dryangyang.com 30

官方统计数据

这些数据够吗?

这些数据准吗?

www.dryangyang.com 31

二手统计数据(国内)-年鉴数据CNKI• 《中国零售和餐饮连锁企业统计年鉴》• 《中国旅游统计年鉴》• 《北京旅游统计便览》• 《中国餐饮业发展研究报告》• 《中国连锁餐饮住宿业统计年鉴》• 《中国旅游业发展研究报告》• 《入境游客抽样调查资料》• 《中国旅游年鉴》• 《中国国内旅游抽样调查资料》• 《中国住宿业发展研究报告》• 《广东旅游年鉴》• 《中国连锁经营年鉴》

• 《四川旅游年鉴》• 《山东旅游年鉴》• 《上海旅游年鉴》• 《中国餐饮年鉴》• 《中国展览经济发展报告》• 《中国展览年鉴》• 《中国城市统计年鉴》• 《中国城市建设统计年鉴》• 《中国民用航空工业统计年鉴》

www.dryangyang.com 32

二手统计数据(国内)-年鉴数据• 集成平台

• 中经网

• 搜数

• 中国资讯行

• CNKI统计

• EPS平台

www.dryangyang.com 33

高校图书馆资源

https://library.xmu.edu.cn/zy/zwsjk.htm

http://lerms.jxufe.edu.cn/ermsClient/browse.do?cat=6003000

www.dryangyang.com 34

www.dryangyang.com 35

二手统计数据(国内)

www.dryangyang.com 36

www.dryangyang.com 37

二手统计数据(国内)-报告数据• 各地政府“国民经济和社会发展统计公报”以及政府工作报告

• 中国旅游研究院报告• http://www.ctaweb.org/html/lysjzx/index.html

• 中国社科院旅游研究中心

• 协会报告• 中国旅游景区协会

• 业界报告• 浩华- 中国饭店业务统计

二手问卷调查数据

www.dryangyang.com 39

二手问卷调查数据(国际)• ICPSR, the Inter-university Consortium for Political and Social Research, was established in 1962. An

integral part of the infrastructure of social science research, ICPSR maintains and provides access to a vast archive of social science data for research and instruction.

https://www.icpsr.umich.edu/web/pages/

www.dryangyang.com 40

二手问卷调查数据(国际)

https://data.europa.eu/euodp/en/data/

www.dryangyang.com 41

二手问卷调查数据(国内)• 中国家庭追踪调查数据CFPS• http://www.isss.edu.cn/cfps/• “中国家庭追踪调查“(CFPS)重点关注中国居民的经济与非经济福利,以及包括经济活动、教育成

果、家庭关系与家庭动态、人口迁移、健康等在内的诸多研究主题,是一项全国性、大规模、多学科的社会跟踪调查项目。CFPS样本覆盖25个省/市/自治区,目标样本规模为16000户,调查对象包含样本家户中的全部家庭成员。CFPS在2008、2009两年在北京、上海、广东三地分别开展了初访与追访的测试调查,并于2010年正式开展访问。经2010年基线调查界定出来的所有基线家庭成员及其今后的血缘/领养子女将作为CFPS的基因成员,成为永久追踪对象。

• 分析单位与调查规模丨社区、家庭、个人(成人、少儿);基线调查为16000户。CFPS调查问卷共有社区问卷、家庭问卷、成人问卷和少儿问卷四种主体问卷类型,并在此基础上不断发展出针对不同性质家庭成员的长问卷、短问卷、代答问卷、电访问卷等多种问卷类型。

www.dryangyang.com 42

二手问卷调查数据(国内)

CFPS

2010年

L1最近3个月,在闲暇时间,您是否从事下列活动?【可多选】【出示卡片】1. 看电视 2. 阅读 3. 健身或参加体育锻炼 4. 旅游 5. 打牌、打麻将、玩游戏 6. 外出就餐

2012 P502 过去一年,您家的旅游支出是多少钱?____

2014

P519 FP519”过去12 个月文娱旅游支出(元)”过去12 个月,您家用于文化娱乐(包括购买书报杂志、光盘、影剧票和去网吧等)和旅游(包括交通、食宿、景点门票等)的支出是多少?____P503 FP503“旅游支出(元)”包括旅游的交通费、食宿费、景点门票等,过去12 个月,您家的旅游支出是多少钱?____

www.dryangyang.com 43

二手问卷调查数据(国内)• 中国健康与养老追踪调查(CHARLS)• http://charls.pku.edu.cn/index.html• 中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)旨在收集一套

代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究。CHARLS全国基线调查于2011年开展,覆盖150个县级单位,450个村级单位,约1万户家庭中的1.7万人。这些样本以后每两到三年追踪一次,调查结束一年后,数据将对学术界展开。

• 核心问题丨我国人口老龄化问题

• 应用主题丨人口健康分析、消费储蓄分析

• 主要调查项目:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,以及社区基本情况等。

www.dryangyang.com 44

二手问卷调查数据(国内)

CHARLS

2011家庭的旅游支出(包括旅行时坐火车、汽车、飞机、轮船的费用)

DA001

2013 GE010 2. 家 庭 的 旅 游 支 出____ (GE010_2) 同2011

2015 GE010 2. 家 庭 的 旅 游 支 出____ (GE010_2) 同2011

www.dryangyang.com 45

二手问卷调查数据(国内)• 中国综合社会调查数据CGSS• http://cgss.ruc.edu.cn/• 中国综合社会调查(Chinese General Social Survey,CGSS)始于2003年,是我国最早的全国性、综

合性、连续性学术调查项目。CGSS系统、全面地收集社会、社区、家庭、个人多个层次的数据,总结社会变迁的趋势,探讨具有重大科学和现实意义的议题,推动国内科学研究的开放与共享,为国际比较研究提供数据资料,充当多学科的经济与社会数据采集平台。目前,CGSS数据已成为研究中国社会最主要的数据来源,广泛地应用于科研、教学、政府决策之中。

• 核心问题丨中国社会变迁(文化、健康、家庭、劳动力、就业、消费、教育、心理、个性等)

• 应用主题丨人口健康分析、劳动就业分析、消费储蓄分析、空间规划分析社会流动、幸福感、社会信任、教育回报、宗教信仰、政治参与等。

www.dryangyang.com 46

二手问卷调查数据(国内)

CGSS

2010 A32. 在过去的12个月,总共有多少个晚上您因为出去度假或者探亲访友而不在家过夜?

2011 A32. 过去一年,您有多少个晚上是因为出去度假或者探亲访友而没有在家过夜?

2012 A32. 在过去一年中,您有多少个晚上是因为出去度假或者探亲访友而没有在家过夜?

www.dryangyang.com 47

二手问卷调查数据(国内)• 中国老年社会追踪调查(China Longitudinal Aging Social Survey,CLASS)

• http://class.ruc.edu.cn/• 是一个全国性、连续性的大型社会调查项目。通过定期、系统地收集中国老年人群社会、经济背景数据,

掌握老年人在衰老过程中面临的各种问题和挑战,评估各项社会政策措施在提高老年人生活质量方面所取得的实际效果,为中国老龄问题的解决提供重要的理论和事实依据。

www.dryangyang.com 48

二手问卷调查数据(国内)

CLASS 2014 文化娱乐消费(旅游、学习、培训等)2016 同2014

www.dryangyang.com 49

二手问卷调查数据(国内)• 中国国家调查数据库CNSDA

• http://cnsda.ruc.edu.cn/

• 中国国家调查数据库(Chinese National Survey Data Archive, 缩写为CNSDA)是受中国国家自然科学基金重点项目资助的、由中国人民大学中国调查与数据中心(National Survey Research Center, NSRC)负责执行的经济与社会数据共享平台

大数据

大数据

“Big data” refers to the large amount of IT data generated every day and that may be beyond the processing capabilities of traditional databases

Search EngineWords

Amount ofTweets

Web TrafficVolume

Social MediaPosts

Location Tracking

Card Transaction

www.dryangyang.com 52

大数据• The main attributes of Big Data, much referred to in both popular media and the scientific and scholarly

literature are (Chen et al., 2014; Laney, 2001):• 体量Volume: Whence the name. The billions of gigabytes collected, available for analysis and analysed

to discover unknown patterns or answer questions.• 速率Velocity: Signals the rate with which data are created and modified.• 多样Variety: Coming from very diverse environments, data assume a wide range of forms and shapes;

the largest part is of a highly unstructured nature such as descriptive texts, pictures, videos or sounds.

• Other v’s:

• 价值Value: Recognizes both the need for a Big Data study project to generate value• 变化Variability: Intrinsic feature of most unstructured records that can assume quite different meanings

in different contexts, even if they have similar forms, and the variance in these meanings that can occur over time.

• 真实Veracity: Veracity can determine the outcomes of a Big Data project.

www.dryangyang.com 53

大数据• 旅游业对信息需求高 information-intensive ,旅游体验产生大量数据,需要对海量数据进行采集、存储

和分析(Nyheim, McFadden, & Connolly, 2004)。

• 旅游业热衷于使用新型信息技术,PMS和RMS可以有效地提高产业的运行效率,提高收益。

• 越来越多的旅行信息网站提供海量的信息。

• 大数据是IT业每天产生的海量数据,它有效地克服了传统数据的容量限制(Mayer-Schonberger & Cukier, 2013)。

• 大数据的分析为商业分析提供了一个新的范式:他的数据源不是来自样本采样和调查,而是所有样本的“电子足迹”(digital footprints)。

www.dryangyang.com 54

大数据• 在大数据革命的浪潮里,对数据的“因果分析”不再是研究的重点。数据的“相关分析”变成了主要的

关注。

• 通过汇总不同大数据源的大数据,我们可以分析在常规的数据源里面不能观察到的结果。

• 现阶段的旅游大数据源主要包括搜索引擎数据、网站流量、社交网络内容等。这些数据源可以有效地监测和预测旅游活动和体验。

• 伴随着游客在空间上的移动和旅游的体验,游客可以随时随地地通过各种电子设施留下他们的电子足迹:网站登录、APP登陆、电话记录、GPS足迹、信用卡消费记录、搜索网站使用、社交媒体记录和照片等等。

• 这些数据包含了大量的有效信息反应游客的好恶、动机、出游组织、旅行特点和旅游体验。

www.dryangyang.com 55

Pan, B., & Yang, Y. (2016). "Monitoring and Forecasting Tourist Activities with Big Data" In M. Uysal, Z. Schwartz & E. Sirakaya-Turk, E. (eds), Management Science in Hospitality and Tourism: Theory, Practice and Applications. Taylor & Francis.

56

大数据

www.dryangyang.com

www.dryangyang.com 57

大数据种类• 搜索引擎反应了使用者的兴趣、信息需求、态度和感受。它可以很好地用来监测和预测未来的游客行为。

• 网络流量数据:网站后台程序会实时纪录浏览的网页和登录信息 (Clifton, 2010)。

• GPS和手机定位大数据可以在不同尺度上对游客的空间行为进行精确地刻画(Shoval & Isaacson, 2007)。

• 大量的电子设施和穿戴都有蓝牙功能,在小尺度上,蓝牙数据可以很好的描绘游客的时空移动特点(Versichele, et al., 2014; Versichele, Neutens, Delafontaine, & Van de Weghe, 2012)。

• 社交网络的流行带来了海量的UGC数据(Lu & Stepchenkova, 2014), 他们可以用来告诉游客的偏好(Tussyadiah & Fesenmaier, 2009), 态度 (Magnini, Crotts, & Zehrer, 2011)和目的地印象 (Choi, Lehto, & Morrison, 2007)。

• 其他数据:信用卡交易数据、手机应用数据、智能卡数据、共享单车数据、高速收费数据。。。。

www.dryangyang.com 58

大数据类型• Numeric data: Conventional statistical modeling• Geo-data: GIS and spatial modeling….• Temporal data: Time-series analysis…• Text data: Text mining, topic modeling, sentiment analysis..• Psychophysiological data: Eye-tracking• Visual data: Photo and Video

www.dryangyang.com 59

指数大数据-搜索引擎数据• 百度指数是以百度海量网民行为数据为基础的数据分享平台。在这里,你可以研究关键词搜索趋势、洞

察网民兴趣和需求、监测舆情动向、定位受众特征。

• 百度指数的主要功能模块有: 基于单个词的趋势研究(包含整体趋势、PC趋势还有移动趋势)、需求图谱、舆情管家以及人群画像;基于行业的整体趋势、地域分布、人群属性、搜索时间特征等。

• http://zhishu.baidu.com/v2/index.html#/

www.dryangyang.com 60

指数大数据-搜索引擎数据• 搜狗搜索指数是以网民在搜狗的搜索行为数据为基础,以查询关键词为统计对象,通过加权算法计算出

关键词在统计区间内的搜索热度。根据搜索行为来源的不同,搜索指数的分别查看PC搜索热度和移动搜索热度。

• 基于月度覆盖用户5.6亿的第二大中 文搜索--搜狗搜索,以及微信搜索公众号及文章数据。

http://bigdata.sogou.com/prd_index.html

www.dryangyang.com 61

指数大数据-搜索引擎数据• 360趋势

• https://trends.so.com/• 360趋势是以360产品海量用户数据为基础的大数据展示平台,可通过搜索关键词,快速获取热度趋势、

理解用户真实需求、了解关键字搜索的人群属性。

www.dryangyang.com 62

指数大数据-移动端数据• 微信指数

• 微信指数是微信推出的基于微信大数据的移动端指数。现阶段微信指数作为内嵌于微信当中的小程序形式存在,便于微信用户了解关键词搜索热度,帮助企业更好地掌握实时搜索舆情状况。

• 计算范围包含且只包含微信搜索、公众号文章及朋友圈公开转发的文章。

• 微信指数对关键词热度的量化依据,一方面是利用数据挖掘技术,从大量热门的微信公众号中提取热点关键词;另一方面则是在不侵犯用户隐私的前提下,对在微信生态中广泛的搜索行为进行收集和分析,并最终提炼用户最关注的那些热门词汇信息。

www.dryangyang.com 63

指数大数据-移动端数据• 微信指数

• 微信指数是微信推出的基于微信大数据的移动端指数。现阶段微信指数作为内嵌于微信当中的小程序形式存在,便于微信用户了解关键词搜索热度,帮助企业更好地掌握实时搜索舆情状况。

• 计算范围包含且只包含微信搜索、公众号文章及朋友圈公开转发的文章。

• 微信指数对关键词热度的量化依据,一方面是利用数据挖掘技术,从大量热门的微信公众号中提取热点关键词;另一方面则是在不侵犯用户隐私的前提下,对在微信生态中广泛的搜索行为进行收集和分析,并最终提炼用户最关注的那些热门词汇信息。

www.dryangyang.com 64

指数大数据-移动端数据• 头条指数

• https://index.toutiao.com/• 头条指数是巨量引擎云图推出的一款数据产品。作为内容生产、传播、营销、舆情监控的重要工具,头

条指数致力于用数据服务个人和机构,提供丰富及时的数据维度。

• 头条指数基于今日头条大数据分析,反映出用户在智能分发下的阅读及互动行为。

www.dryangyang.com 65

指数大数据-社交媒体数据• 微热点

• 微热点(微舆情)以中文互联网大数据及新浪微博的官方数据为基础,专注于互联网信息、商情监测及社会化大数据场景化应用,致力于打造互联网低费用、易使用、超专业的社会化大数据生态服务体系。

• http://www.wrd.cn/login.shtml

www.dryangyang.com 66

指数大数据-电商数据• 阿里指数

• 阿里指数是阿里巴巴出品的基于大数据研究的社会化数据展示平台,媒体、市场研究员以及其他希望了解阿里巴巴大数据的人可以从这里获取以阿里电商数据为核心的分析报告及相关地区与市场信息。

• 阿里指数将分为区域指数、行业指数、数字新闻、专题观察等模块。

• 以前叫“淘宝指数”

• https://alizs.taobao.com/area• 1688指数:http://index.1688.com/

Analytics in COVID19 Pandemics

https://visitdata.org/bystatesel/New%20York/ALL

www.dryangyang.com 68

大数据-移动端数据• 百度地图慧眼

• 百度迁徙大数据是百度地图慧眼重要能力之一,其来源是百度地图开放平台海量的定位服务数据(为脱敏数据,处理各环节均不涉及个体隐私)。

• https://huiyan.baidu.com/

www.dryangyang.com 69

www.dryangyang.com 70

大数据-移动端数据• 腾讯位置大数据

• https://heat.qq.com/location.php

www.dryangyang.com 71

大数据-移动端数据• 高德大数据

• https://report.amap.com/diagnosis/index.do

www.dryangyang.com 72

大数据-手机信令数据• 手机数据有几种类型,如通话详单数据,包括归属地、年龄等用户属性,而我们主要应用的是识别用户

空间位置的手机信令数据。因为几乎每个人都随身携带手机,信令数据在人口移动上可以提供的信息前所未有的详细,时空全覆盖和绝对精细化使手机数据一经问世就具备了成为规划大杀器的重要潜质。

www.dryangyang.com 73

大数据-支付数据• https://cn.unionpay.com/upowhtml/cn/templates/bigDataPlatform/bigDataPlatform.html

www.dryangyang.com 74

大数据-社交媒体数据• 清博指数

• 清博指数是中国新媒体大数据权威平台,世界互联网大会网络公益发起单位,现为国内最重要的舆情报告和软件供应商之一,国内制定各类互联网、新媒体、大数据排行榜的权威机构。

• 清博指数拥有目前国内最大的第三方“两微一端”(微信、微博、APP)数据库。

• http://www.gsdata.cn/

www.dryangyang.com 75

大数据-社交媒体数据• 新榜

• 新榜是以榜单为切口,向众多500强企业、政府机构提供线上、线下数据产品服务,“号内搜”、“新榜认证”、“分钟级监测”获得广泛应用。

• www.newrank.cn/

www.dryangyang.com 76

开放大数据集• https://www.yelp.com/dataset

• https://movement.uber.com/cities

• https://zhuanlan.zhihu.com/p/48656298

• https://www.beijingcitylab.com/

www.dryangyang.com 77

API接口

www.dryangyang.com 78

爬虫• 网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,网络爬虫是一个自动提取网

页的程序,它为搜索引擎从万维网上下载网页

www.dryangyang.com 80

大数据问题--虚假评论数据• 在线顾客评论研究,基于在线评论能客观反映旅游服务设施接待水平和游客体验的前提下展开分析。

• 一些点评网站并不能识别评论者是否购买过该项服务(如TripAdvisor),这导致了大量虚假评论的滋生,势必会影响到分析结果的有效性和科学性。

• 目前,在国际顶级的商学期刊上,已有使用机器学习和人工智能方法来筛选和过滤虚假在线评论的研究成果发表。

• 因此,相关旅游研究在使用在线评论数据时,也要特别注意可能存在的虚假评论,并且基于研究情境考虑使用合适的方法筛选出可能的虚假评论,提高数据本身的可信度。

www.dryangyang.com 81

大数据问题—数据可信度• 对于同一个研究目的/研究问题,不同的数据源可能提供来自不同侧面的重要信息。

• 这些数据本身或多或少会存在系统及非系统性误差,使用时就需要对数据源进行交互验证(Triangulation),

• 在使用酒店在线评论数据时,很多研究者会从不同的酒店评论平台采集数据。但由于不同的平台可能是面向不同层次、不同类型的住客群体,这些评论数据存在系统差异。

• 研究过程中首先就需要对这些平台数据进行交互验证,这不仅有助于降低误差,提高评论数据综合后的结果可信度,而且可以了解不同样本群体的特性差异,增强对结果的理解和解释。

www.dryangyang.com 82

大数据问题--数据样本的代表性• 在传统的数据采集中,样本的代表性(representativeness)是统计推断是否稳健和有效的重要前提。

• 在社会统计和商业调查中,面对不具代表性的数据样本,再强大的统计模型也很难得出准确的、可以推广的分析结论。

• 很多大数据源产生的数据,并不能有效的代表完整的研究目标群体。(大数据中,中老年群体的样本比例严重不足)。

• 计量经济学中常见的样本选择偏差(sample selection bias)也会导致样本的代表性问题。一个常见的例子就是不满意的酒店住客可能倾向于在评论网站上留下详细的评论。

www.dryangyang.com 83

大数据问题--游客样本的甄别• 旅游研究中还会使用到一些综合性的、非定制的大数据源。

• 需要解决如何甄别有效游客样本的问题。一般常用的方法是建立统计模型对数据中的时空信息进行数据挖掘,识别出游客群体。

• 由于建立统计模型需要识别诸多参数,这可以通过小规模的实地调查来获得,从而有效提升游客样本的甄别准确率。

What did he say?How long did he sayHow was his mood?What was his language style?How is his language readability?Is there vulgar language?….

What did this picture describe?

大数据文本分析

文本分析• 文本分析的类型

• LENGTH 长度

• SENTIMENT/MOOD/EMOTION 情感/情绪

• READABILITY 可读性

• TOPIC/TOPIC MATCHING 话题

• LINGUISH STYLE/ LINGUISH STYLE MATCHING 语言风格

• SIMILARITY 相似性

• SPECIAL CONTENT 特殊内容

• 关键: 用向量空间模型描述文本;将非结构化文本转化为结构化。

文本分析• 文本分析的步骤

• 最花时间:文本预处理!• 去除数据中的非文本部分• 分词• 去掉停用词• 词干提取(stemming)• 词型还原(lemmatization)

文本分析• LIWC (Linguistic Inquiry and Word Count) https://liwc.wpengine.com/

文本分析• TextMind (文心中文心理分析系统)• http://ccpl.psych.ac.cn/textmind/

二手文献数据

www.dryangyang.com 90

二手文献数据• 文献分析法• 指通过对收集到的某方面的文献资料进行研究,以探明研究对象的性质和状况,并从中引出自己观点的

分析方法。它能帮助调查研究者形成关于研究对象的一般印象有利于对研究对象作历史的动态把握,还可研究已不可能接近的研究对象,如早已去世的人。文献分析法的主要内容有:

• (1)对查到的有关档案资料进行分析研究。

• (2)对搜集来的有关个人的日记、笔记、传记进行分析研究。

• (3)对收集到的公开出版的书籍刊物等资料进行分析研究。

• 对应的学科

• (1)文献计量学

• (2)情报计量学

www.dryangyang.com 91

二手文献数据• 文献计量学• 以文献体系和文献计量特征为研究对象,采用数学、统计学等计量研究方法,研究文献情报的分布结构、

数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。

• 目前,获取分析数据的主要途径有:

• ① 使用机构内部的文件,如:研究报告、年度报告等;

• ② 如果所需信息不包括在书目数据库中,要通过查找原始文献;

• ③ 大规模的分析需要利用商用文献数据库来获取;

• ④ 利用专门为指标统计而提供数据的数据库来获取数据;

• ⑤ 选择与国际上某机构签订协议来获取这方面的服务。

• 另外,还可以通过一些机构获取有关文献计量学方面的统计分析指标,如:美国费城的ISI和新泽西州的CHI研究公司、荷兰莱顿大学的科学技术研究中心(CWTS)等。这些机构都设有专门部门,从事与文献计量学有关的开放指标数据源的创新性研究,收集、加工和整理基于文献统计分析的各种指标。

www.dryangyang.com 92

二手文献数据• CiteSpace• http://cluster.cis.drexel.edu/~cchen/citespace/• 通过将国内外文献进行可视化分析来帮助你了解一门学科前世今生的软件。

• 面对成千上万篇的文献,怎样才能快速锁定自己最感兴趣的主题及科学文献,找到其中最为重要、最为关键的核心信息,弄清其过去与现在的发展历程,识别其最活跃的研究前沿和发展趋势……

• CiteSpace可分析的数据库(主要)• 国内:CNKI中国知网、CSSCI中国社会科学引文索引---首页

• 国际:Derwent(世界专利索引) Derwent World Patents Index • Clarivate WoS(Web of Science)

www.dryangyang.com 93

二手文献数据• 主要功能

• 共被引分析• 共词分析• 突现分析(Burst Detection)• 聚类分析• 合作网络分析• 文献耦合• 共被引分析• 共现网络分析

• 研究意义• 知识基础的获取:较为完整的知识体系• 学科结构的获取:使用关键词共现网络,能够将数据全集中的学科结构清晰的展示出来。• 研究前沿的获取

www.dryangyang.com 94

二手文献数据• 文献计量在线分析平台

https://bibliometric.com/

www.dryangyang.com 95

二手文献数据• 只支持webofknowledge引文数据(即俗称的SCI数据库)

www.dryangyang.com 96

二手文献数据• HistCite• https://support.clarivate.com/ScientificandAcademicResearch/s/article/HistCite-System-

requirements?language=en_US• 非常强大的引文分析工具,可以快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文

献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。

www.dryangyang.com 97

二手文献数据

www.dryangyang.com 98

二手文献数据

A visualization of the author co-citation network Time zone view of keywords.

荟萃分析

www.dryangyang.com 100

荟萃分析• 荟萃分析(meta-analysis,或译作后设分析、

整合分析、综合分析、统合分析、元分析)是指将多个研究结果整合在一起的统计方法。就用途而言,它是文献回顾的新方法。

• 荟萃分析的主要目的是将以往的研究结果更为客观的综合反映出来。研究者并不进行原始的研究,而是将研究已获得的结果进行综合分析。

• 主要类型• 收集主题相同的研究,再将每个研究的结果运算

为统一的效果量,再将不同研究的效果量以统计方法结合。

• 由于每个研究的本质都有所不同,可引致结果出现异质性。

• 亚组分析• Meta-regression

www.dryangyang.com 101

荟萃分析• 为什么要进行荟萃分析?

• 探索发表偏倚: 某个方向的结果被掩盖;杂志更倾向接收显著的结果

• 提高统计学的把握度和精度 : 完成了Meta分析后,我们得到研究结局的估计值及可信区间。我们可通过可信区间及样本量大小判断研究结果是否精确,即估计值及可信区间是否足以对研究问题下定结论。

• 解释异质性: 看Meta分析结果是否被研究之间的差别所影响,我们可以使用统计学的方法估计异质性大小如何,这为统计学异质性。

• 指导未来的研究设计: 能够为以后更大的明确的试验设计提供详细的信息

Asymmetrically more positive results

www.dryangyang.com 102

荟萃分析• 荟萃分析步骤

• (1)选题:选题关乎着研究高低与否,决定了工作量大小和投稿难易程度。想选好题要多读文献,特别是多读前沿的、有争议性的文献。

• (2)文献检索:制定检索策略,全面且广泛地收集文献,检索步骤真的很重要,要尽量查全查准,检索策略可以参考Cochrane Library的PICOS原则来制定检索式(下文图中有检索式的举例)。文献一般不单包括发表的期刊论文,还包括:

• 会议论文• 学位论文• 工作论文• 其他未发表的学术报告

• (3)确定纳入和排除标准:严格筛选文献,剔除不符合要求的文献。 (这个过程要注意标记踢出的数量和理由,为之后的流程图做准备)

www.dryangyang.com 103

荟萃分析• 荟萃分析步骤

• (4)文献质量评估和数据提取:仔细阅读文章,仔细提取所有你能用的数据到excel,并学会转化数据,比如只有均值的时候如何标记标准差等,对于缺失的数据可以邮箱联系原作者求取数据。提数据的同时评估文献的质量。

• 需要选择一个核心的统计量:effect size.• Cramer v for chi-square• Etta square for ANOVA• R-square and beta coefficients for regression• Pearson/ Spearman rho for correlation• Odds ratio for logit/logistic models• t-test (use ANOVA with Etta square instead)

www.dryangyang.com 104

荟萃分析• 荟萃分析步骤

• (4)文献质量评估和数据提取:

www.dryangyang.com 105

荟萃分析• 荟萃分析步骤

• (5)软件使用: STATA, R, Revman

www.dryangyang.com 106

荟萃分析• 荟萃分析步骤

• (6) 统计学处理• 1.异质性检验(齐性检验):异质性是对于研究间的差异评估,多用Q2和I2来评价,解决方法有敏感性分

析、亚组分析和回归分析。

• 2.统计合并效应量(加权合并,计算效应尺度及95%的置信区间)并进行统计推断。

• 3.森林图的解读

• 4.通过“失安全数”的计算、漏斗图、risk of bias量表了解潜在的发表偏倚。

• 5.敏感性分析:用来评估meta分析结果的稳定性

• 6.Meta regression解释结果的异质性

森林图(forest plot)

www.dryangyang.com 107

荟萃分析• 荟萃分析步骤

• (7)解释结果、作出结论和评价:并对研究结果作出解释和并讨论出研究中的局限性。

• (8)维护和更新资料:现在有些期刊要求选题之后要注册,这样就避免了很多人重复工作,但也并非所有杂志都有这个要求,对于已发表的文章,随着新研究的出现,后期可以持续更新证据。

108

荟萃分析-旅游管理的案例

www.dryangyang.com 109

荟萃分析• 缺点

• 不同模型得到的结果可能大相径庭

• 文献样本范围对结果影响极大

• 不同估计量之间的对比是否有科学意义(apple-to-orange comparison)

• 在胡扯的结果上进行科学的综合胡扯,得到一个特别胡扯的结论。

谢谢

[email protected]