bigdata reto estadistico

26
CONQUISTAR NUEVOS MERCADOS CON DATOS DIVULGACIÓN ESTADÍSTICA BIG DATA Nuevos retos para la estadística pública

Upload: pegazusar

Post on 08-Sep-2015

6 views

Category:

Documents


1 download

DESCRIPTION

Reto estadistico Big Data Publica

TRANSCRIPT

  • CONQUISTAR NUEVOS MERCADOS CON DATOS

    DIVULGACIN ESTADSTICA

    BIG DATA Nuevos retos para la estadstica pblica

  • CONQUISTAR NUEVOS MERCADOS CON DATOS

    DIVULGACIN ESTADSTICA

    BIG DATA Nuevos retos para la estadstica pblica

    #BigDataCanarias La Laguna (Tenerife) 16 de junio de 2014

    Universidad de La Laguna

    Escuela Tcnica Superior de Ingeniera Informtica

    Grupo Taro

    Alberto Gonzlez Yanes

    Jefe de Servicio de Estadsticas Econmicas

    [email protected]

    @agonzalezyanes

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu es una Oficina Central de Estadstica?

    INDUSTRIALIZACIN INDEPENDENCIA

    INVESTIGACIN INNOVACIN

    ENCUESTA

    REGISTROS

    MACRODATO

    MICRODATO

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

    A UNIVAC computer at the Census Bureau, ca. 1960.

    En 1880 comenz a realizarse el censo en EEUU y debido a la cantidad de

    personas que lo formaba, tard 8 aos en terminarse. Incluso haban

    variables que no se llegaron a tabular. Por este motivo, el gobierno de los

    EEUU convoc un concurso para encontrar la mejor forma de realizar censos

    posteriores. En 1885 Herman Hollerith construye la mquina censadora o

    tabuladora, que por medio de tarjetas perforadas reduca el tiempo de

    realizacin del censo.

    PRUEBA: Procesar los datos del censo 1880 de cuatro reas en St Louis, MO. Tres candidatos:

    CAPTURA DE DATOS: 144,5 horas - 100,5 horas - 72,5 horas.

    PREPARAR DATOS PARA TABULACIN: 44,5 horas - 55,5 horas - 5,5 horas

    Hollerith's electronic tabulator

  • BIG DATA: Nuevos retos para la estadstica pblica

    #SOCIAL_DATA

    #OPEN_DATA

    #INTERNET_OF_THINGS

    #DATA_DRIVEN_JOURNALISM

    #DATA_SCIENTIST

    #BIG_DATA

    #DATA_VISUALIZATION

    #LINKED_DATA

    #SMART_CITIES

    DATIFICACIN

    Qu hay de nuevo, viejo?

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

    SENSORIZACIN

    Datificacin completa? de la actividad humana

    INTERNET

    Automatizacin masiva de recogida de datos a bajo coste?

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

    Nuevas fuentes

    Sample survey Census Register-based survey

    Not included in register

    system

    Included in register system can be used for other register-based surveys

    Uses the register system to define populations and as a source for variables

    Sample design, estimation,

    measures of uncertainty

    System-based thinking and coordination with other

    register-based surveys are important

    Own data collection produce own questionnaries Uses others- administrative registers

    Editing can contact respondents Editing can contact register-providing authority

    Nonresponse reminders, when to stop data collection? Mismatch related to missing values or undercoverage

    Quality flaws sampling errors, measurement errors

    Quality flaws - measure ment errors

    Quality flaws relevance errors, lack of comparability

    Small tables cannot give estimates for small groups

    Presentation large tables with many cells

    Uses others- administrative

    registers

    Editing can contact register-providing authority

    Mismatch related to missing

    values or undercoverage

    Quality flaws relevance errors, lack of comparability

  • BIG DATA: Nuevos retos para la estadstica pblica

    BIG ALL

    BIG FREE

    BIG OWN

    Qu hay de nuevo, viejo?

    ECM = b2 + v2

    BIG EVERYWHERE

    BIG ALLWAYS

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

    El pago a travs de tarjetas de crdito o dbito

    supone una parte de los pagos totales realizados

    en un comercio, dado que aproximadamente el

    50% del gasto en comercios se realiza mediante

    dinero en efectivo.

    Este porcentaje flucta, entre otros, en funcin de

    la categora del comercio y su entorno, pero

    tambin por sesgos culturales inherentes a la

    nacionalidad del usuario.

    En este informe ninguno de los resultados presentados es una extrapolacin para deducir el

    gasto total llevado a cabo por los turistas extranjeros, las cifras reflejadas son en todo caso

    las recabadas por los medios de pago electrnico BBVA, y no deben tomarse como cifras

    absolutas de gasto realizado por cualquier medio de pago.

  • BIG DATA: Nuevos retos para la estadstica pblica

    Como todos los datasets, ste tambin presenta ciertas

    limitaciones que conviene conocer. La situacin de

    los telfonos no es totalmente precisa, ya que la

    que en realidad se tiene es la de la antena. En

    entornos urbanos eso no es demasiado problemtico

    puesto que la densidad de antenas es lo bastante alta

    como para ofrecer una precisin razonable; pero puede

    serlo en zonas rurales.

    Otra limitacin se puede producir a la hora de

    extrapolar datos totales a partir de la informacin que

    se obtiene. Por poner un ejemplo concreto, no todos

    los telfonos de los turistas rusos que visitan

    Espaa se conectarn a la red de Telefnica, lo que

    implica que si se quiere conocer el total de telfonos

    rusos hay que realizar ciertas extrapolaciones que

    pueden introducir ciertos errores.

    Qu hay de nuevo, viejo?

    En este informe todos los datos que se presentan no estn extrapolados, as que no deben tomarse como

    absolutos. Pero creemos que aun as pueden dar una idea bastante clara de situacin.

  • BIG DATA: Nuevos retos para la estadstica pblica

    PROCESOS

    Qu hay de nuevo, viejo?

  • BIG DATA: Nuevos retos para la estadstica pblica

    The Generic Statistical Business Process Model (GSBPM)

    1

    Specify

    needs

    Quality Management / Metadata Management

    2

    Design

    3

    Build

    4

    Collect

    5

    Process

    6

    Analyse

    7

    Disseminate

    8

    Archive

    9

    Evaluate

    1.1

    Determine

    needs for

    information

    2.1

    Design

    outputs

    3.1

    Build data

    collection

    instrument

    4.1

    Select

    sample

    5.1

    Integrate data

    6.1

    Prepare

    draft

    outputs

    7.1

    Update

    outputs

    system

    8.1

    Define

    archive

    rules

    9.1

    Gather

    evaluation

    inputs

    1.2

    Consult &

    confirm

    needs

    1.3

    Establish

    output

    objetives

    1.4

    Identify

    concepts

    1.5

    Check

    data

    availability

    1.6

    Prepare

    business

    case

    2.2

    Design variable

    descriptions

    2.3

    Design data

    collection

    methodology

    2.4

    Design frame

    & sample

    methodology

    2.5

    Design

    statistical

    processing

    methodology

    2.6

    Design

    production

    systems &

    workflow

    3.2

    Build or

    enhance

    process

    components

    3.3

    Configure

    workflows

    3.4

    Test production

    system

    3.5

    Test

    statistical

    business

    process

    3.6

    Finalize

    production

    system

    4.2

    Set up

    collection

    4.3

    Run

    collection

    4.4

    Finalize

    collection

    5.2

    Classify & code

    5.3

    Review,

    Validate & edit

    5.4

    Impute

    5.5

    Derive new

    variables &

    statistical units

    5.6

    Calculate

    weights

    5.7

    Calculate

    aggregates

    5.8

    Finalize data

    files

    6.2

    Validate

    outputs

    6.3

    Scrutinize &

    explain

    6.4

    Apply

    disciosure

    control

    6.5

    Finalize

    outputs

    7.2

    Produce

    dissemination

    products

    7.3

    Manage release

    of

    dissemination

    products

    7.4

    Promote

    dissemination

    products

    7.5

    Manage user

    support

    8.2

    Manage

    archive

    repository

    8.3

    Preserve

    data and

    associated

    metadata

    8.4

    Dispose of

    data &

    associated

    metadata

    9.2

    Conduct

    evaluation

    9.1

    Agree

    action plan

    Qu hay de nuevo, viejo?

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

    PROCESAMIENTO

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

    ME YOU US

  • BIG DATA: Nuevos retos para la estadstica pblica

    Qu hay de nuevo, viejo?

  • BIG DATA: Nuevos retos para la estadstica pblica

    What happens when official statistics meets BIG DATA

  • BIG DATA: Nuevos retos para la estadstica pblica

    What happens when official statistics meets BIG DATA

    BIG

    HEAVY

    SLOW

  • BIG DATA: Nuevos retos para la estadstica pblica

    Scheveningen Memorandum

    Big Data and Official Statistics

    What happens when official statistics meets BIG DATA

    1. Reconocer que el Big Data representa nuevas oportunidades y desafos para las estadsticas

    oficiales, y por lo tanto fomentar al Sistema Estadstico Europeo y sus socios a examinar efectivamente

    el potencial del BIG DATA en ese sentido. > RECONOCIMIENTO

    2. Reconocer que Big Data es un fenmeno que est afectando a muchos mbitos. Por tanto, es esencial

    desarrollar una Estrategia de estadsticas oficiales basadas en Big Data y examinar el lugar y las interdependencias de esta estrategia en el contexto ms amplio de una estrategia global del gobierno a

    nivel nacional, as como a nivel de la UE. > ESTRATEGIA

    3. Reconocer las implicaciones del Big Data en la legislacin de proteccin de datos y derechos de la

    persona (por ejemplo, acceso a fuentes de datos en poder de terceros), implicaciones que deben ser

    abordadas apropiadamente como un asunto prioritario. > LEGISLACIN

    4. Tener en cuenta que varios institutos nacionales de estadstica estn iniciando actualmente o

    considerando los diferentes usos del Big Data en un contexto nacional. Es necesario compartir las

    experiencias obtenidas en los proyectos Big Data concretos y colaborar dentro de la ESS y ms all, en

    un nivel global. > COMPARTIR EXPERIENCIAS

  • BIG DATA: Nuevos retos para la estadstica pblica

    Scheveningen Memorandum

    Big Data and Official Statistics

    What happens when official statistics meets BIG DATA

    5. Reconocer que el desarrollo de las capacidades y habilidades necesarias para explorar con

    eficacia los Big Data es esencial para su incorporacin en el Sistema Estadstico Europeo. Esto

    requiere esfuerzos sistemticos, como los cursos de formacin adecuados y el establecimiento de

    comunidades dedicadas, incluyendo acadmicos, para el intercambio de experiencias y mejores

    prcticas. > FORMACIN

    6. Reconocer que el carcter multidisciplinar del Big Data, lo que requiere sinergias y asociaciones

    entre los expertos y las partes interesadas de diversos dominios, incluyendo gobierno, universidades y

    titulares de las fuentes de datos privadas. > COOPERACIN

    7. Reconocer que el uso de grandes volmenes de datos en el contexto de las estadsticas oficiales

    requiere nuevos desarrollos metodolgicos, de evaluacin de la calidad y de abordaje de los

    problemas de TI relacionados. La Sistema Estadstico Europeo debera hacer un esfuerzo especial

    para apoyar esos desarrollos. > INNOVACIN METODOLGICA

    8. Coinciden en la importancia de dar seguimiento a la implementacin de este memorando, y por lo

    tanto se adopta un plan de accin y plan de trabajo del SEE. > PLAN DE ACCIN

  • BIG DATA: Nuevos retos para la estadstica pblica

    What happens when official statistics meets BIG DATA

    PRIMARIA SECUNDARIA

    Cifras contrastadas con la estadstica pblica

  • BIG DATA: Nuevos retos para la estadstica pblica

    What happens when official statistics meets BIG DATA

    PRIMARIA

  • BIG DATA: Nuevos retos para la estadstica pblica

    What happens when official statistics meets BIG DATA

    PRIMARIA

    ajena propia

  • BIG DATA: Nuevos retos para la estadstica pblica

    What happens when official statistics meets BIG DATA

    SECUNDARIA

  • CONQUISTAR NUEVOS MERCADOS CON DATOS

    GRACIAS POR SU ATENCIN

    Ms informacin:

    www.gobiernodecanarias.org/istac

    www.slideshare/istac

    @istac_es