ieee bigdata 2013 - jpgrid.org ·...

22
IEEE BigData 2013 2013 IEEE International Conference on Big Data 棟朝 雅晴 北海道大学情報基盤センター グリッド協議会第41回ワークショップ 「国際会議における技術動向報告」 2014115

Upload: others

Post on 26-Dec-2019

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

IEEE BigData 2013

2013 IEEE International Conference on Big Data

棟朝 雅晴北海道大学情報基盤センター

グリッド協議会第41回ワークショップ「国際会議における技術動向報告」

2014年1月15日

Page 2: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

IEEE BigData 2013

• 2013年10月6~9日, Santa Clara, CA, USA (Hyatt Regency Santa Clara)http://cci.drexel.edu/bigdata/bigdata2013/

• “IEEE International Congress onBig Data” (service computing系)とは別の会議

• 参加者数:450名以上

• 論文投稿数:300弱

Page 3: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

会議の概要• Research Track 投稿数:259採択数:Regular 44 (17%), Short 53 (20%)

• Industry Track 投稿数:29, 採択数:9

• 12 Workshops, 2 Tutorials, 4 Keynote Speeches

• 2 Panels- “Key Issues in Big Data”- “Big Data projects Funding: Challenges and Opportunities”

Page 4: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

USA,%103%

China,%31%

Japan,%21%

Germany,%16%

India,%11%

UK,%9%Canada,%7%France,%7% Italy,%7% Taiwan,%7%

Singapore,%5%

Australia,%4%

USA,%22%

China,%8%UK,%4%

Taiwan,%3%

Canada,%3%

Germany,%3%

Japan,%2%

Hungary,%2%Misc,%9%

論文投稿&採択の状況(国別)• 米国の割合が多いのは当然として、次に中国が多くの割合を占める。(クラウドなど新しい分野に共通の傾向では?)

論文投稿 論文採択

Page 5: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

論文投稿分野別内訳• 大きく分けて、アルゴリズム・基礎理論、インフラ・管理、アプリケーション・セキュリティ、にバランスよく投稿されている。

• アルゴリズム・基礎理論については、統計や機械学習など情報科学の流れ

• インフラ・管理についてはHadoopやストレージなど

• アプリケーションについてはMapReduceの応用など

Founda'oins*15%*

Infrastructure*20%*

Management*16%*

Search*and*Mining*28%*

Security*and*Privacy*5%*

Applica'ons*16%*

Page 6: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Regular Papers: Big Data Foundations

• "On-Line Learning Gossip Algorithm in Multi-Agent Systems with Local Decision Rules"

• "Labeled $N$-gram Topic Model"

• "Communication Efficient Algorithms for Fundamental Big Data Problems"

• "Map-Based Graph Analysis on MapReduce"

Page 7: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Regular Papers: Big Data Infrastructure

• "HFSP: Size-based Scheduling for Hadoop"

• "An Evaluation Study of BigData Frameworks for Graph Processing"

• "Storing and manipulating environmental big data with JASMIN"

• "Efficient Gear-shifting for a Power-proportional Distributed Data-placement Method"

• "Agrios: A Hybrid Approach to Big Array Analytics"

• "Building a Generic Platform for Big Sensor Data Application"

•  "Locality-driven High-level I/O Aggregation for Processing Scientific Datasets"

Page 8: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Regular Papers: Big Data Management

• "Iteration Aware Prefetching For Unstructured Grids"

• "Measuring Inter-Site Engagement"

• "A Selective Checkpointing Mechanism for Query Plans in a Parallel Database System"

• "CORE: Cross-Object Redundancy for Efficient Data Repair in Storage Systems"

• "H2RDF+: High-performance Distributed Joins over Large-scale RDF Graphs"

• "Direct QR factorizations for tall-and-skinny matrices in MapReduce architectures"

• "Adaptive File Management for Scientific Workflows on the Azure Cloud"

• "Model-View Sensor Data Management in the Cloud"

• "Spatio-temporal Indexing in Non-relational Distributed Databases"

Page 9: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Regular Papers: Big Data Search and Mining

• "Continuous Hyperparameter Optimization for Large-scale Recommender Systems"• "4S: Scalable Subspace Search Scheme"• "Computing Betweenness Centrality in External Memory"• "A Parallel Computing Platform for Training Large Scale Neural Networks"• "Self-Tuned Kernel Spectral Clustering for Large Scale Networks"• "NUMA-optimized Parallel Breadth-first Search on Multicore Single-node System"• "A Distributed Vertex-Centric Approach for Pattern Matching in Massive Graphs"• "Fast Scalable Selection Algorithms for Large Scale Data"• "An NML-based Model Selection Criterion for General Relational Data Modeling"• "Parallel Matrix Factorization for Binary Response"• "CallCab: A Unified Recommendation System for Carpooling and Regular Taxicab

Services"• "Top-K aggregation over a Large Graph Using Shared-Nothing Systems"• "Distributed Confidence-Weighted Classification on MapReduce"• "Scalable Context-Aware Role Mining with MapReduce"

Page 10: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Regular Papers: Big Data Security & Privacy

• "DP-WHERE: Differentially Private Modeling of Human Mobility"

• "Malicious URLs Filtering - A Big Data Application"

• "Zero-Knowledge Private Graph Summarization"

Page 11: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Industry and Government Program

• “Terabyte-sized Image Computations on Hadoop Cluster Platforms”

• “A Fast and Scalable Method for Threat Detection in Large-scale DNS Logs”

• “Hourglass: a Library for Incremental Processing on Hadoop”

• “Correlation-based Performance Analysis for Full-System MapReduce Optimization”

• “Large Scale Ad Latency Analysis”

• “Accelerating semantic graph databases on commodity clusters”

• “Practical Distributed Classification using the Alternating Direction Method of Multipliers Algorithm”

• “Scaling Deep Social Feeds at Pinterest”

• “Big Data Analytics on High Velocity Streams: A Case Study”

Page 12: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Keynote Speech

• “The Berkley Analytics Stack: Present and Future”Michael Franklin (AMP Lab, UC Berkley)

• AMP (Algorithms, Machines, People) LabとBerkley Analytics Stack の紹介

• Spark(http://spark.incubator.apache.org)による機械学習アルゴリズムの実装例

• Shark( = Spark + Hive) のアーキテクチャの紹介                など

Page 13: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Berkley Data Analytics Stack (BDAS)

• ビッグデータ処理インフラを構築するためのオープンソースによるソフトウェアコンポーネントの統合環境

• Spark, Shark : 機械学習の繰り返し処理をインメモリ処理によって高速化

• Apache Mesos:Hadoopなどクラスタシステムの資源管理

https://amplab.cs.berkeley.edu/software/ より

Page 14: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Spark, Shark

• 繰り返し処理を多用する機械学習アルゴリズム向けのインメモリによるデータ共有

• Hadoopの場合には、MapReduce処理をHDFS上のデータに対して行うため、集計処理には向くが、繰り返し処理を多用する機械学習向きではない

• インメモリによる繰り返し処理の高速化を実現するためのソフトウェア

• YARN (Yet Another Resource Negotiator)等も含む

Page 15: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

ワークショップ1.Distributed Storage Systems and Coding for BigData2.Big Data and Humanities3.Workshop on Big Data and Society4.Big Data Benchmarks, Performance Optimization, and Emerging hardware5.Big Data Visualization6.Big Data and Science: Infrastructure and Services7.Scalable Machine Learning: Theory and Applications8.Big Data in Bioinformatics and Health Informatics9.Scholarly Big Data: Challenges and issues10.Scalable Cloud Data Management11.Big Data and Smarter Cities12.Knowledge management and Big Data Analytics

Page 16: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Big Data and Science: Infrastructure and Services

• Keynote Speech: “Google Earth Engine”Noel Gorelick (Google)

• 科学者・大学院生など約10000人の開発者データの生成者が10万人、利用者が1億人

http://portal.nersc.gov/project/bigdata/2013/

Page 17: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Big Data and Science: Infrastructure and Services

• SciFlow: A Dataflow-Driven Model Architecture for Scientific Computing using Hadoop

• Rethinking Data Management for Big Data Scientific Workflows

• perfSONAR: On-board Diagnostics for Big Data

• A big data analytics framework for scientific data management

Page 18: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

その他Workshopより

• Workshop on Scholarly Big Data: Challenges and Ideas

• Keynote by Brewster Kahle (Internet Archive)

• Workshop on Scalable Machine Learning

• Keynote by Alex Kolcz (Twitter, Inc.)“Understanding Twitter: Big Problems not Always with Big Data”

Page 19: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Panel: “Key Issues in Big Data”

• Chair: Dr. T. Y. Lin (San Jose State U)

• Dr. Roger Schell (U Souther California) “The Power of Science for Security - It Both Enables and Constrains”

• Dr. Tomoyuki Higuchi (統数研) “Data Science and Data Scientist”

• Dr. Sylvia Osborn (U of Western Ontario) “Access Control and Privacy”

• Dr. Justin Zhan (N. Carolina A&T U) “The DataBridge: A Social Network for Long Tail Science Data”

• Dr. Peter Chen (CMU): “Big Challenges, Big Payoff”

Page 20: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Panel: “Key Issues in Big Data”より• セキュリティ:脆弱性については攻撃側が圧倒的に有利である → Security Kernelの必要性

• プライバシー:Big (Personal) Data on CloudArchitecture については”Challenges”

• データ解析:外挿の困難性→データ同化について

Page 21: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

Panel: “Key Issues in Big Data”より• Dr. Peter Chen: 3 Major Challenges

Challenge 1: Perform “near-real-time” analyses → データ量、生成速度の増大に対応する並列実装Challenge 2: Data preservation,deciphering and conversion→ 多様なデータフォーマット メディアへの対応、保存Challenge 3: “Entity Resolution” → 同じ「もの・人」を表わすか?

• Dr. Justin Zhan “The DataBridge”→ Social Network for Long tail Science Data

Page 22: IEEE BigData 2013 - jpgrid.org · ム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発 表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に

全体的な傾向&感想• 「ビッグデータ」は、学術用語ではないため、結局のところ、アルゴリズム・理論・データ解析系の研究発表と、インフラ・並列分散処理系の研究発表(+セキュリティ・プライバシーなど周辺の研究発表が若干)が、単純に混在した会議となっている。

• 理論系と実装系の有機的な情報共有、統合ができるようになると、本会議の重要性も増してくると考えられるが、現状ではパネル討論ぐらいか

• 他の国際会議や商業的なイベントとの差別化をどのように図っていくのかが今後の課題