インターネット計測から見る...
TRANSCRIPT
インターネット計測から見る大規模データ処理とその進化
IIJ技術研究所長 健二朗
1
最初のパケットスイッチングネットワーク
ARPANET in 1969
2
4 年後のARPANET
ARPANET in1973
3
最近のインターネット
lumeta internet mapping http://www.cheswick.com/ches/map/4
インターネットと技術革新• インターネットの技術革新
- 通信、メディア、出版、音楽など産業や生活のあらゆる部分に
• インターネットの成功
- 1980年代には多くのコンピュータネットワークが存在
- インターネットのカルチャ:技術を越えた思想
• end-to-end: シンプルなネットッワーク、賢い端末
• インターネットは自由な創造のためのプラットフォーム
• 制度と自由
- 既存の制度や産業構造との軋轢
- global vs. international
5
インターネットカルチャ• be conservative in what you send,
be liberal in what you accept.
- Jon Postel, 1980
• We reject kings, presidents and voting. We believe in rough consensus and running code.
- David D. Clark, 1992
6
ビッグデータとインターネット計測
• ビッグデータ: 大量の非定型データから隠れた価値のある情報を引き出す技術の総称
- 新たなビジネスモデルの構築や経営改革に繋げる
- (ここではデータ量には拘らない)
• 技術は以前から使われている
- 検索ランキング、オンラインストアのお勧めシステム等
• インターネット計測:大量かつ不完全なデータからインターネットを把握する試み
- 統計的な手法による推測
7
自動車のワイパー情報の例• WIDE プロジェクトが2001 年に名古屋で行ったイン
ターネット自動車実験
• 1570 台のタクシーから位置、速度、ワイパー稼働情報を収集
• 図の青い部分がワイパー動作率が高い地域で、細かな降雨状況が分かる
8
東日本大震災での活用• 前述のシステムはITS の一部として利用中
- 地震の3日後に利用可能な道路情報が公開される
- ホンダ(トヨタ, 日産) によるデータ提供
9
インターネット計測
• ネットワーク計測(工学的)
- 比較的限定されたネットワークにおける計測
- ある時点のスナップショット
• インターネット計測
- 大規模分散開放系であるインターネットにおける計測
- オープンシステム(常に変化し続ける)
- インターネットで繋がった人の行動(社会科学的側面)
10
計測、データ解析の目的• 運用面
- トラブルシューティング、性能向上・信頼性向上のチューニング、利用状況の把握・レポート、回線容量や使用機器の中長期計画・コスト評価
• 工学面(ソフトウェア、ハードウェア、プロトコル設計と実装)
- 設計上のトレードオフ(バッファサイズとコストなど)、動作の検証、予想外の現象の観測(複雑な挙動)
• 研究面(理論化、モデル化、新規発見)
- ネットワークの挙動の特徴、モデル化(web サービスの挙動など)、複雑なシステムの挙動: 豊富なデータとツール
• 政策、投資計画等へのインプット
• 計測はすべての技術の基礎
11
掴みどころのないものを測る• インターネットにおける一般的な測定データの必要性
- 例えば、一般的なパケットサイズ分布など
• インターネットは開いた系で、つねに変化、発展、拡大
- 中心も代表点もなく、測る場所や時間によって違う姿が観測される
- インターネットの一般性を求める:掴みどころのないものを測る
• 現実にインターネットを運用、プロトコルや機器を開発
- その時点で最善の一般性を模索、将来予想し、常に見直す努力
• 人の行動が影響: 技術面だけでなく、社会的、政策的、経済的な考慮も必要
12
ネットワークのデータや挙動の特徴• バラツキが大きく、偏った分布を持つ
- パケットスイッチングの短時間にバースト的に転送する構造
- 利用の偏り: 少数の利用者が大半のトラフィックを占めるなど
• さまざなな異常が日常的に発生
- ソフトウェアのバグ、設定ミス、仕様の不整合、事故、メインテナンス
- さまざまな機能の相互干渉
• 輻輳制御の例: イーサネットの衝突回避、パケットキューイング、TCP の輻輳制御、回線容量設計
• トラフィックやサービスの集約
- 無数の要素の相互作用の結果、全体としてみれば個別要素の総和以上の独立な振舞い
13
インターネット計測が難しい理由
• 従来の計測は工学的に定義された測定基準(metric) の測定精度向上が中心
• インターネットの計測は、膨大でノイズの多いあいまいデータから統計的手法を使って知見を引き出す
- 大量、多様、バラツキが大きい、動的なデータ
- オープンな分散システムの複雑な挙動
- 適応的で障害に強いメカニズム
- さまざなな異常が日常的に発生
14
インターネット計測の制約• 多くの問題がネットワーク境界で発生
- 組織間協調が必要だが簡単ではない
• 測定そのものが測定対象に影響を与える
• 運用者の理解と協力が不可欠
- 運用の現状を理解して実情にあった測定方法を工夫する必要
• 測定にはあまりコストをかけられない実情
- 最新ルータを汎用PC で測定する測定精度の限界
• データの解析とプライバシー、企業機密
- 外部の研究者がデータ利用する障壁
- 第三者が解析に使える汎用のデータを蓄積し公開する努力
15
計測対象• インフラ
- トラフィック、CDN
- パケットロス、遅延、ジッタ
- トポロジー、経路
- DNS
• アプリケーション
- Web、メール、P2P、ゲーム、SNS、ビデオ
• セキュリティと異常
- 異常、攻撃、Flash Crowd
16
インターネット計測の変遷• ARPANETからNSFNET時代 (-1995)
- 学術系ネットワーク中心
- queueing theory, SNMP, ping/traceroute
• インターネット普及期 (1995-2000)
- 商用ネットへの移行、ドットコムバブル、高速ファイバー網
- Web/キャッシュ、フロー計測、NAT・Firewallなどのミドルボックス
- QoS研究、TCP挙動解析、自己相似モデル、Zipfの法則、シミュレータ
• ブロードバンド普及期 (2000-)
- 多様な統計手法の適用、複雑系
- トラフィックモデル、トポロジー、P2P、CDN、WiFi
- PlanetLab、クラウドソーシング
• コンテンツ、データの時代 (2010-)
- スマートフォン、SNS、 ハイパージャイアント、ネット広告
- ネットワークサイエンス、インターネットエコノミクス
17
データの収集と解析• データ収集
- PCベース、共有プラットフォーム、ユーザによる計測
- クローリング、自動化による長期計測
• データ解析手法
- 統計的手法、機械学習
• データ解析プラットフォーム
- あまり独自のものはない
- コンピュータ屋なのでアルゴリズムを工夫して、必要ならCでガリガリコーディング
- ビッグデータで使えるツールが増えた
18
アクティブ計測プラットフォーム• PCベースのプローブ (プロジェクトごと)
- 測定精度は高い、観測点が少ない、学術系に偏る
- PingER(1995-), CAIDA Skitter (1998-2008), NLANR AMP (1998-2006)
• 共有計測プラットフォーム
- 観測点の増加、学術系に偏る、干渉問題、 学生も利用可能に
- NIMI (1998-), PlanetLab(2002-), M-Lab(2009-)
• ユーザによる計測、クラウドソーシング
- 多くの観測点の確保、個々のデータの精度は低い
- DIMES(2004-), ONO(2007-), RIPE Atlas(2010-), BISmark/SamKnows(2011-)
19
データ解析• 不正確なデータ
- たくさん集めて統計処理
• データの偏り
- データそのものが偏っている
- サンプルが偏る
• 詳細情報がない場合、異なるデータの照合
- 複数のデータや手法を突き合わせ推測
• トラフィック量の変動原因をサンプルフローデータから推定
• コントロールプレーンとデータプレーン
- 統計手法、機械学習
20
データ解析とモデル化• トラフィック解析: パケット、フロー、無線
• 時系列解析
• 多変量解析、次元削減(PCA)
• ネットワークトモグラフィー、トラフィックマトリクス推測
• トポロジ構造解析: ASレベル、ルータレベル
• GeoLocation
• サンプリング
• ネット中立性
• ネット広告の計測利用
21
物理空間とのマッピング• インターネットはサイバー空間だが
• インフラは物理的制約のもとで発展
- 通信回線、施設、電力供給、無線インフラ
• リソースの集中(ハブ)とその脆弱性
- 国ごとの法制度の違い
• 物理空間とのマッピングの必要性
- 対故障性、災害耐性
- インフラ計画、ボトルネックの把握
- 地域別サービス(法的制約)
22
トポロジと物理ランドマーク• 論理的なトポロジーを地理情報にマップする試み
- IP GeoLocation:多くのアプリケーション
• 精度向上手法
- 大学施設などをランドマークにする
- DNS逆引き情報からISPのPOPを特定
- 遅延情報による三角測量的手法
- 同一ルータに属するアドレス特定
- ロードバランサなどによるマルチパス検出
23
トポロジと物理回線
•光ファイバー網: 道路や鉄道に沿って敷設
ニューヨークのファイバー網 http://nicolasrapp.com/?p=1180
国内のファイバー網総務省 情報通信白書 2001 24
ビッグデータのインパクト• あらゆる科学技術分野で、膨大なデータ解析
は欠かせない研究手法になった
• データの充実
- センサーや利用者情報などのオンライン化
• ツールの充実
- 分散ストレージ、NoSQLデータベース、MapReduce などの分散処理、データマイニング、機械学習、統計処理などのツール
25
フロー集約によるサマリ作成
• データ圧縮:画像圧縮との類似点
• 高解像度 (情報量大) ↔ 低解像度 (情報量小)
• 情報量(エントロピー)の符号化
26
プライバシー
• 他人の干渉を許さない、各個人の私生活上の自由(広辞苑)
• プライバシーの見方はコンテキストや文化で大きく異なる
- 基本的人権
- 財産権: 個人情報が商品価値を持つ。侵害されれば損害賠償
• インターネットが始まった時からの課題
- 始めは(あるいは今でも)研究者の紳士協定
- 法で縛るべきか、モラルでカバーできるか
• 計測は法的にグレーな部分が多い
- 計測に対する立場の違い、技術者の認識にも大きな温度差
27
通信の秘密と個人情報保護• 憲法上の通信の秘密
- 政府など公権力に対する義務
• 電気通信事業法第4 条第1 項で通信の秘密
- 電気通信事業者の取扱中に係る通信の秘密は、侵してはならない
• 例外
- 当事者の同意がある場合
• ウイルスチェックサービスや迷惑メールフィルタリングサービス
- 違法性阻却事由が存在し、違法とはされない場合
• 業務上必要な正当業務行為に当たる場合: パケット配送のためにヘッダ情報を見るなど
• 緊急避難に該当する場合: 他のサービスに支障が出ないよう対策をするなど
• 日本の個人情報保護法 2005 年に施行
- 5000 件以上の個人情報を扱う事業者が対象
- 利用目的の特定、制限、適切な取得、通知義務、苦情処理
28
データ分析はあくまで道具
• 最近のビッグデータの話題はツールや手法が強調されがち
• データ解析はあくまでツール
- 仮説を立てて、データで検証
- 結果が予想と異なれば、そこから新たな疑問へ
- このプロセスの繰り返しから、役立つ情報や興味深い事実の発見
• 目的を持たずにデータを集めてCPUを回し解析してもムダ
• 逆にデータから何を得たいかがはっきりすれば、やるべきことは見えてくる
29
思考プロセスの変化
• もちろん以前からデータを基に考えることは重要だった
• 情報技術によって、データに基づいて考え、考えをデータで検証する思考プロセスに変化
- 扱えるデータの量と質、その表現方法が桁違いに
- 文字通りデータと対話しながら考えることが可能に
30
今後の課題• 人材育成
- その分野の専門知識を持った上で、既存の考えや解釈に疑問を持つ、統計やデータ解析を道具として使いこなして問題解決する
• データの財産化
- 他社が持っていないような実データを持つ会社が強い
- 同じデータなら、情報を引き出す能力で優劣
• データの共有
- データを共有できる、検証できることの社会的意義
• プライバシーとのバランス: 社会的合意形成が大きな課題
- 組織がどこまで個人を追跡していいか
- 個人の医療情報などをどのように共有して社会に役立てるか
- 安全の代償
31
受け取り側のリテラシ
• 受け取り側も、データを理解する、データに疑問を持つ必要
- 発信者のバイアスによる作為的な統計データや情報操作の氾濫
• 我々は白黒の判定を求めがち
- ほとんどの物事はグレー、白黒は便宜的にグレーに線を引く行為
- 白黒を求めるのは、自ら判断することを避けて、発信者に判断の責任を求める行為
- グレーはグレーとして受け取り、自分で判断することが必要な社会になってきている
32
おわりに• インターネット計測とCPS
- インフラの視点: クリティカルな部分では物理資源の把握が重要
- ユーザ挙動の視点: 実空間との関係
• 技術、企業を取り巻く環境の変化と速度
- 迅速な連携による対応が必要
- 国、組織•個人、分野をまたいだ連携
- 日頃からしておくべきこと
• インターネットの役割
- ユーザのためのプラットフォーム
33