20131125 gis学会
Post on 31-May-2015
342 Views
Preview:
TRANSCRIPT
デジタル電話帳データを用いた店舗・事業所の時系列データ構築と分析手法の研究
GISA学術研究発表Web大会
1
東京大学大学院 新領域創成科学研究科 社会文化環境学専攻 柴崎研究室
○水野弘規、仙石裕明、秋山祐樹、柴崎亮介
2
1. 時系列変化データ活用の可能性 p3〜4
2. 時系列変化データ構築方法 p5〜19
3. 時系列変化データを用いた分析 p20〜23
目次
1-‐1. 時系列変化データ活用の可能性
3
商業店舗の売上時系列変化 × 商業店舗の周辺店舗の時系列変化 ↓
売上変化要因の検証 (自社要因) (他社要因) (市場要因)
(売上の時系列的変化)
売上の周期性に反する異常値検出! ↑ 要因は? ・自社要因 e.g.店員の態度、キャンペーンの展開 ・他社要因(周辺変化)→空間解析 e.g. 競合店の出現・消滅、人口の流出・流入 ・市場要因 e.g.景気変動
Time
as.ts(shop201746$sale)
0 50 100 150
1.0e+07
1.5e+07
2.0e+07
2.5e+07
Time
Sale
1.データ活用例 2.データ構築手法 3.データ分析
1-‐2. 時系列変化データ活用の可能性
4
商業店舗の売上時系列変化と商業店舗の周辺店舗の時系列変化を組み合わせ、売上変化要因を検証できれば以下のような出店の立地戦略に関わるデータが検証できる。
• 商業店舗相性の良い・悪い業種の検出
• 相性の良い店舗との相乗効果を狙った共同出店
• 売上の将来予測
• 各店舗の周辺店舗・事業所からの潜在的売上予測
1.データ活用例 2.データ構築手法 3.データ分析
2-‐1. 時系列変化データ構築のために用いたデジタル電話帳データ
電話帳データ(テキストデータ) 住所情報
5 1.データ活用例 2.データ構築手法 3.データ分析
���(�� 4+7219.
*36-50/7,)��#����'�"4+7219.�� �8���!$(
8���8���8���� 8���8������&%
2-‐1. デジタル電話帳データの紹介
<電話帳データ(テレポイントPack!)の属性情報> 電話帳掲載名、電話長掲載名補足記述、電話帳掲載名カナ、電話番号、電話番
号ハイフンなし、住所、コード化住所カナ、住所コード、コード化文字数、郵便番号、
業種コード、代表区分、会社区分、属性区分、初回登録年月、電話帳発行年月、
字下げ文字数、掲載名・住所有無フラグ、親-‐ 掲載名・住所有無フラグ、精度フラグ、
緯度(X座標)、経度(Y座標) 6
本研究で用いる電話帳データ(テレポイントPack!(株式会社ゼンリン))は、掲載されている店舗・事業所1件1件に関する以下の属性情報を保有している。 電話帳データは2ヶ月に1回更新される上に、テレポイントPack!の場合、過去のデータも蓄積されているため、店舗・事業所の変遷を位置情報を含めて時系列的に把握することが出来る。
1.データ活用例 2.データ構築手法 3.データ分析
7
これらのうち、電話帳掲載名から店舗・事業所名、業種コードから店舗毎の業種(業態)が分かる。またそれらの立地も住所や経緯度から分かる。 ↓ 新旧の電話帳に掲載されたこれらの情報を数珠つなぎにリンクしていくことで、現在分布している店舗の出現時期、過去の変遷(名称・業種の変化)が把握出来る。
<電話帳データ(テレポイントPack!)の属性情報> 電話帳掲載名、電話長掲載名補足記述、電話帳掲載名カナ、電話番号、電話番
号ハイフンなし、住所、コード化住所カナ、住所コード、コード化文字数、郵便番号、
業種コード、代表区分、会社区分、属性区分、初回登録年月、電話帳発行年月、
字下げ文字数、掲載名・住所有無フラグ、親-‐ 掲載名・住所有無フラグ、精度フラグ、
緯度(X座標)、経度(Y座標)
1.データ活用例 2.データ構築手法 3.データ分析
2-‐1. デジタル電話帳データの紹介
2-‐2. 店舗・事業所の時系列変化の分類
����� ����� �����
�� �� ��
�� �� ����
�� � �
� �� ���
存続・・・・・・・2時点間で同じ場所に同じ店舗・事業所が継続 入れ替え・・・2時点間で同じ場所で店舗・事業所が入れ替わり 消滅・・・・・・・2時点間である地点に古い年には店舗・事業所が 存在するが、新しい年には存在しない 新規出現・・・2時点間である地点に古い年には店舗・事業所が 存在しないが、新しい年には存在する
時系列変化の例
8 1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 店舗・事業所の同一性判定手法
2時点間の時系列変化の判定手法 1.新旧で経緯度が完全一致する店舗 >店舗名称の同一性を判定。一致すれば存続、 一致しない場合は入替とする。
2.経緯度が完全一致しないもの >住所や名称の同一性に応じて条件が分岐する。 3.結合先が見つからないもの >新規出現か消滅と判定される。
以下本手法の詳細について説明する。
9 1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 店舗・事業所の同一性判定フロー
%/'-/
$, ����4�$,��44444
�� 6���� ��6���� 44�2�,-�3
4&(.������ 4444&(.4����4$,44444444
�6����4444!�!4+�+44���;<:444�6���� 44
�����$,��44444
44&(.������ &(.4 0�
0 $�)-'* �"#�� ���$,
1 40 1�9�5
;<:�874444444444&(.4444444 2��
42�,-�34 40��� 3����
10 1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 経緯度が完全一致するもの
%/'-/
$, ����4�$,��44444
�� 6���� ��6���� 44�2�,-�3
4&(.������ 4444&(.4
����4$,44444444
�6����4444!�!4+�+44���;<:444�6���� 44
�����$,��44444
44&(.������ &(.4 0�
0 $�)-'* �"#�� ���$,
1 401�9�5
;<:�874444444444&(.4444444 2��
42�,-�34 40��� 3����
11 1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 経緯度が完全一致するもの
完全に同一地点にあるデータ同士をリンクする。 ↓
名称が完全一致する場合、「存続」とする。
名称が完全一致しない場合、N-‐gram(後述)により類似度が0.35以上で「存続」、0.35未満で「入れ替え」とする。
↓ 以上の処理を行った後、新旧時点間でリンクできない場合、新しい
年のみに存在する店舗は「新規出現」、古い年にのみに存在する店
舗は「消滅」と判定する。
12 1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. N-‐gramとは?
13
Text-i
本のアキヤマ Text-j
5)2( =im
5)2( =jm3)2( =jin
)2()2(
)2()2()2(
ji
jiijij mm
nnS
+
+=
60.05533=
+
+
文字列iと文字列jの類似度
3)2( =ijn
アキヤマ書店
アキ キヤ ヤマ マ書 書店
本の のア アキ キヤ ヤマ
3ブロックが一致
文字列同士の類似度を定量的に評価する手法。表記揺れや語順の揺れを吸収しながら文字列の同一性を評価できる。表意文字を使い、単語間の分かち書きを行わない日本語や中国語、韓国語等の処理で利用価値が高い手法である。
1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 経緯度が完全一致しないもの
%/'-/
$, ����4�$,��44444
�� 6���� ��6���� 44�2�,-�3
4&(.������ 4444&(.4
����4$,44444444
�6����4444!�!4+�+44���;<:444�6���� 44
�����$,��44444
44&(.������ &(.4 0�
0 $�)-'* �"#�� ���$,
1 401�9�5
;<:�874444444444&(.4444444 2��
42�,-�34 40��� 3����
14 1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 経緯度が完全一致しないもの
経緯度が完全一致するデータが存在しない。 ↓
・住所と名称の同一性判断により、共に完全一致する場合、「存続」とする。 名称が完全一致しない場合はN-‐gramによる名称同一性判定を実施する。
↓ ・ 近隣の店舗同士をリンクし名称同一性判断 (ただし 近隣店舗までの距離が20m以上なら無視。)
↓ N-‐gramにより類似度が0.35以上で「存続」、0.35以下で「入れ替え」とする。
↓
以上の処理を行った後、新旧年でリンクできないもので新しい年のみに存在
する店舗は「新規出現」、古い年にのみに存在する場合は「消滅」とする。 15
1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 結合先が見つからないもの
%/'-/
$, ����4�$,��44444
�� 6���� ��6���� 44�2�,-�3
4&(.������ 4444&(.4
����4$,44444444
�6����4444!�!4+�+44���;<:444�6���� 44
�����$,��44444
44&(.������ &(.4 0�
0 $�)-'* �"#�� ���$,
1 401�9�5
;<:�874444444444&(.4444444 2��
42�,-�34 40��� 3����
16 1.データ活用例 2.データ構築手法 3.データ分析
2-‐3. 結合先が見つからないもの
新しい年のみに存在する店舗は「新規出現」、古い年にのみに存在
する場合は「消滅」とする。
17 1.データ活用例 2.データ構築手法 3.データ分析
2-‐4. 処理結果
18
東京都と八王子市について店舗・事業所の2011年〜2012年までの時系列変化を明らかにした。
�,"72.72%�
����,"1.85%�
�,"6.08%�
���,"19.36%�
������69������
��,"73.95%�
����,"0.96%�
� ,"7.19%�
���,"17.91%�
����2������
東京都全体と八王子市は「存続」70%前後、「入替え」1%前後、「消滅」6%前後、「新規出現」18%前後と、概ね同じような時系列変化が見られる。 時系列変化は全国の詳細な地域にピックアップすることが可能である。
1.データ活用例 2.データ構築手法 3.データ分析
2-‐4. 八王子市における時系列空間結合の例
19
0km� 1%km�
�%%� ��%%��%%���%
N�
0km� 8%km�
�%%� ��%%��%%���%
N�
店舗・事業所の時系列変化を地図にプロットした。 これによりどこでどのような時系列変化が起こったのか可視化できる。
例えば、八王子市全域の時空間結合では「入れ替え」を表す青色のポイントデータが集中する場所がある。そこを拡大すると八王子駅周辺でターミナル駅であり、店舗・事業所の多くが入れ替わっ
ていることが分かる。
八王子駅周辺における時系列空間結合
八王子市における時系列空間結合
1.データ活用例 2.データ構築手法 3.データ分析
3-‐1. 構築データを用いた分析
構築した店舗・事業所の時系列変化データを用いて商業店舗の売り上げ変化要因を検証する為にデータを集計した。
1. 業種別の時系列変化の件数・割合の集計
• 今回は東京都全域、東京23区、東京都の各市区町村について明らかにした。
• 同様のデータは日本全国で作成可能であり、市区町村別集計も可能である。
2. 売上データを提供いただいている各商業店舗から500m圏内
(可変)の業種別の時系列変化の件数と割合の集計
• 店舗データを与えることで任意の店舗で集計可能。
20 1.データ活用例 2.データ構築手法 3.データ分析
21
3-‐2. 業種別の時系列変化別の件数(2011~2012年) 東京都全域
0
20,000
40,000
60,000
80,000
100,000
120,000
140,000
160,000
180,000
200,000
水産
農林
鉱業 建設
土木
食品 繊維
紙
化学
薬品
石油
石炭製品
製品
窯業
鉄鋼 非鉄金属
金属製品
機械 電気機器
輸送用機器
精密機器
他製品
商業 金融保険
不動産
陸運 海運 空運 倉庫
運輸関連
通信
情報
電気
技術
専門職 施設 用品店
娯楽
食事関係
行楽地関連
病院
福祉
大型総合店舗
生活関連店
車関連
学校
教養
役所
公共機関
他
不明
K
店舗
事業所数
件
第三次産業の娯楽・食事、生活関連店(小売店)が非常に多い。第二次産業では建設土木業が圧倒的に多い。第一次産業は極めて少ない。
3-‐2. 業種別の時系列変化別の割合(2011~2012年) 東京都全域
22
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
水産
農林
鉱業 建設
土木
食品 繊維
紙
化学
薬品
石油
石炭製品
製品
窯業
鉄鋼 非鉄金属
金属製品
機械 電気機器
輸送用機器
精密機器
他製品
商業 金融保険
不動産
陸運 海運 空運 倉庫
運輸関連
通信
情報
電気
技術
専門職 施設 用品店
娯楽
食事関係
行楽地関連
病院
福祉
大型総合店舗
生活関連店
車関連
学校
教養
役所
公共機関
他
不明
K
東京都の業種ごとの店舗・事業所にどのような変化が起きたのかも明らかにできる。
1.データ活用例 2.データ構築手法 3.データ分析
3-‐3. ある商業店舗のスタディデータ
15000000
17000000
19000000
21000000
23000000
25000000
27000000
29000000
31000000
1 2 3 4 5 6 7 8 9 10 11 12
sale
month
2012sale
2011sale
2010sale
2009sale
0
100
200
300
400
500
600
700
800
水産
農林
鉱業
建設
土木
食品
繊維
紙
化学
薬品
石油
石炭製品
製品
窯業
鉄鋼
非鉄金属
金属製品
機械
電気機器
輸送用機器
精密機器
他製品
商業
金融保険
不動産
陸運
海運
空運
倉庫
運輸関連
通信
情報
ー
電気
技術
専門職
ー
施設
ー
用品店
娯楽
食事関係
行楽地関連
病院
福祉
大型総合店舗
生活関連店
車関連
学校
教養
役所
公共機関
他
不明
ー
K
店舗
・事
業所
数(件
)
廃業
新設
入替
存続
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
水産
農林
鉱業
建設
土木
食品
繊維
紙
化学
薬品
石油
石炭製品
製品
窯業
鉄鋼
非鉄金属
金属製品
機械
電気機器
輸送用機器
精密機器
他製品
商業
金融保険
不動産
陸運
海運
空運
倉庫
運輸関連
通信
情報
ー
電気
技術
専門職
ー
施設
ー
用品店
娯楽
食事関係
行楽地関連
病院
福祉
大型総合店舗
生活関連店 車関連 学校
教養
役所
公共機関
他
不明
ー
K
前年比(2012) +31.85%
コンビニ 存続 18
入替わり 1
新規出現 1
消滅 3
500m圏内の競合他社(コンビニ)時系列変化
23
ある商業店舗の売上と周辺(500m圏内)の業種別店舗・事業所の時系列変化の件数・割合(2011年から2012年)を明らかにした。今後はこのようなデータをどのように組み合わせ定量的に売上要因を表せるかが課題となる。
今後の課題
作成したデータをどのように組み合わせて、他社要因による売上変化を定量的に表すか?
• 売上変化要因となり得る業種の絞り込み >売上が伸びた(あるいは下がった)時期に、周辺ではどの 業種の店舗が出現・消滅したのか?
• 売上変化に関係する店舗との距離関係の検証
• 自社要因、市場要因をどのように取り除くのか? >競合他社の時系列変化のみで売上変化が起きたと どのように断定するのか?
24
top related