20131125 gis学会

24
デジタル電話帳データを用いた店舗・事業所の 時系列データ構築と分析手法の研究 GISA学術研究発表Web大会 1 東京大学大学院 新領域創成科学研究科 社会文化環境学専攻 柴崎研究室 水野弘規、仙石裕明、秋山祐樹、柴崎亮介

Upload: takahiro-nishimura

Post on 31-May-2015

342 views

Category:

Technology


8 download

TRANSCRIPT

Page 1: 20131125 gis学会

デジタル電話帳データを用いた店舗・事業所の時系列データ構築と分析手法の研究  

GISA学術研究発表Web大会

1

東京大学大学院 新領域創成科学研究科  社会文化環境学専攻 柴崎研究室  

 ○水野弘規、仙石裕明、秋山祐樹、柴崎亮介

Page 2: 20131125 gis学会

2

1. 時系列変化データ活用の可能性 p3〜4  

2. 時系列変化データ構築方法 p5〜19  

3. 時系列変化データを用いた分析 p20〜23  

目次

Page 3: 20131125 gis学会

1-­‐1.  時系列変化データ活用の可能性  

3

商業店舗の売上時系列変化 × 商業店舗の周辺店舗の時系列変化  ↓  

売上変化要因の検証  (自社要因) (他社要因) (市場要因)  

(売上の時系列的変化)  

売上の周期性に反する異常値検出!      ↑ 要因は?    ・自社要因    e.g.店員の態度、キャンペーンの展開    ・他社要因(周辺変化)→空間解析  e.g.  競合店の出現・消滅、人口の流出・流入    ・市場要因  e.g.景気変動  

Time

as.ts(shop201746$sale)

0 50 100 150

1.0e+07

1.5e+07

2.0e+07

2.5e+07

Time

Sale

1.データ活用例 2.データ構築手法 3.データ分析

Page 4: 20131125 gis学会

1-­‐2.  時系列変化データ活用の可能性  

4

商業店舗の売上時系列変化と商業店舗の周辺店舗の時系列変化を組み合わせ、売上変化要因を検証できれば以下のような出店の立地戦略に関わるデータが検証できる。    

•  商業店舗相性の良い・悪い業種の検出  

•  相性の良い店舗との相乗効果を狙った共同出店  

•  売上の将来予測  

•  各店舗の周辺店舗・事業所からの潜在的売上予測  

1.データ活用例 2.データ構築手法 3.データ分析

Page 5: 20131125 gis学会

2-­‐1.  時系列変化データ構築のために用いたデジタル電話帳データ

電話帳データ(テキストデータ) 住所情報

5 1.データ活用例 2.データ構築手法 3.データ分析

���(�� 4+7219.

*36-50/7,)��#����'�"4+7219.�� �8���!$(

8���8���8���� 8���8������&%

Page 6: 20131125 gis学会

2-­‐1.  デジタル電話帳データの紹介

<電話帳データ(テレポイントPack!)の属性情報>  電話帳掲載名、電話長掲載名補足記述、電話帳掲載名カナ、電話番号、電話番

号ハイフンなし、住所、コード化住所カナ、住所コード、コード化文字数、郵便番号、

業種コード、代表区分、会社区分、属性区分、初回登録年月、電話帳発行年月、

字下げ文字数、掲載名・住所有無フラグ、親-­‐  掲載名・住所有無フラグ、精度フラグ、

緯度(X座標)、経度(Y座標)  6

本研究で用いる電話帳データ(テレポイントPack!(株式会社ゼンリン))は、掲載されている店舗・事業所1件1件に関する以下の属性情報を保有している。    電話帳データは2ヶ月に1回更新される上に、テレポイントPack!の場合、過去のデータも蓄積されているため、店舗・事業所の変遷を位置情報を含めて時系列的に把握することが出来る。  

1.データ活用例 2.データ構築手法 3.データ分析

Page 7: 20131125 gis学会

7

これらのうち、電話帳掲載名から店舗・事業所名、業種コードから店舗毎の業種(業態)が分かる。またそれらの立地も住所や経緯度から分かる。  ↓  新旧の電話帳に掲載されたこれらの情報を数珠つなぎにリンクしていくことで、現在分布している店舗の出現時期、過去の変遷(名称・業種の変化)が把握出来る。

<電話帳データ(テレポイントPack!)の属性情報>  電話帳掲載名、電話長掲載名補足記述、電話帳掲載名カナ、電話番号、電話番

号ハイフンなし、住所、コード化住所カナ、住所コード、コード化文字数、郵便番号、

業種コード、代表区分、会社区分、属性区分、初回登録年月、電話帳発行年月、

字下げ文字数、掲載名・住所有無フラグ、親-­‐  掲載名・住所有無フラグ、精度フラグ、

緯度(X座標)、経度(Y座標)  

1.データ活用例 2.データ構築手法 3.データ分析

2-­‐1.  デジタル電話帳データの紹介

Page 8: 20131125 gis学会

2-­‐2.  店舗・事業所の時系列変化の分類  

����� ����� �����

�� �� ��

�� �� ����

�� � �

� �� ���

存続・・・・・・・2時点間で同じ場所に同じ店舗・事業所が継続  入れ替え・・・2時点間で同じ場所で店舗・事業所が入れ替わり  消滅・・・・・・・2時点間である地点に古い年には店舗・事業所が          存在するが、新しい年には存在しない  新規出現・・・2時点間である地点に古い年には店舗・事業所が          存在しないが、新しい年には存在する  

時系列変化の例  

8 1.データ活用例 2.データ構築手法 3.データ分析

Page 9: 20131125 gis学会

2-­‐3.  店舗・事業所の同一性判定手法

2時点間の時系列変化の判定手法    1.新旧で経緯度が完全一致する店舗     >店舗名称の同一性を判定。一致すれば存続、      一致しない場合は入替とする。  

2.経緯度が完全一致しないもの     >住所や名称の同一性に応じて条件が分岐する。    3.結合先が見つからないもの     >新規出現か消滅と判定される。    

以下本手法の詳細について説明する。  

9 1.データ活用例 2.データ構築手法 3.データ分析

Page 10: 20131125 gis学会

2-­‐3.  店舗・事業所の同一性判定フロー  

%/'-/

$, ����4�$,��44444

�� 6���� ��6���� 44�2�,-�3

4&(.������ 4444&(.4����4$,44444444

�6����4444!�!4+�+44���;<:444�6���� 44

�����$,��44444

44&(.������ &(.4 0�

0 $�)-'* �"#�� ���$,

1 40 1�9�5

;<:�874444444444&(.4444444 2��

42�,-�34 40��� 3����

10 1.データ活用例 2.データ構築手法 3.データ分析

Page 11: 20131125 gis学会

2-­‐3.  経緯度が完全一致するもの  

%/'-/

$, ����4�$,��44444

�� 6���� ��6���� 44�2�,-�3

4&(.������ 4444&(.4

����4$,44444444

�6����4444!�!4+�+44���;<:444�6���� 44

�����$,��44444

44&(.������ &(.4 0�

0 $�)-'* �"#�� ���$,

1 401�9�5

;<:�874444444444&(.4444444 2��

42�,-�34 40��� 3����

11 1.データ活用例 2.データ構築手法 3.データ分析

Page 12: 20131125 gis学会

2-­‐3.  経緯度が完全一致するもの  

完全に同一地点にあるデータ同士をリンクする。  ↓  

名称が完全一致する場合、「存続」とする。  

名称が完全一致しない場合、N-­‐gram(後述)により類似度が0.35以上で「存続」、0.35未満で「入れ替え」とする。  

↓  以上の処理を行った後、新旧時点間でリンクできない場合、新しい

年のみに存在する店舗は「新規出現」、古い年にのみに存在する店

舗は「消滅」と判定する。  

12 1.データ活用例 2.データ構築手法 3.データ分析

Page 13: 20131125 gis学会

2-­‐3.  N-­‐gramとは?  

13

Text-i

本のアキヤマ Text-j

5)2( =im

5)2( =jm3)2( =jin

)2()2(

)2()2()2(

ji

jiijij mm

nnS

+

+=

60.05533=

+

+

文字列iと文字列jの類似度

3)2( =ijn

アキヤマ書店

アキ キヤ ヤマ マ書 書店

本の のア アキ キヤ ヤマ

3ブロックが一致  

 文字列同士の類似度を定量的に評価する手法。表記揺れや語順の揺れを吸収しながら文字列の同一性を評価できる。表意文字を使い、単語間の分かち書きを行わない日本語や中国語、韓国語等の処理で利用価値が高い手法である。

1.データ活用例 2.データ構築手法 3.データ分析

Page 14: 20131125 gis学会

2-­‐3.  経緯度が完全一致しないもの  

%/'-/

$, ����4�$,��44444

�� 6���� ��6���� 44�2�,-�3

4&(.������ 4444&(.4

����4$,44444444

�6����4444!�!4+�+44���;<:444�6���� 44

�����$,��44444

44&(.������ &(.4 0�

0 $�)-'* �"#�� ���$,

1 401�9�5

;<:�874444444444&(.4444444 2��

42�,-�34 40��� 3����

14 1.データ活用例 2.データ構築手法 3.データ分析

Page 15: 20131125 gis学会

2-­‐3.  経緯度が完全一致しないもの  

経緯度が完全一致するデータが存在しない。  ↓  

・住所と名称の同一性判断により、共に完全一致する場合、「存続」とする。  名称が完全一致しない場合はN-­‐gramによる名称同一性判定を実施する。  

                        ↓   ・ 近隣の店舗同士をリンクし名称同一性判断   (ただし 近隣店舗までの距離が20m以上なら無視。)  

↓  N-­‐gramにより類似度が0.35以上で「存続」、0.35以下で「入れ替え」とする。  

↓  

以上の処理を行った後、新旧年でリンクできないもので新しい年のみに存在

する店舗は「新規出現」、古い年にのみに存在する場合は「消滅」とする。  15

1.データ活用例 2.データ構築手法 3.データ分析

Page 16: 20131125 gis学会

2-­‐3.  結合先が見つからないもの  

%/'-/

$, ����4�$,��44444

�� 6���� ��6���� 44�2�,-�3

4&(.������ 4444&(.4

����4$,44444444

�6����4444!�!4+�+44���;<:444�6���� 44

�����$,��44444

44&(.������ &(.4 0�

0 $�)-'* �"#�� ���$,

1 401�9�5

;<:�874444444444&(.4444444 2��

42�,-�34 40��� 3����

16 1.データ活用例 2.データ構築手法 3.データ分析

Page 17: 20131125 gis学会

2-­‐3.  結合先が見つからないもの  

新しい年のみに存在する店舗は「新規出現」、古い年にのみに存在

する場合は「消滅」とする。  

17 1.データ活用例 2.データ構築手法 3.データ分析

Page 18: 20131125 gis学会

2-­‐4.  処理結果

18

東京都と八王子市について店舗・事業所の2011年〜2012年までの時系列変化を明らかにした。  

�,"72.72%�

����,"1.85%�

�,"6.08%�

���,"19.36%�

������69������

��,"73.95%�

����,"0.96%�

� ,"7.19%�

���,"17.91%�

����2������

東京都全体と八王子市は「存続」70%前後、「入替え」1%前後、「消滅」6%前後、「新規出現」18%前後と、概ね同じような時系列変化が見られる。  時系列変化は全国の詳細な地域にピックアップすることが可能である。

1.データ活用例 2.データ構築手法 3.データ分析

Page 19: 20131125 gis学会

2-­‐4.  八王子市における時系列空間結合の例

19

0km� 1%km�

�%%� ��%%��%%���%

N�

0km� 8%km�

�%%� ��%%��%%���%

N�

店舗・事業所の時系列変化を地図にプロットした。  これによりどこでどのような時系列変化が起こったのか可視化できる。

例えば、八王子市全域の時空間結合では「入れ替え」を表す青色のポイントデータが集中する場所がある。そこを拡大すると八王子駅周辺でターミナル駅であり、店舗・事業所の多くが入れ替わっ

ていることが分かる。

八王子駅周辺における時系列空間結合

八王子市における時系列空間結合

1.データ活用例 2.データ構築手法 3.データ分析

Page 20: 20131125 gis学会

3-­‐1.  構築データを用いた分析

構築した店舗・事業所の時系列変化データを用いて商業店舗の売り上げ変化要因を検証する為にデータを集計した。  

1.  業種別の時系列変化の件数・割合の集計  

•  今回は東京都全域、東京23区、東京都の各市区町村について明らかにした。  

•  同様のデータは日本全国で作成可能であり、市区町村別集計も可能である。  

 2.  売上データを提供いただいている各商業店舗から500m圏内

(可変)の業種別の時系列変化の件数と割合の集計  

•  店舗データを与えることで任意の店舗で集計可能。  

       

20 1.データ活用例 2.データ構築手法 3.データ分析

Page 21: 20131125 gis学会

21

3-­‐2.  業種別の時系列変化別の件数(2011~2012年)     東京都全域

0

20,000

40,000

60,000

80,000

100,000

120,000

140,000

160,000

180,000

200,000

水産

農林

鉱業 建設

土木

食品 繊維

化学

薬品

石油

石炭製品

製品

窯業

鉄鋼 非鉄金属

金属製品

機械 電気機器

輸送用機器

精密機器

他製品

商業 金融保険

不動産

陸運 海運 空運 倉庫

運輸関連

通信

情報

電気

技術

専門職 施設 用品店

娯楽

食事関係

行楽地関連

病院

福祉

大型総合店舗

生活関連店

車関連

学校

教養

役所

公共機関

不明

K

店舗

事業所数

第三次産業の娯楽・食事、生活関連店(小売店)が非常に多い。第二次産業では建設土木業が圧倒的に多い。第一次産業は極めて少ない。

Page 22: 20131125 gis学会

3-­‐2.  業種別の時系列変化別の割合(2011~2012年)     東京都全域

22

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

水産

農林

鉱業 建設

土木

食品 繊維

化学

薬品

石油

石炭製品

製品

窯業

鉄鋼 非鉄金属

金属製品

機械 電気機器

輸送用機器

精密機器

他製品

商業 金融保険

不動産

陸運 海運 空運 倉庫

運輸関連

通信

情報

電気

技術

専門職 施設 用品店

娯楽

食事関係

行楽地関連

病院

福祉

大型総合店舗

生活関連店

車関連

学校

教養

役所

公共機関

不明

K

東京都の業種ごとの店舗・事業所にどのような変化が起きたのかも明らかにできる。

1.データ活用例 2.データ構築手法 3.データ分析

Page 23: 20131125 gis学会

3-­‐3.  ある商業店舗のスタディデータ

15000000  

17000000  

19000000  

21000000  

23000000  

25000000  

27000000  

29000000  

31000000  

1   2   3   4   5   6   7   8   9   10   11   12  

sale

month

2012sale  

2011sale  

2010sale  

2009sale  

0  

100  

200  

300  

400  

500  

600  

700  

800  

水産

農林

鉱業

建設

土木

食品

繊維

化学

薬品

石油

石炭製品

製品

窯業

鉄鋼

非鉄金属

金属製品

機械

電気機器

輸送用機器

精密機器

他製品

商業

金融保険

不動産

陸運

海運

空運

倉庫

運輸関連

通信

情報

電気

技術

専門職

施設

用品店

娯楽

食事関係

行楽地関連

病院

福祉

大型総合店舗

生活関連店

車関連

学校

教養

役所

公共機関

不明

K

店舗

・事

業所

数(件

廃業

新設

入替

存続

0%  10%  20%  30%  40%  50%  60%  70%  80%  90%  100%  

水産

農林

鉱業

建設

土木

食品

繊維

化学

薬品

石油

石炭製品

製品

窯業

鉄鋼

非鉄金属

金属製品

機械

電気機器

輸送用機器

精密機器

他製品

商業

金融保険

不動産

陸運

海運

空運

倉庫

運輸関連

通信

情報

電気

技術

専門職

施設

用品店

娯楽

食事関係

行楽地関連

病院

福祉

大型総合店舗

生活関連店 車関連 学校

教養

役所

公共機関

不明

K

前年比(2012)   +31.85%

コンビニ 存続 18

入替わり 1

  新規出現 1

  消滅 3

500m圏内の競合他社(コンビニ)時系列変化

23

ある商業店舗の売上と周辺(500m圏内)の業種別店舗・事業所の時系列変化の件数・割合(2011年から2012年)を明らかにした。今後はこのようなデータをどのように組み合わせ定量的に売上要因を表せるかが課題となる。

Page 24: 20131125 gis学会

今後の課題

作成したデータをどのように組み合わせて、他社要因による売上変化を定量的に表すか?  

•  売上変化要因となり得る業種の絞り込み     >売上が伸びた(あるいは下がった)時期に、周辺ではどの       業種の店舗が出現・消滅したのか?  

•  売上変化に関係する店舗との距離関係の検証  

•  自社要因、市場要因をどのように取り除くのか?  >競合他社の時系列変化のみで売上変化が起きたと   どのように断定するのか?  

24