評価関数を用いた エージェント間の交渉

Post on 31-Dec-2015

18 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

評価関数を用いた エージェント間の交渉. 5 月28日 河目 瞬. Artifical Intelligence 84(1996) 151-176. 『Compromise in negotiation : exploing worth functions over states』 Gilad Zlotkin , Jeffrey S. Rosenschein. 2人で野球観戦に行きたい. 2人で映画を見に行きたい. 話し合い. エージェント1. エージェント2. どうする?. 例:ミーティングの設定. ・時間帯が遅くなってから行いたい。 - PowerPoint PPT Presentation

TRANSCRIPT

評価関数を用いた評価関数を用いたエージェント間の交渉エージェント間の交渉

評価関数を用いた評価関数を用いたエージェント間の交渉エージェント間の交渉

55 月28日月28日河目 瞬河目 瞬

Artifical Intelligence 84(1996) 151-176Artifical Intelligence 84(1996) 151-176『『 Compromise in negotiation : exploing worth functionCompromise in negotiation : exploing worth function

s over statess over states 』』Gilad Zlotkin , Jeffrey S. RosenscheinGilad Zlotkin , Jeffrey S. Rosenschein

2人で野球観2人で野球観戦に行きたい戦に行きたい2人で野球観2人で野球観戦に行きたい戦に行きたい

2人で映画を2人で映画を見に行きたい見に行きたい2人で映画を2人で映画を見に行きたい見に行きたい

話し合い  

どうする?  

エージェント1 エージェント2

例:ミーティングの設定

二人はミーティングを行いたい

・時間帯が遅くなってから行いたい。・自分のオフィスで行いたい。

・時間帯が早いうちに行いたい。・自分のオフィスで行いたい。

エージェント A1

エージェント A2

価値の概念の導入

エージェントにとって、どれだけ好ま

しい状態なのかを表す指標

状態に価値を与える

0

20

40

60

80

100

120

140

160

180

200

9am 10am 11am noon 1pm 2pm 3pm 4pm

エージェント A1 の評価関数

ミーティングの時刻

価値

A 1にとって、午後4時のミーティングが最も高い価値

エージェント A1 の最も好ましい時間帯が、午後4時であるとする

0

20

40

60

80

100

120

140

160

180

200

9am 10am 11am noon 1pm 2pm 3pm 4pm

エージェント A2 の最も好ましい時間帯が、午前9時であるとする

エージェント A2 の評価関数

A2 にとって、午前9時のミーティングが最も高い価値

ミーティングの時刻

価値

0

10

20

30

40

50

60

70

80

90

100

エージェント A1 のコスト関数

コスト

ミーティングの場所A2 オフィスA1 オフィス

エージェント A1 にとって、自分のオフィスに近いほど、移動コストがかからない

A1 にとって、 A1 オフィスでのミーティングが最も低いコスト

0

10

20

30

40

50

60

70

80

90

100

エージェント A2 のコスト関数

コスト

ミーティングの場所A1 オフィス A2 オフィス

エージェント A2 にとって、自分のオフィスに近いほど、移動コストがかからない

A2 にとって、 A 2オフィスでのミーティングが最も低いコスト

双方のエージェントにとって、ユーティリティとは、  

ユーティリティ=価値ーコスト

エージェントは、これを最大にエージェントは、これを最大にしたいしたい

エージェントは、これを最大にエージェントは、これを最大にしたいしたい

ユーティリティの定義  

エージェント A1 のユーティリティ関数

A1 オフィス

A2 オフィス4pm

3pm

2pm

10m

noon

11am

10am

9am

020406080

100120140160180200

ユーティリティ

エージェント A1 にとって午後4時に、A1 オフィスで開かれることが最も好ましい

4pm、 A1 オフィスでのユーティリティが最大

4pm

3pm

2pm

10m

noon

11am

10am

9am

0

50

100

150

200

エージェント A2 のユーティリティ関数

ユーティリティ

A2 オフィス

A1 オフィス

エージェント A2 にとって午前9時に、A2 オフィスで開かれることが最も好ましい

9 am 、 A2 オフィスでのユーティリティが最大

2人のユーティリティの和を最大にする

2人のユーティリティの積を最大にする

2人のエージェントの話し合いの結果として・・・

2人のユーティリティの兼ね合いが、最大になる点を結論として考える

2つのアプローチの仕方がある

2人のユーティリティの和を最大にする9a

m

10am

11am

noon

1pm

2pm

3pm

4pm

0

50

100

150

200

250ユーティリティの和

A1 オフィス

A2 オフィス

2人のユーティリティの和

が最大となる点を、話し合いの解決とする

上の4つの状態が、ミーティングの行われる状態となる

2人のユーティリティの積を最大にする9a

m

10am

11am

noon

1pm

2pm

3pm

4pm

0

2000

4000

6000

8000

10000

12000ユーティリティの積

A1 オフィス

A2 オフィス

2人のユーティリティの積

が最大となる点を、話し合いの解決とする

上の2つの状態が、ミーティングの行われる状態となる

2人のユーティリティの積を最大にする

ゲーム理論の「ナッシュの定理」に基づくもの。

「ナッシュの定理」とは?

2人交渉問題のナッシュ解は、5つの公準を満たし、かつ、この5つの公準を満たす解は、ナッシュ解に限る。

ナッシュ解:2人のユーティリティの積を        最大にする解

5つの公準

(1)個人合理性

(2)共同合理性

(3)利得の一次変換での不変性(4)対称性(5)無関連な代替案からの独立性

2人のユーティリティの積を最大にする解

5つの公準を満たす唯一解である

5つの公準とは、交渉の特性を述べている

交渉問題において、適切と思われるのは、ユーティリティの積を最大にする解である

つまり

( Worth Oriented Domains :価値指向領域)WOD の定義

WOD では、各エージェントが評価関数を用いて、全ての状態に価値を割り当てている。

WOD ( Worth Oriented Domains )

< S , A , J , c > S: 領域の状態A : エージェントJ : 共同プランc : コスト関数

S: 全ての取り得る、領域の状態の集合

< S , A , J , c >

A ={ A1,A2, ・・・ ,An }:エージェントリスト

J : 全ての取り得る、共同プランの集合j: S→S     j∈J

c: コスト関数

c(j) i : プラン j におけるエージェント i の 活動のコスト

c: J→ ( R +)n

WOD 内で問題を解くために、まずあるものとして、

<s , ( W1,W2, ・・・ Wn)>

さらに

s : 領域の初期状態Wk : エージェント k の評価関数

交渉のエージェントに関する5つの仮定

(1) Utility maximizer

各々のエージェントは、彼の期待したユーティリティを最大にすることを望む

(2) Complete knowledge

各々のエージェントは、全ての関連情報を知っている

(3) Isolated negotiation

各々のエージェントは、現在の振る舞いが将来の交渉においてどんな影響を及ぼすか予期することができない。

(4) Bilateral negotiation

交渉は一度に、エージェントのペア一組の間で行われる。

(5) Symmetric abilities

全てのエージェントは、同じ活動が実行できる。そして、活動のコストは、各エージェントにとって同じである。

例:ブロック移動問題 (1人のエージェントの

み)

1 2 3 4

エージェント A1

①黒い箱をテーブル2に置きたい。ただし、 直接テーブルの上には置かない。②白い箱をテーブル3にひとつだけで置 きたい。

①のサブゴールの評価:4②のサブゴールの評価:6

箱を持ち上げるコスト:1箱を下ろすコスト:1

321 4

f1

f2

f3

サブゴール①を満たしている

サブゴール②を満たしている

両方のサブゴールを満たしている

コスト2

コスト4

コスト8

•f1の状態  W 4-C 2= U 2

•f2の状態  W6- C 4=

U 2•f3の状態 W (4+6)- C 8= U 2

3つの状態が皆同じユーティリティ。

W :評価(価値)C :コストU :ユーティリティ

ペナルティを導入

•f1の状態  W 4- C 2ーペナルティ6= U-4•f2の状態  W6- C 4ーペナルティ4= U-2•f3の状態  W (4+6)- C 8ーペナルティ0= U 2

f3の状態が、最良の状態。

サブゴールの不達成に対し、負の評価を与え

例:ブロック移動問題 (2人のエージェントによ

る)

混合共同プランの導入

・混合共同プランとは?

エージェントが、確率 p で共同プラン j =( j1 、 j2 )を実行し、また確率1ー p で対称的な共同プラン( j2 、 j1 )を実行するようなプランのこと

1 2 3 4

エージェント A1 エージェント A2

①黒い箱はテーブル1に置くが、その際、白い箱の上に置く。②灰色の箱はテーブル3に置く

①黒い箱はテーブル1に置くが、その際、白い箱の上に置く。②灰色の箱はテーブル4に置く

①の評価:10②の評価:4サブゴールの不達成によるペナルティ:①②ともにー2

両者が、サブゴール①を満たすには・・・

各々コスト2

1 432

灰色の箱を置く場所によって2つの最終状態がある

エージェント A1 が望む状態

エージェント A2 が望む状態

この状態にするプラン δ 1

この状態にするプラン δ 2

UA1(δ1) = W (10+4)- C (2+2)=10

UA1(δ2) = W 10ーペナルティ2ー C 2=6

UA2(δ1) = UA1(δ2) =6

UA2(δ2) = UA1(δ1) =10

ユーティリティを計算すると・・・

コスト10

  U = W (10+4)-C 10=4

1人で完全なゴールを達成するよりも U がいい。

マルチプラン deal の導入

エージェントが、確率qで混合共同プラン δ 1を

実行し、また確率1ーqで対称的な混合共同プラン δ 2を実行する。

・マルチプラン deal とは?

エージェント A1 が望む状態

エージェント A2 が望む状態

この状態にするプラン δ 1

この状態にするプラン δ 2

確率q

確率1-q

マルチプラン deal におけるユーティリティの定義

エージェントのユーティリティ   =q× ( δ 1でのユーティリティ)     +(1-q) × ( δ 2でのユーティリテ

ィ)

エージェント A1 が望む状態

エージェント A2 が望む状態

この状態にするプラン δ 1

この状態にするプラン δ 2

確率0.5

確率0.5

A1 ユーティリティ10A2 ユーティリティ6

A1 ユーティリティ6A2 ユーティリティ10

ユーティリティを計算すると・・・

UA1 =0.5 × 10+0.5 ×6=8UA2 =0.5 ×6+0.5 × 10=8

UA1 × UA2 = 8 × 8=64

エージェント A1 が望む状態

エージェント A2 が望む状態

この状態にするプラン δ 1

この状態にするプラン δ 2

A1 ユーティリティ10A2 ユーティリティ6

A1 ユーティリティ6A2 ユーティリティ10

例:タイルワールド

2 22

55

34

A 1

A 2穴(数字は、埋めた時の価

値)

タイル(これで穴を埋める)

障害物エージェント

エージェントによって違う価値

を当てられている穴

A

A

A

A 2A A

1マス移動でコスト1

159

A1

A2

11

5

10

5 10

世界の初期状態

15

A1

11

5

10

5 10

9

0A1

A1A1A1

A1A1

A1A1

A1 A1

エージェント A1 が1人で15の穴を塞ごうとすると・・・

コスト10

ユーティリティ5

15

11

5

10

5 10

A1

9

0A1

A1

A1

A1A1A1

A1

A1 A1 A1 A1

エージェント A1 が1人で9の穴を塞ごうとすると・・・

コスト12

ユーティリティ -3

15

11

5

10

5 10

A1

9

0A1

A1

A1

A1A1

A1A1

A1A1

A1 A1

A1 A1 A1 A1

エージェント A1 が1人で両方の穴を塞ごうとすると・・・

コスト16

ユーティリティ8

エージェント A1

15の穴のみを塞ぐ:ユーティリティ5

9の穴のみを塞ぐ:ユーティリティ-3

両方の穴を塞ぐ:ユーティリティ8

A1 は両方の穴を塞いで、最大ユーティリティ8を得る。

15

A2

11

5

10

5 10

9

0

A2

A2A2A2

A2A2

A2A2

A2 A2

エージェント A2 が1人で15の穴を塞ごうとすると・・・

コスト10

ユーティリティ5

15

11

5

10

5 10

9

0

A2

A2

A2 A2

A2 A2 A2

エージェント A2 が1人で9の穴を塞ごうとすると・・・

コスト6

ユーティリティ3

15

11

5

10

5 10

9

0

A2

A2

A2

A2A2

A2 A2

A2A2

A2 A2 A2

A2 A2 A2

A2

エージェント A2 が1人で両方の穴を塞ごうとすると・・・

コスト22

ユーティリティ2

エージェント A2

15の穴のみを塞ぐ:ユーティリティ5

9の穴のみを塞ぐ:ユーティリティ3両方の穴を塞ぐ:ユーティリティ2

A2 は15の穴のみを塞いで、最大ユーティリティ5を得る。

159

A1

A2

11

5

10

5 10

A2

A2

A1A1

A2

A1

A1

A1

A2

A1 A1 A1

2人のエージェントがA1 の両方の穴を塞ごうとすると・・・

A1コスト8

A2 コスト5

A1 ユーティリティ16 A2 ユーティリティ10

159

A1

A2

11

5

10

5 10

A1

A1

A2A2

A2

A1

A2

A2

A2 A2 A2

A2

2人のエージェントがA2 の両方の穴を塞ごうとすると・・・

A1コスト4

A2 コスト9

A1 ユーティリティ11 A2 ユーティリティ15

2人のエージェントA1 の穴を両方を塞ぐ:       A1 ユーティリティ16

       A2 ユーティリティ10A2 の穴を両方を塞ぐ:

       A1 ユーティリティ11

       A2 ユーティリティ15

160

165

2人は、 A2 の穴を両方塞ぐ

マルチプラン deal を適用させる

A1 の穴を両方を塞ぐ:     A1 ユーティリティ16     A2 ユーティリティ10

A2 の穴を両方を塞ぐ:     A1 ユーティリティ11     A2 ユーティリティ15

確率0.6

確率0.4

ユーティリティを計算すると・・・

UA1 =0.6× 16+0.4 × 11=13UA2 =0.4 × 10+0.6× 15=13

UA1 × UA2 = 13 × 13=169

まとめ

・交渉問題を考える手法のひとつとして、 WOD を紹介した。

・ WOD を使った例をいくつか紹介した。

参考文献

・『意思決定支援のためのマルチエージェントの協調機構と、  その応用に関する研究』             伊藤孝行

・『分散人工知能:交渉と均衡化』  桑原 和宏、石田 亨             

・『新ゲーム理論』                  鈴木 光男

top related