发电商竞标策略研究与分布式仿真系统实现

发电商竞标策略研究与发电商竞标策略研究与分布式仿真系统实现分布式仿真系统实现

报告人：李长山指导老师：高峰教授

2007-5-24 系统工程研究所李长山 2/46

论文内容

研究的相关背景

发电商竞标策略的优化方法

考虑机组约束的发电商竞标策略

分布式仿真系统实现

总结与展望

回答评审老师的问题


研究背景传统电力工业

电力市场

发电输电系统控制配电供电

经济效益低下

市场及系统操纵者

电网发电购电

本文的研究对象

引入竞争机制，优化资源配置

本文主要从发电侧市场中的发电商角度出发，对其竞标策略进行研究，没有考虑购电侧市场。


制定竞标策略所考虑的问题– 机组和输电网络的固有约束– 市场规则、信息– 其他发电商的竞标策略

竞标问题的难点– 更多的准确的信息– 其他参与者的策略– 市场本身的不确定性

竞标策略研究

本文的研究方法本文通过仿真的方法，模拟电力市场的行为，分析电力市场的竞标规则，优化市场参与者的竞标策略。


论文内容





总结与展望



发电商竞标策略的优化方法预测市场清算价

– 基本思想：在准确估计市场清算价的基础上，提交一个略为便宜的价格即可。

– 模型特点具有长期的稳定性

与负荷变化密切相关历史数据不够全面


发电商竞标策略的优化方法预测其他竞争对手的报价行为

– 基本方法对竞争对手的报价策略和成本等信息进行预测，然后利用概率的方法得到最优方案。– 数学模型

, ,Max q qt C q t

0 q Q

min maxP P P

1

1, 2,n

jj

Q D j n

s.t.

针对上面的数学模型 , 通过对历史数据的分析计算，对其他对手竞标各段报价对进行估计，应用统计学的方法可以得到对手竞标行为的概率分布。进而可以确定市场出清价格，使得上述的优化问题就变成了随机优化问题。


发电商竞标策略的优化方法基于博弈论的策略性报价

– 期望收益

– 最大收益与报价

1 1

2 2

0 0

, , G yE G x T x y d ax bx c xydG y ax bx c

(G, )0

dE x

dx

2

22

22

y

opt

b y eP

a

2

22

2

y

Q y e

期望收益函数

市场电价的概率分布

说明可以将上述方案产生的报价是针对每个时段一个报价对的情况，可以以此为最低报价，通过离散化产生多个报价对。


三种竞标策略的比较竞标策略优点不足基于预测市场清算

价原理简单，易于理解，

容易操作。清算价数据有限，波动频

繁且幅度大导致精度低

基于预测竞争对手

行为

理论性强，预测的准确度高，

对不确定信息难以把握，随机参数的确定带有主观性。

基于博弈论

其应用符合市场情况，应用广，易于实现。

博弈理论算法和理论不够成熟，计算量大。

其他研究方法

运用多 Agent 技术，对电力市场进行模拟，各智能体自我学习，自我决策，从而找出最优决策。

2007-5-24 系统工程研究所李长山 10/46

论文内容





总结与展望


2007-5-24 系统工程研究所李长山 11/46

考虑机组约束的发电商竞标策略 Q 学习方法

Q 学习策略模型– 市场模式

– 数学描述

– Q 学习策略模型

仿真案例分析– 确定与非确定环境下的 Q 学习

– 各种因素对 Q 学习策略的影响

2007-5-24 系统工程研究所李长山 12/46

Q-Learning

s0

a0 r0

s1

a1 r1

s2

a2 r2

…

Agent

环境

动作状态回报

目标：学习选择动作使下式最大化2

0 1 2 0 1r r r

2007-5-24 系统工程研究所李长山 13/46

Agent学习任务是学习一个控制策略可利用的训练信息为。选定数值评估函数V*，则在状态 s 下的最优动作为

条件：具有回报函数 r 和状态转移函数的完美知识。

定义 Q 函数则由此可知，在缺少 r 或的知识时， Agent也

可做到选择最优动作。

( , )i ir s a

Q-Learning 算法: S A

* *( ) arg max[ ( , ) ( ( , ))]as r s a V s a

*( , ) ( , ) ( ( , ))Q s a r s a V s a *( ) arg max ( , )as Q s a

2007-5-24 系统工程研究所李长山 14/46

关于 Q 的学习由 Q与 V* 的关系 :

得在实际中， Q 值通过 Agent 同环境的不断交互学习获得更新，以逼近实际值。

通过对 Q 值的学习， Agent 只需考虑其当前状态 s下的每个可用动作 a ，并选择其中使 Q(s,a) 最大化的动作，就可以得到最优决策。

Q-Learning 算法

)'),,((max),(),('

aasQasrasQa

'

* 'max ( , )a

V Q s a

)','(max),(),('

asQasrasQa

2007-5-24 系统工程研究所李长山 15/46

Q-Learning 算法对每个 <s,a> 初始化表项 Q#(s,a)观察当前状态 s如果 n < Max Step

– 选择一个动作 a 并执行– 接收到立即回报 r– 观察新状态 s’– 对 Q#(s,a) 进行更新

– s ← s’'

# # ' '( , ) max ( , )a

Q s a r Q s a

# # #1 1

'( , ) (1 ) ( , ) [ max ( ', ')]n n n n n

aQ s a Q s a r r Q s a

2007-5-24 系统工程研究所李长山 16/46

时前市场模式竞标数据形式

– 分为 24 个报价时段；–为后一时段进行报价–分 3 段报价；–容量段价格递增；–满足机组的约束条件。

结算方法

时间

负荷需求

负荷1680MW

3:00

￥400 &40MW

￥-15 &200MW

￥150 &400MW

￥160 &40MW

￥200 &100MW

￥210 &350MW

￥220 &40MW

￥230 &450MW

￥250 &40MW

￥280 &60MW

￥350 &100MW

￥380 &200MW∑=1680

MCP=280 ￥

2007-5-24 系统工程研究所李长山 17/46

竞标问题的数学模型

约束：状态转移约束容量约束机组爬升约束最小开关机时间约束首末开关机约束变量说明：

( )p t 机组在 t 时段得到的最优竞标出力

( ( ))C p t 机组出力为 p(t)时的燃料成本( )t t 时段的市场清算价

( ( ), ( ))S x t u t 机组启动成本

1

[ ( ) ( ) ( ( )) ( ( ), ( ))]T

i i i it

Max p t t C p t S x t u t

2007-5-24 系统工程研究所李长山 18/46

Q 学习策略模型

基本思想： n台机组作为参与者（ player），将负荷

波动和对手策略看作发电商 Agent 所需感知的环境（ environment ）。对于机组 i ，根据机组参数，离散化机组出力，将离散的出力作为机组的报价的段容量，也作为 Q-learning 的状态（ state ），每一个段容量有其相应的一组段价作为动作（ action ）。通过发电商同 ISO 交互的仿真过程，利用 Q-learning 得到报价机组的日报价均衡策略。

2007-5-24 系统工程研究所李长山 19/46

Q 学习策略模型状态

动作

0 ( ) 0( )

( ) ( 1)i

h i

s if p ts t

s if p t P h

s1

s0 s0

s1

s0

s2

s1 shsh

sh+1

sh-1

sH sH

sH-1

2

q / L

4

6

2

q / L·h-1

·h-1

2

q / L

4

6

2

q / L·h-1

·h-1

2

q / L

4

6

2

q / L·h-1

·h-1

2

q / L

4

6

2

q / L·h-1

·h-1

2

q / L

4

6

2

q / L·h-1

·h-1

2

q / L

4

6

2

q / L·h-1

·h-1

2

q / L

4

6

2

q / L·h-1

·h-1

2

q / L

4

6

2

q / L·h-1

·h-1

停机最小开机一般运行最大开机

2007-5-24 系统工程研究所李长山 20/46

Q 学习策略模型

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

Pmax

Pmin

P0

t1 t2 t3 t24

状态转移图

•s(t)=s0， <0, Pmin, 0><0, 0,0>

•s(t)=s1， <0, 0, 0><0, Pmin, Д >

•s(t)=sH，<Pmax- Д, Д, 0>

•s(t)=sh， <pi(t) - Д, Д, Д >

不同状态下，竞标策略中 i(t) 的段容量<a t

i1, a ti2, a t

i3> ：

为段容量 <ti1, t

i2, ti3> 配以

不同策略下的申报价格 <ti1,

ti2, t

i3> 就构成了机组 i的竞标策略集 {ie(t)}E，即 Agent在s(t) 的动作集合 As(t)。

2007-5-24 系统工程研究所李长山 21/46

在状态 s(t) ，利用 Q值随机选择集合 As(t) 中的竞标策略作为动作 a(t) 。各个动作的选择概率由下式决定：

Q 学习策略模型回报

将 Ri(t+1) 作为 t 时刻回报 r(s(t),a(t)) ，并且由 pi(t+1) 可以得到下一

时段状态 s(t+1) 。 Q 函数与动作选择利用上面的状态转移模型，可将问题转化为如下 Q 学习问题

( 1) ( 1) ( 1) ( ( 1)) ( ( 1), ( 1))i i i i iR t t p t C p t S x t u t

* *

( )( ( )) arg max[ ( ( ), ( )) ( ( 1))]

a ts t r s t a t V s t

1

1( 1)

( ( ), ( )) (1 ) ( ( ), ( )) [ ( 1)

max ( ( 1), ( 1))]n n n n i

na t

Q s t a t Q s t a t R t

Q s t a t

1

=1 ( ( ), ( ))n

nvisits s t a t

( ( ), ( ))

( ( ), ( ))( ( ) | ( ))

j

e

Q s t a t

j Q s t a te

kP a t s t

k

*

1

( ( 1)) ( )T

ij t

V s t R j

动作的选择

2007-5-24 系统工程研究所李长山 22/46

Q 学习策略的仿真案例

0 5 10 15 20 25

400

500

600

700

800

900

1000

1100

1200

1300

/负荷容量M

W

/时段小时

L1负荷需求 L2负荷需求 C1系统容量 C2系统容量

仿真环境p p c机组编号 /MW /MW Δ/MW /h /h /h

1 430 150 40 8 8 13

2 430 150 40 8 8 13

3 130 20 － 5 5 9

4 130 20 － 5 5 9

5 162 25 － 6 6 10

2007-5-24 系统工程研究所李长山 23/46

仿真案例中竞标策略类型 Q 学习策略将边际成本的 1倍、 1.2倍、 1.5倍分别为低（ L）、中（M）、高（ H），三档报价同段容量进行组合，构成竞标策略动作集 As(t)。例如，对于一般的三段报价，段价集 {<b t

i1, b ti2, b t

i3>}共有 {LLL, LLM,

LLH, LMM, LMH, LHH, MMM, MMH, MHH, HHH}十种选择。

固定报价策略在机组边际成本基础上申报递增的竞标曲线。

随机报价策略在固定报价的基础上加入随机扰动。

固定报价策略和随机报价策略分别用于模拟仿真算例中的确定性市场环境和

非确定性市场环境

2007-5-24 系统工程研究所李长山 24/46

确定性环境下的 Q 学习策略

0 1000 2000 3000 4000 5000

-20000

-10000

0

10000

20000

30000

40000

24小时利润

/$

利润

仿真次数

1# 机组采用 Q 学习策略，其他机组采用固定报价方式。市场负荷需求为 L1

利润随仿真次数的变化

0 1000 2000 3000 4000 5000-50

0

50

100

150

200

250

300

350

400

1# 9机组时段状态

/MW

状态

仿真次数

机组状态随着仿真次数的变化

2007-5-24 系统工程研究所李长山 25/46

非确定性环境下的 Q 学习策略

0 1000 2000 3000 4000 500022

24

26

28

30

32

34

36

5 MCP时段

MC

P/$

仿真次数

0 1000 2000 3000 4000 5000-10000

0

10000

20000

30000

40000

50000 1＃ 24机组小时利润 2＃ 24机组小时利润

/$

利润

仿真次数

两机组（ 1#， 2# ）采用 Q 学习策略，其他机组采用相对方差为5% 的随机报价方式，市场的负荷需求为 L1 。

MCP 随仿真次数增加的变化机组利润随仿真次数变化

2007-5-24 系统工程研究所李长山 26/46

环境随机性对 Q 学习策略的影响三种环境：

确定性环境：系统负荷为L1， 1# 机组采用 Q 学习策略，其他 4 个机组采用固定报价方式。

较小随机环境：系统负荷在L1 的基础上按 5% 的相对方差随机扰动， 1# 机组采用 Q 学习策略，其他 4 个机组采用固定报价方式。

较大随机环境：系统负荷在L1 的基础上按 10% 的相对方差随机扰动， 1# 机组采用 Q学习策略，其他 4 个机组采用相对方差为 5% 的随机报价方式。

2007-5-24 系统工程研究所李长山 27/46

负荷需求对 Q 学习策略的影响

不同系统需求下 1# 机组的收敛状态不同系统需求下 1# 机组总利润

系统负荷按 5% 的相对方差随机扰动， 1# 机组采用 Q 学习策略，其他 4 个机组采用相对方差为 5% 的随机报价方式。

2007-5-24 系统工程研究所李长山 28/46

论文内容





总结与展望


2007-5-24 系统工程研究所李长山 29/46

Agent 与多 Agent 系统Agent 基本概念

– 自治性– 社会能力– 反应能力– 自发行为

Agent 狭义概念一个 Agent 是这样一个实体 , 它的状态可以

看作是由信念、能力、选择、承诺等心智状态组成的。

2007-5-24 系统工程研究所李长山 30/46

Agent 与多 Agent 系统多 Agent 系统（ MAS ）

Multi-Agent 系统是指由多个 Agent 组成的系统，它是为了解决单个 Agent 不能够解决的复杂问题，由多个 Agent 协调合作形成的问题求解网络。

复杂问题域

Multi-Agent 系统

Agent1

Agent2Agent3 交流与协作

2007-5-24 系统工程研究所李长山 31/46

Network hostNetwork host

Agent ContainerAgent

ContainerRMI 机

制

Network hostNetwork host Link

Main Container

Main Container

Agent ContainerAgent

Container

Agent1 Agent2 Agent3进程

线程

ACLMessage

Jade 平台

2007-5-24 系统工程研究所李长山 32/46

竞标策略仿真系统

基于多 Agent竞标策略仿真

系统

市场类型

竞标策略

浙江市场

时前市场

贪婪搜索

RE 算法

调度算法

Q 学习

PJM 市场

PX 市场

现有系统的组织结构

系统的仿真界面

2007-5-24 系统工程研究所李长山 33/46


Agent消息

数据库读写

ISO

GenCo GenCo GenCo...

数据库

GenCo GenCo GenCo...

数据库

...

ISO

系统改造前后的组织结构图

2007-5-24 系统工程研究所李长山 34/46

分布式仿真系统实现主要实现方法

– 新建数据类，对竞标结算数据进行封装。

– 创建新数据结构，对 Agent 的基本信息进行存储。

– 在 ACL Message 上加载数据类的实例，利用 Java

中的序列化机制，在 Agent之间实现竞标数据的传输

– 调整整个系统的竞标实现流程。

– 改写与调整数据库的读写

2007-5-24 系统工程研究所李长山 35/46


Agent之间的信息交互

2007-5-24 系统工程研究所李长山 36/46

仿真系统测试

竞标数据的单向传输

ISO

竞标数据的双向传输

ISO

分布式仿真环境Ⅱ

分布式仿真环境Ⅲ

竞标数据的读取

系统Ⅰ：所有的 Agent都运行于一台 PC 上，读取同一数据库。系统Ⅱ ： Agent 分别运行于不同的 PC 上，但是读取同一数据库。

系统Ⅲ ：与系统Ⅱ类似，不同的是读取各自的数据库，消息实现双向传输。测试环境： CPU为 P4 3.0GHZ ，内存为 512MB；软件环境为 JRE 5.0， Jade 3.1，Microsoft SQL Server 2000 个人版。测试案例：时前市场模式，机组的竞标策略采用 Q 学习方法，仿真次数为 200次。

2007-5-24 系统工程研究所李长山 37/46

仿真系统测试仿真环境机组个数时间 /秒 CPU 使用率

系统Ⅰ

3 142.3 97%

4 176.8 99%

5 217.5 100%

系统Ⅱ

3 81.4 57%

4 99.1 58%

5 128.5 60%

系统Ⅲ

3 65.7 <10%

4 81.3 <10%

5 103.2 <10%

1 2 30

20

40

60

80

100

120

140

160

180

200

220

/时间秒

系统环境

3个机组 4个机组 5个机组

仿真测试所用时间

2007-5-24 系统工程研究所李长山 38/46

论文内容





总结与展望


2007-5-24 系统工程研究所李长山 39/46

总结与展望工作总结

– 对已有竞标策略优化方法的分析总结– 考虑机组约束的发电商竞标策略– 分布式仿真系统的实现

研究展望– 竞标策略方面

• 考虑网络传输等更多约束的竞标策略• 进化理论在电力市场中应用

– 仿真系统方面• 市场模式，发电侧市场• 充分发挥 Agent 的社会性，移动性等特点。

2007-5-24 系统工程研究所李长山 40/46

论文内容





总结与展望


2007-5-24 系统工程研究所李长山 41/46

卫老师的问题把现有的多 Agent 竞标策略仿真系统改造成

以分布式运行的系统，是基于何种考虑。对系统分布式的改造主要是因为原来集中式系统的性能满足不了仿真的需求，主要表现为：– 随着仿真个体数量的增加，系统的性能将会显著下降。– 高复杂度的算法的引入，需要计算资源越来越多。另外，分布式系统的实现有利于系统功能开发与扩展。

2007-5-24 系统工程研究所李长山 42/46

卫老师的问题在分布式仿真系统中有一个非常重要的问题就是通信和同步，有些情况下用于通信和同步的开销可能很大，请问如何解决分布节点之间的同步问题。系统用多线程的阻塞与唤醒机制来同步多个 Agent 。举例：在 ISO 与多个 GenCo 交互的过程中，为了同步 ISO 与

多个 GenCo 的通信，首先阻塞 ISO线程，轮询等待 GenCo发送消息到来，等到所有的 GenCo都发来消息，唤醒 ISO 线程进行下一步动作，如果一个 GenCo在特定的时间内一直没有发来消息，则 ISO 进行下一步动作并且发送一个提示消息给该 GenCo 。

2007-5-24 系统工程研究所李长山 43/46

仿真系统流程设定参数

建立市场环境

等待GenCo注册

达到市场规模？

发布提交竞标数据的消息

向ISO注册

提交数据完成？

等待提交数据

等待ISO消息

提交竞标数据

读取竞标数据

计算清算价和成交电量

把结算信息写入数据库

发布交易消息

通知ISO完成提交

等待ISO消息

读取结算信息

利用优化策略产生新的竞标数据

计算利润并写入数据库

是

否

否

是ISO部分

GenCo部分

2007-5-24 系统工程研究所李长山 44/46

卫老师的问题在表 4-1 中，系统 2 和系统 3 的差别不大，运

行时间也相差不多，请解释 CPU利用率为什么相差如此之大。如论文中所述 , 系统Ⅱ部分的 CPU 使用率是 ISO端的 ,在仿

真测试环境中，数据库和 ISO 是运行于同一 PC之上。在测试前，去掉了所有无关进程。由于在仿真过程中，仿真次数很多，如几千次，上万次；并

且个别表中所记录的数据维数很大，例如 Q 学习中的 Q 函数值为 24×10×10 的三位数组。这就造成了表中的数据项非常多。在进行仿真的时候，各个 GenCo 需要对表进行查询检索，需要占用较多的 CPU 时间。（参见《 SQL Server 2000 性能调整技术指南》）

在系统Ⅲ中，数据双向传输， Agent只需向数据库中写即可。

2007-5-24 系统工程研究所李长山 45/46

曹老师的问题利用 Q 学习算法求解竞标策略与其他优化方

法相比在计算速度和优化效果方法性能提高了多少？初始值对优化结果有无影响。–目前并无其他的智能优化优化方法应用到考虑机

组约束的竞标策略研究中。其中利用到的状态转移机制是其他方法中所不具备的。

– Q 的初始值对结果有一定影响， Q 值过小，容易使得算法过早收敛，无法得到比较好的结果； Q值过大，会导致算法的收敛较慢。

谢谢大家！谢谢大家！

发电商竞标策略研究与 分布式仿真系统实现

Documents

发电商竞标策略研究与分布式仿真系统实现